Sie sind auf Seite 1von 262

BIOESTADSTICA

Roberto Pastor-Barriuso
Cientfico Titular
Centro Nacional de Epidemiologa,
Instituto de Salud Carlos III,
Madrid

A la memoria de Carmen
A Marta, Pablo, Miguel y Antonio

NDICE
1 Estadstica descriptiva
1.1 Introduccin
1.2 Medidas de tendencia central
1.2.1 Media aritmtica
1.2.2 Mediana
1.2.3 Media geomtrica
1.3 Medidas de posicin: cuantiles
1.4 Medidas de dispersin
1.4.1 Varianza y desviacin tpica
1.4.2 Rango intercuartlico
1.4.3 Coeficiente de variacin
1.5 Representaciones grficas
1.5.1 Diagrama de barras
1.5.2 Histograma y polgono de frecuencias
1.5.3 Grfico de tallo y hojas
1.5.4 Diagrama de caja
1.6 Referencias
2 Probabilidad
2.1
2.2
2.3
2.4
2.5
2.6

Introduccin
Concepto y definiciones de probabilidad
Probabilidad condicional e independencia de sucesos
Regla de la probabilidad total
Teorema de Bayes
Referencias

3 Variables aleatorias y distribuciones de probabilidad


3.1 Introduccin
3.2 Distribuciones de probabilidad discretas
3.2.1 Distribucin binomial
3.2.2 Distribucin de Poisson
3.2.3 Aproximacin de Poisson a la distribucin binomial
3.3 Distribuciones de probabilidad continuas
3.3.1 Distribucin normal
3.3.2 Aproximacin normal a la distribucin binomial
3.3.3 Aproximacin normal a la distribucin de Poisson
3.4 Combinacin lineal de variables aleatorias
3.5 Referencias

1
1
3
3
4
5
5
6
6
7
7
8
8
9
10
11
12
13
13
14
16
18
18
20
21
21
22
24
26
29
29
31
34
36
37
39
vii

ndice

4 Principios de muestreo y estimacin


4.1 Introduccin
4.2 Principales tipos de muestreo probabilstico
4.2.1 Muestreo aleatorio simple
4.2.2 Muestreo sistemtico
4.2.3 Muestreo estratificado
4.2.4 Muestreo por conglomerados
4.2.5 Muestreo polietpico
4.3 Estimacin en el muestreo aleatorio simple
4.3.1 Estimacin puntual de una media poblacional
4.3.2 Error estndar de la media muestral
4.3.3 Teorema central del lmite
4.3.4 Estimacin de una proporcin poblacional
4.4 Referencias
5 Inferencia estadstica
5.1 Introduccin
5.2 Estimacin puntual
5.3 Estimacin por intervalo
5.3.1 Distribucin t de Student
5.3.2 Intervalo de confianza para una media poblacional
5.4 Contraste de hiptesis
5.4.1 Formulacin de hiptesis
5.4.2 Contraste estadstico para la media de una poblacin
5.4.3 Errores y potencia de un contraste de hiptesis
5.5 Referencias
6 Inferencia sobre medias
6.1 Introduccin
6.2 Inferencia sobre una media y varianza poblacional
6.2.1 Inferencia sobre la media de una poblacin
6.2.2 Inferencia sobre la varianza de una poblacin
6.3 Comparacin de medias en dos muestras independientes
6.3.1 Comparacin de medias en distribuciones con igual varianza
6.3.2 Contraste para la igualdad de varianzas
6.3.3 Comparacin de medias en distribuciones con distinta varianza
6.4 Comparacin de medias en dos muestras dependientes
6.5 Referencias

viii

41
41
42
43
43
44
46
47
49
49
51
53
55
58
59
59
60
62
62
63
67
67
69
72
76
79
79
80
80
81
83
85
88
90
92
95

ndice

7 Inferencia sobre proporciones


7.1
7.2
7.3
7.4
7.5
7.6

Introduccin
Inferencia sobre una proporcin poblacional
Comparacin de proporciones en dos muestras independientes
Asociacin estadstica en una tabla de contingencia
Test de tendencia en una tabla r2
Medidas de efecto en una tabla de contingencia
7.6.1 Riesgo relativo
7.6.2 Odds ratio
7.7 Comparacin de proporciones en dos muestras dependientes
7.8 Apndice: correccin por continuidad
7.9 Referencias
8 Mtodos no paramtricos
8.1
8.2
8.3
8.4
8.5

Introduccin
Test de la suma de rangos de Wilcoxon
Test de los rangos con signo de Wilcoxon
Test exacto de Fisher
Referencias

9 Determinacin del tamao muestral


9.1 Introduccin
9.2 Tamao muestral para la estimacin de un parmetro poblacional
9.2.1 Tamao muestral para la estimacin de una media
9.2.2 Tamao muestral para la estimacin de una proporcin
9.3 Tamao muestral para la comparacin de medias
9.3.1 Tamao muestral para la comparacin de medias en dos muestras

independientes
9.3.2 Tamao muestral para la comparacin de medias en dos muestras

dependientes
9.4 Tamao muestral para la comparacin de proporciones
9.4.1 Tamao muestral para la comparacin de proporciones en dos muestras

independientes
9.4.2 Tamao muestral para la comparacin de proporciones en dos muestras

dependientes
9.5 Referencias
10 Correlacin y regresin lineal simple
10.1 Introduccin
10.2 Coeficiente de correlacin

97
97
97
99
102
106
107
108
111
114
117
120
121
121
122
129
134
138
139
139
140
140
141
142
143
146
148
148
152
154
155
155
155
ix

ndice

10.2.1 Coeficiente de correlacin muestral de Pearson


10.2.2 Coeficiente de correlacin de los rangos de Spearman
10.3 Regresin lineal simple
10.3.1 Estimacin de la recta de regresin
10.3.2 Contraste del modelo de regresin lineal simple
10.3.3 Inferencia sobre los parmetros de la recta de regresin
10.3.4 Bandas de confianza y prediccin para la recta de regresin
10.3.5 Evaluacin de las asunciones del modelo de regresin lineal simple
10.3.6 Observaciones atpicas e influyentes
10.3.7 Variable explicativa dicotmica
10.4 Referencias
11 Regresin lineal mltiple
11.1 Introduccin
11.2 Estructura de la regresin lineal mltiple
11.3 Estimacin e inferencia de la ecuacin de regresin
11.3.1 Estimacin de los coeficientes de regresin
11.3.2 Inferencia sobre los coeficientes de regresin
11.3.3 Inferencia sobre la ecuacin de regresin
11.4 Contrastes de hiptesis en regresin lineal mltiple
11.4.1 Contraste global del modelo de regresin lineal mltiple
11.4.2 Contrastes parciales
11.5 Variables explicativas politmicas
11.6 Regresin polinomial
11.7 Confusin e interaccin en regresin lineal
11.7.1 Control de la confusin en regresin lineal
11.7.2 Evaluacin de la interaccin en regresin lineal
11.8 Apndice: formulacin matricial de la regresin lineal mltiple
11.9 Referencias
Apndice: tablas estadsticas

158
161
164
166
169
173
175
178
184
190
191
193
193
194
196
197
200
201
203
203
206
210
215
218
218
221
228
232
233

TEMA 1
ESTADSTICA DESCRIPTIVA
1.1INTRODUCCIN
La estadstica es la rama de las matemticas aplicadas que permite estudiar fenmenos cuyos
resultados son en parte inciertos. Al estudiar sistemas biolgicos, esta incertidumbre se debe al
desconocimiento de muchos de los mecanismos fisiolgicos y fisiopatolgicos, a la incapacidad
de medir todos los determinantes de la enfermedad y a los errores de medida que inevitablemente
se producen. As, al realizar observaciones en clnica o en salud pblica, los resultados obtenidos
contienen una parte sistemtica o estructural, que aporta informacin sobre las relaciones entre
las variables estudiadas, y una parte de ruido aleatorio. El objeto de la estadstica consiste en
extraer la mxima informacin sobre estas relaciones estructurales a partir de los datos recogidos.
En estadstica se distinguen dos grandes grupos de tcnicas:
yy La estadstica descriptiva, en la que se estudian las tcnicas necesarias para la organizacin,
presentacin y resumen de los datos obtenidos.
yy La estadstica inferencial, en la que se estudian las bases lgicas y las tcnicas mediante
las cuales pueden establecerse conclusiones sobre la poblacin a estudio a partir de los
resultados obtenidos en una muestra.
El anlisis de una base de datos siempre partir de tcnicas simples de resumen de los datos y
presentacin de los resultados. A partir de estos resultados iniciales, y en funcin del diseo del
estudio y de las hiptesis preestablecidas, se aplicarn las tcnicas de inferencia estadstica que
permitirn obtener conclusiones acerca de las relaciones estructurales entre las variables
estudiadas. Las tcnicas de estadstica descriptiva no precisan de asunciones para su
interpretacin, pero en contrapartida la informacin que proporcionan no es fcilmente
generalizable. La estadstica inferencial permite esta generalizacin, pero requiere ciertas
asunciones que deben verificarse para tener un grado razonable de seguridad en las inferencias.
A continuacin se definen algunos conceptos generales que aparecen repetidamente a lo
largo de la exposicin:
yy Poblacin es el conjunto de todos los elementos que cumplen ciertas propiedades y entre
los cuales se desea estudiar un determinado fenmeno.
yy Muestra es un subconjunto de la poblacin seleccionado mediante un mecanismo ms o
menos explcito. En general, rara vez se dispone de los recursos necesarios para estudiar a
toda la poblacin y, en consecuencia, suelen emplearse muestras obtenidas a partir de
estas poblaciones.
Ejemplo 1.1 Algunos ejemplos de poblaciones son:
Las personas residentes en Washington D.C. a 1 de enero de 2010.
Las personas infectadas con el virus de inmunodeficiencia humana en Brasil a da de
hoy.

Pastor-Barriuso R.

Estadstica descriptiva

Para estas poblaciones, algunas muestras podran ser:


500 residentes en Washington D.C. a 1 de enero de 2010 seleccionados mediante
llamadas telefnicas aleatorias.
Todas las personas que acuden a un hospital de Ro de Janeiro durante el presente ao
para realizarse un test del virus de inmunodeficiencia humana y que resultan ser
positivas.
yy Variables son propiedades o cualidades que presentan los elementos de una poblacin.
Las variables pueden clasificarse en:
Variables cualitativas o atributos son aquellas que no pueden medirse numricamente
y que, a su vez, pueden ser:
Nominales, en las que no pueden ordenarse las diferentes categoras.
Ordinales, en las que pueden ordenarse las categoras, pero no puede establecerse
la distancia relativa entre las mismas.
Variables cuantitativas son aquellas que tienen una interpretacin numrica y que se
subdividen en:
Discretas, slo pueden tomar unos valores concretos dentro de un intervalo.
Continuas, pueden tomar cualquier valor dentro de un intervalo.
En la prctica, todas las variables continuas que medimos son discretas en el sentido de
que, debido a las limitaciones de los sistemas de medida, las variables continuas no
pueden adoptar todos los valores dentro de un intervalo. De cara a los anlisis posteriores,
la principal distincin se establece, por tanto, entre variables con relativamente pocas
categoras (como nmero de hijos) frente a variables con muchas categoras (como
niveles de colesterol en sangre).
Ejemplo 1.2 Algunos ejemplos de variables son:
Variables cualitativas nominales: sexo, raza, estado civil (soltero, casado, viudo,
separado, divorciado), religin (catlico, protestante, otros), nacionalidad.
Variables cualitativas ordinales: salud auto-percibida (buena, regular, mala), severidad
de la enfermedad (leve, moderada, grave). Por ejemplo, para esta ltima variable
ordinal, podemos establecer un orden de severidad, pero no podemos decir que la
diferencia de severidad entre un paciente moderado y uno leve sea la misma que entre
uno grave y uno moderado.
Variables cuantitativas discretas: nmero de hijos, nmero de dientes cariados.
Variables cuantitativas continuas: edad, peso, altura, presin arterial, niveles de
colesterol en sangre.
yy Estadstico es cualquier operacin realizada sobre los valores de una variable.
yy Parmetro es un valor de la poblacin sobre el que se desea realizar inferencias a partir
de estadsticos obtenidos de la muestra, que en este caso se denominan estimadores. Por
convencin, los parmetros poblacionales se denotan con letras del alfabeto griego,
mientras que los estimadores muestrales se denotan con letras de nuestro alfabeto.

Pastor-Barriuso R.

alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia


Medidas de tendencia central

central de la muestra sirven tanto para resumir los resultados observados como para
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
Ejemplo 1.3 Algunos ejemplos de estadsticos incluyen:
1.2 MEDIDAS DE TENDENCIA CENTRAL
describendelos
principales
La media de continuacin
los valores desecolesterol
una
muestra. estimadores de la tendencia central de una
El valor
ms variable.
alto de
colesterol
de unaacerca
muestra.
Las medidas
de tendencia
central
informan
de cul es el valor ms representativo
La suma de los valores de colesterol de una muestra elevados al cuadrado.

de una determinada variable o, dicho de forma equivalente, estos estimadores indican

As, por ejemplo,1.2.1


la media
delaritmtica
colesterol en una poblacin, que se denotara por , es un
Media
parmetro
que
se
estima
a
partir
de la media de los valores de colesterol en una muestra
1.2 MEDIDAS
DE
TENDENCIA
CENTRAL
alrededor
de
qu
valor
se
agrupan
los
datos
observados.
medidas
delatendencia
se define
como
suma de cada uno de los
La media aritmtica,
denotada
por
obtenida de esa poblacin,
que se representara
por x ., Las
Las
detema,
tendencia
central
acerca
deresultados
es elpara
valor
ms representativo
central
la muestra
sirven
tanto
para resumir
los
observados
como
para
En medidas
elde
presente
se
revisan
las informan
herramientas
fundamentales
la realizacin
derealizadas.
un
anlisisSi denotamos
valores
muestrales
dividida
por
elcul
nmero
de
observaciones

descriptivo de las variables recogidas en una muestra, tanto mediante estimadores de la tendencia
de unaposicin
determinada
variable
o,los
dicho
de forma
equivalente,
estos
estimadores
indican
central,
y dispersin
como
mediante
la utilizacin
representaciones
grficas.
realizar
inferencias
acerca
de
parmetros
correspondientes.
A
por n el
tamao
muestral
ypoblacionales
por xi el de
valor
observado
para
el
sujeto
i-simo, i = 1, ..., n,
alrededor de se
qudescriben
valor
se agrupan
los dada
datosestimadores
observados. de
Laslamedidas
de tendencia
la media
por
continuacin
los vendra
principales
tendencia
central de una

1.2 MEDIDAS DE TENDENCIA CENTRAL


central de la muestra sirven tanto para resumir los resultados observados como para
variable.
n
... + x n
x1 +ms
x 2 +representativo
1 es
Las medidas de tendencia central informan acerca de
cul
de una
.
x=
xeli =valor

determinada
variable acerca
o, dichodedelos
forma
equivalente,
estos
estimadores
indican
alrededor
de qu
realizar inferencias
parmetros
poblacionales
correspondientes.
A
n i =1
n
valor se
agrupan
los datos observados. Las medidas de tendencia central de la muestra sirven
1.2.1
Media
aritmtica
tanto
para resumir
los resultados
observados
como para
inferencias
continuacin
se describen
los principales
estimadores
de larealizar
tendencia
central deacerca
una de los
La
media
es
la
medida
de
tendencia
central
ms
utilizada
yprincipales
de ms fcil
parmetros
poblacionales
correspondientes.
A continuacin
sededescriben
como la suma
cada unolos
de los
La
media aritmtica,
denotada
por x , se define
estimadores
variable. de la tendencia central de una variable.
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su

valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos

1.2.1 Media
principal limitacin es que est muy influenciada por los valores extremos y, en este
1.2.1
Media aritmtica
aritmtica

por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,

mediaaritmtica,
aritmtica,caso,
denotada
como
lalasuma
dede
cada
unouno
dede
los
LaLamedia
denotada
por
,, seundefine
define
comode
cada
delalos
valores
puede
noxser
fiel reflejo
lasuma
tendencia
central
distribucin.
muestrales
divididadada
por por
el nmero de observaciones realizadas. Si denotamos por n el tamao
la
media vendra
valores ymuestrales
dividida
por el para
nmero
de observaciones
Si denotamos
muestral
por xi el valor
observado
el sujeto
i-simo, i = 1,realizadas.
..., n, la media
vendra dada por
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
n
... +elx nsujeto i-simo, i = 1, ..., n,
x1 + x 2 +para
1 valor
por n el tamao muestral y por
.
x =xi el
x i =observado
utilizarn
colesterol HDL obtenidos en los 10 primeros sujetos del
n i =los
1 valores del n
la media vendra dada por
La media es la medida de
tendencia
centralStudy
ms on
utilizada
y de ms
fcil interpretacin.
estudio
European
Antioxidants,
Myocardial
Infarction and Cancer of
Corresponde
de gravedad
de los
datos ms
de lautilizada
muestra. ySudeprincipal
limitacin es que
La media al
escentro
la medida
de tendencia
central
ms
fcil
... +caso,
x1 +y, xen
x n puede no ser un fiel reflejo de la
1 nextremos
est muy influenciada por losthe
valores
este
2 +
un estudio
multicntrico de casos y controles realizado
.
=
xBreast
x(EURAMIC),
i =
tendencia centralCorresponde
de la distribucin.
n i =1 de gravedad
n de los datos de la muestra. Su
interpretacin.
al centro

entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los

Ejemplo
1.4 En
esteest
y de
enmuy
los influenciada
sucesivos
ejemplos
estimadores
muestrales,
principal
limitacin
es
por infarto
los sobre
valores
extremos
y,
en en
este se
antioxidantes
el que
riesgo
desarrollar
unms
primer
agudo
de
miocardio
La
media
es laen
medida
de tendencia
central
utilizada
y de
ms
fcil

utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio
European
Study
on valores
Antioxidants,
Myocardial
Infarction
and 1,29,
Cancer
of 0,84,
the Breast
hombres
adultos.
obtenidos
fueroncentral
0,89,
1,58,
1,42,
caso,
puede no
ser
unLos
fiel
reflejo
de
la de
tendencia
dedatos
la0,79,
distribucin.
interpretacin.
Corresponde
al centro
gravedad
de los
de la muestra.
Su
(EURAMIC), un estudio multicntrico de casos y controles realizado entre 1991 y 1992
en ocho pases Europeos e Israel para evaluar el efecto de los antioxidantes en el riesgo
1,06,
0,87,
1,96 yes1,53
media de los
del colesterol
en
principal
limitacin
que mmol/l.
est muyLa
influenciada
porniveles
los valores
extremos HDL
y, en este
de
desarrollar
un este
primer
agudo deejemplos
miocardio
en hombres
adultos.
Los valores
Ejemplo
1.4 En
y eninfarto
los sucesivos
sobre
estimadores
muestrales,
se
obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 1,06, 0,87, 1,96 y 1,53 mmol/l. La
caso,
puede
no ser un fiel es
reflejo de la tendencia central de la distribucin.
estos
10 participantes
media de los niveles del colesterol HDL en estos 10 participantes es

utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
1 10y en los0,sucesivos
89 + 1,58 +ejemplos
... + 1,53sobre estimadores muestrales, se
Ejemplo
1.4 xEn
= esteStudy
x i =on Antioxidants,
= 1,223Infarction
mmol/l. and Cancer of
estudio
European
Myocardial

10 i =1
10
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del

the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado


estudio
European
Studylas
onsiguientes
Antioxidants,
Myocardial Infarction and Cancer
of
Pastor-Barriuso
R.
La media
aritmtica
presenta
propiedades:
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los

the Breast
(EURAMIC),
un Si
estudio
multicntrico
de casos
y controles
Cambio
de origen
(traslacin).
se suma
una constante
a cada
uno de losrealizado
datos


iLa media de los niveles del colesterol HDL en
1,06, 0,87,MEDIDAS
1,96
y 1,53
mmol/l.
de una
variable
o,
dicho de
forma
estimadores indican
10TENDENCIA
10
DE
CENTRAL
i =1
antioxidantes 1.2
en el riesgo
dedeterminada
desarrollar
un primer
de equivalente,
miocardio
enestoscorrespondientes.
realizar
inferencias
acercainfarto
de los agudo
parmetros
poblacionales
A

estos 10 participantes
esde qu valor se agrupan los datos observados. Las medidas de tendencia
alrededor
hombres adultos.
Los
valores
obtenidossecentral
fueron
0,89,
1,58,
0,79, 1,29,
1,42,
Estadstica
descriptiva
Las
medidas
de tendencia
informan
acerca
de estimadores
cul
es el0,84,
valor
representativo
continuacin
describen
los
principales
de lams
tendencia
central de una
La media aritmtica presenta las siguientes propiedades:
central
sirven
tanto
losHDL
resultados
observados como para
1,06, 0,87, 1,96
1,53
mmol/l.
media
niveles
delresumir
colesterol
en estimadores
+o,1,los
+
+ 1para
1de10laLamuestra
0,89 de
58
...de
,53
de yuna
determinada
variable
dicho
forma
equivalente,
estos
indican
variable.
x
x
=
1,223
mmol/l.
=
=

i
Cambio de origen
(traslacin).
Si se suma una constante a cada uno de los datos
10
10
La media aritmtica
presenta las siguientes propiedades:
i =1
realizar inferencias
acerca de los parmetros poblacionales correspondientes. A
estos 10 participantes
alrededoresde qu valor se agrupan los datos observados. Las medidas de tendencia
Cambio
deMedia
origende
(traslacin).
Si se sumaesuna
constante
a cada
unoms
de los
de unayymuestra,
media
la muestra resultante
igual
a la media
inicial
la datos de una
1.2.1la
aritmtica
muestra,
la
media
de
la
muestra
resultante
es
igual
a
la
media
inicial
ms
la constante
continuacin
se
describen
los
principales
estimadores
de
la
tendencia
central
de
una
La mediacentral
aritmtica
las
siguientes
propiedades:
de10 lapresenta
muestra
sirven
tanto
para
resumir los resultados observados como para
+
+
+
1
0
,
89
1
,
58
...
1
,
53
=i =xxi i++ c,
= mmol/l.
Un cambio
cambio
origen
que se
si siyiyaritmtica,
c, entonces
ypor
Un
origen
constante
utilizada;
media
denotada
x ,++secc..define
como de
ladesuma
deque
cada
unorealiza
de loscon
x = utilizada;
xLa
= 1,223

i =
10variable.
10
frecuencia
es el centrado
de la variable, que consiste en restar a cada valor de la muestra
i =1
Cambio
de origen
(traslacin).
Side
se los
suma
una constante
a cada uno
de los datos
realizar
inferencias
acerca
parmetros
poblacionales
correspondientes.
A
sucon
media.
Lamuestrales
media
decentrado
una
variable
ser,
por
tanto,enigual
a 0.a
valores
dividida
porlacentrada
elvariable,
nmero
de observaciones
realizadas.
Si denotamos
se realiza
frecuencia
es el
de
que
consiste
restar

yy 1.2.1
Cambio
escala
(unidades).
Si seestimadores
multiplica
cada
de losms
datos
de unacontinuacin
muestra,
la Media
media
de
la muestra
resultante
es igual a la
inicial
la de
sede
describen
los principales
demedia
la uno
tendencia
central
deuna
una muestra por
aritmtica
media aritmtica
lasmuestra
propiedades:
el una
valorvariable
observado
el
sujeto
i = 1, ..., n,
por
nsiguientes
el tamao
muestral
ymedia
por xide
cada presenta
valor
la
media.
Lamuestra
centrada
ser,
por i-simo,
unade
constante,
la su
media
de la
resultante
es igual
a para
la media
inicial
por la constante
entonces
== cxx .,+sec.define
utilizada;
si
ci,, entonces
Un cambio
que
constante
utilizada;
si yaritmtica,
comode
la origen
suma de
cada uno de los
La
media
denotadaypor
variable.
i =yx
i +cx
i =
Cambio de origen
Si se
suma
una constante
a cada uno de los datos
vendra
dada
por
tanto, (traslacin).
igual ala0.media
yy Cambio simultneo de origen y escala. Si se multiplica cada uno de los datos de una
valores
muestrales
dividida
el
nmero
de
observaciones
realizadas.
Si denotamos
se realiza
con
frecuencia
es
el constante
centrado
depor
laresultado
variable,
que
consiste
enms
restar
a la media
muestra
por
una
ales
le
suma
otra
constante,
de la muestra
de una muestra,
la
media
dearitmtica
la
muestra
resultante
igual
acada
lanse
media
inicial
la
1.2.1
Media
Cambio
de escala
(unidades).
Si seymultiplica
uno
de
los
datos
de
una
+
+
...
+
x
x
x
1
1
2
n
resultante es igual a la media inicial
por la primera
constante, ms. la segunda constante; si
x =valor
xi =

por
n=c el
tamao
muestral
ymedia
por
xse
observado
paraque
elcada
sujeto
i eluna
cada
valor
desi
lay=iaritmtica,
muestra
su
media.
La
de
variable
centrada
ser,
por i-simo,
n
x
+
c
,
entonces
=
c
+
c
.
y
+
c
,
entonces
y
=
x
+
c
.
Un
cambio
de
origen
constante
utilizada;
La
media
denotada
por
x
,
define
como
la
suma
de los i = 1, ..., n,
=
i
1
i
1 ii constante,
2
muestra por
una
la media1 de la2muestra resultante esnde
igual
a launo
media

media vendra dada por


tanto, igual
ala0.
valores
muestrales
dividida
el
devalores
observaciones
denotamos
Ejemplo
1.5
Para
transformar
los
colesterol
mmol/l
se realiza coninicial
frecuencia
el
la
variable,
que
consiste
en= restar
a HDLSi
yi =decxtendencia
ydel
cms
x realizadas.
. utilizada
por
laes
constante
utilizada;
si nmero
i, entonces
Lacentrado
media
esde
lapor
medida
central
y de
de
ms fcila mg/dl se
multiplica por el factor de conversin 38,8. As, utilizando la propiedad del cambio de
Cambio de escala (unidades). Si se multiplica cada
n uno de los datos de una
valor
observado
sujeto
=de1,la...,
n,
por
n elescala,
tamao
yCorresponde
por
xde
+el
...uno
+por
x +para
xcada
xde
1alse
lamuestral
media
del
colesterol
HDL
encentrada
mg/dl
se
calculara
directamente
amuestra.
partir
de
i el
cada valor deCambio
la muestra
su
media.
media
una
variable
2 ser,
ndei-simo,
interpretacin.
centro
los
datosi de
Susu
simultneo
deLa
origen
y escala.
Si
multiplica
datos
. los
x=
x i = 1de gravedad
media en mmol/l como 1,22338,8
=
47,45
mg/dl.
n i =1 resultante esnigual a la media
muestra
unavendra
constante,
lapor
media de la muestra
la por
media
dada
tanto, igual auna
0.
limitaciny es
que est muy
por los valores
extremos y, en este
muestra principal
por una constante
al resultado
se leinfluenciada
suma otra constante,
la media
cxtendencia
y = c ms
x . utilizada y de ms fcil
inicial por
la constante
utilizada;
si yi =de
1.2.2Mediana
i, entoncescentral
La media
es multiplica
la medida
Cambio de escala
(unidades).
Si
se
uno de
los
caso,
puede
noigual
ser un
fielnmedia
reflejo
tendencia
central
de la distribucin.
de la muestra
resultante
es
acada
inicial
por
la+deprimera
constante,
ms la
+ xladatos
+
...
x1 de
xuna
1la
2
n
.
x = xi =
La
mediana
es origen
el valor
un variable
que deja
por
ellos50%
dede
losladatos
de laSumuestra
n al
n encima
interpretacin.
Corresponde
deesgravedad
de
datos
de
muestra.
Cambio
simultneo
de
y de
escala.
Si
multiplica
cada
unolade
los
datos
=1 centro
i se
muestra
por una
muestra
resultante
media
=50%.
cla
c2, entonces
= c1igual
x + aces
segunda
si yi de
1 xi +
2. necesario ordenar los valores de la
y constante,
por constante;
debajolaelmedia
otro
Para
calcular
lay mediana,
Ejemplo
1.4 En
este
y en los
sucesivos
ejemplos la
sobre
estimadores
muestrales,
se
muestra
de menor
a mayor.
Si el
tamao
muestral
nconstante,
es
mediana
viene
dada
principal
limitacin
esi,resultado
que
est
muy
porimpar,
los valores
extremos
y, en
estepor el
unalamuestra
por
una
constante
al
se
suma
la
media
cx
entonces
y le=influenciada
c xms
. otra
inicial por
constante
utilizada;
si yi =y de
La
media
es
la
medida
tendencia
central
utilizada
y
de
ms
fcil
valor (n + 1)/2-simo. Si n es par, la mediana viene dada por la media aritmtica de los
utilizarn
loslosvalores
deldelcolesterol
HDL
en
los
10 primeros
sujetos del
Ejemplo
1.5
Para
transformar
valores
colesterol
HDL
dede
mmol/l
aque
mg/dl
se influenciada
valores
(n/2)
y (n/2
+ser
1)-simos.
La inicial
principal
ventaja
de
laobtenidos
mediana
es
caso,
puede
un
fiel
reflejo
de lapor
tendencia
central
la distribucin.
de la muestra
resultante
esnoigual
a laal
media
la primera
constante,
ms
lano est
interpretacin.
Corresponde
centro
de
gravedad
de
los
datos
de
la
muestra.
Su
Cambio simultneo
de
origen
y
escala.
Si
se
multiplica
cada
uno
de
los
datos
de
por los valores extremos. No obstante, se utiliza menos que la media como medida de
estudio
Study
on Antioxidants,
Infarction and Cancer of
multiplica
porcentral
de European
conversin
38,8. estadstico
As,
utilizando
la Myocardial
propiedad
tendencia
porque
su tratamiento
es ms
complejo.del
segunda
constante;
sielyfactor
i = c1xi + c2, entonces y = c1 x + c2.
principal
limitacin
es
que
est
muy
influenciada
por
los
valores
extremos
y, en muestrales,
este
una muestra por
una constante
y
al
resultado
se
le
suma
otra
constante,
la
media
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores
se
themedia
Breast
(EURAMIC),
unen
estudio
multicntrico
de casos y controles realizado
cambio de
escala,
la
del
colesterol
HDL
mg/dl
se
calculara
Ejemplo 1.6 Para obtener la mediana del colesterol HDL en la muestra del estudio
puedeesno
ser un
reflejo
de
lapor
tendencia
central
de la distribucin.
de la muestra caso,
resultante
igual
a lafiel
media
inicial
la primera
constante,
ms
utilizarn
valores
del
colesterol
HDL
obtenidos
enala
los
10 primeros
sujetos
EURAMIC,
se los
ordena
en primer
lugar los
valores
de
menor
a mayor;
esto es,
0,79, del
0,84,
Ejemplo 1.5 Para
transformar
los
valores
del
colesterol
HDL
de
mmol/l
se
entre
1991
y 1992
en ochocomo
pases1,223
Europeos
e 47,45
Israelmg/dl
para
evaluar el efecto de los

38,8
=
mg/dl.
directamente
a
partir
de
su
media
en
mmol/l
0,87, 0,89, 1,06, 1,29, 1,42, 1,53, 1,58 y 1,96 mmol/l. Como el tamao muestral es par
c1xi + c2European
, entonces yStudy
= c1on
x + c2 .
segunda constante; si yi = estudio
Infarction
and Cancer
of 6),
(n
10),
la
mediana
la media
de
los
dos valores
centrales
(en este
caso,
el se
5 y el
multiplica por
el=factor
deEn
conversin
38,8.
As,Antioxidants,
utilizando
la Myocardial
propiedad
del
Ejemplo
1.4
este yser
en los
sucesivos
ejemplos
sobre
estimadores
muestrales,
que corresponde a (1,06 + 1,29)/2 = 1,175 mmol/l.
5
6
themedia
Breast
(EURAMIC),
unen
estudio
multicntrico
de casos y controles realizado
cambio de escala,
la
del
colesterol
HDL
mg/dl
se
calculara
utilizarn los
los 10 se
primeros sujetos del
Ejemplo 1.5 Para transformar
losvalores
valoresdel
delcolesterol
colesterolHDL
HDLobtenidos
de mmol/lena mg/dl
Comparacin de la media aritmtica y la mediana. En las distribuciones simtricas
entre
1991
y 1992
en ocho
pases
Europeos
Israeles
para
evaluar el efectoigual
de losa la
(ambas
colas
lamedia
distribucin
soncomo
semejantes),
la =emedia
aproximadamente
38,8
47,45
mg/dl.
directamente
a partir
dedesu
en As,
mmol/l
1,223
estudio
European
Study
on Antioxidants,
Myocardial
and Cancer of
multiplica
por el
factor
de conversin
38,8.
utilizando
la propiedad
delInfarction
mediana. En distribuciones sesgadas positivamente (la cola superior de la distribucin es mayor
quelathe
lamedia
inferior),
la media HDL
tiende
ser mayor
que la mediana;
querealizado
en distribuciones
Breast
(EURAMIC),
unenaestudio
multicntrico
de casosmientras
y controles
5
cambio de escala,
del colesterol
mg/dl
se
calculara
6
sesgadas negativamente (la cola inferior de la distribucin es mayor que la superior), la media
tiende a ser
menor
que en
la mediana.
LaEuropeos
comparacin
de lapara
media y la mediana permite evaluar,
1991
y 1992
ocho
pases
Israel
38,8 = e47,45
mg/dl.evaluar el efecto de los
directamente a partirentre
de su
media
en mmol/l
como
1,223
por tanto, la asimetra de una distribucin.
6
Ejemplo 1.7 En la muestra del estudio EURAMIC la media
del colesterol 5HDL es
ligeramente superior a la mediana (1,223 y 1,175 mmol/l, respectivamente). En
consecuencia, la distribucin de estos 10 valores del colesterol HDL es aproximadamente
simtrica con un leve sesgo positivo.
4

Pastor-Barriuso R.

de estos

consecuencia, la distribucin
del
HDL es
x G =
x i 10
= nvalores
x1 x 2 ...
xcolesterol
n .
i =1
aproximadamente simtrica con un leve sesgo positivo.
Medidas de posicin: cuantiles
1.2.3 Media geomtrica
En la prctica, la forma ms sencilla de calcular la media geomtrica consiste en
La1.2.3
media geomtrica,
denotada por xG , se define como la raz n-sima del producto de
1.2.3 Media
Mediageomtrica
geomtrica
calcular
primero
el logaritmo de cada valor muestral, hallar a continuacin la media de

los
valores
de una muestra
de tamao
La
mediageomtrica,
geomtrica,
denotada
por la
xGn,
lalaraz
La
media
denotada
,, se define
define como
como
razn-sima
n-sima
delproducto
producto
los
logaritmos
y deshacer
finalmente
transformacin
logartmica.
Paradel
calcular
losdede los
valores de una muestra de tamao n,
los valores
una muestra
de tamao
n, 1 / n y cuando el logaritmo y el
logaritmos
se de
puede
usar cualquier
base,
n siempre

x G = x i = n x1 x 2 ... x n .
1
i =Notar
1que
/n
antilogaritmo estn en la misma base.
la media geomtrica slo puede
n

x i calcular
= n x1lax 2media
... x ngeomtrica
.
En la prctica, la forma ms xsencilla
consiste en calcular
G =
de
=
1
i

emplearse
como
medida
de
tendencia
central
en
variables
que
toman
valores
primero
el
logaritmo
de
cada
valor
muestral,
hallar
a
continuacin
la
media
de positivos.
losenlogaritmos y
En la prctica, la forma ms sencilla de calcular la media geomtrica consiste
deshacer finalmente la transformacin logartmica. Para calcular los logaritmos se puede usar
cualquier
base, siempre
yms
cuando
el logaritmo
y ellaantilogaritmo
estn en
la misma
base.deNotar
calcular
primero
logaritmo
de cada
valor
muestral,
hallar
a continuacin
laen
media
En la prctica,
laelforma
sencilla
de
calcular
media
geomtrica
consiste
Ejemplo
1.8
Para
calcular
la
media
geomtrica
del
colesterol
HDL
en
la
muestra
que la media geomtrica slo puede emplearse como medida de tendencia central en variables
que
tomanprimero
valores
los
logaritmos
y deshacer
finalmente
transformacin
logartmica.
Para calcular
calcular
elpositivos.
logaritmo
de cadalavalor
muestral, hallar
a continuacin
la medialos
de
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los
Ejemplo
1.8
Para
calcular
labase,
media
geomtrica
del
colesterol
HDL
en la muestra
del
los logaritmos
y deshacer
finalmente
la transformacin
logartmica.
Para
los
logaritmos
se puede
usar cualquier
siempre
y cuando
el logaritmo
ycalcular
el
valores
yEURAMIC,
a continuacin
se calcula
suelmedia
aritmtica,
estudio
se
halla
primero
logaritmo
natural
de
cada
uno
de
los
valores
ya
consecuencia, la distribucin de estos 10 valores del colesterol HDL es
continuacin
se
calcula
su media
aritmtica,
logaritmos
seestn
puede
cualquier
base,
siempre
el logaritmoslo
y elpuede
antilogaritmo
enusar
la misma
base.
Notar
que lay cuando
media geomtrica
aproximadamente simtrica
log(0sesgo
,89) +positivo.
... + log(1,53)
1 10 con un leve
log
log
x
=
x
=
antilogaritmo
estn
en
la
misma
base.
Notar
que
la
media geomtrica
slo puede

i
emplearse como medida deGtendencia
central
en
variables
10 i =1
10que toman valores positivos.
,425
0,117central
+ ... + 0en
emplearse como medida de tendencia
variables que toman valores positivos.
= 0,155.
1.2.3 Media geomtrica=
10geomtrica del colesterol HDL en la muestra
Ejemplo 1.8 Para calcular la media
La
mediageomtrica,
geomtrica
es, porlatanto,
=colesterol
1,168
La
media
denotada
por xGgeomtrica
,=seexp(0,155)
define del
como
la razmmol/l.
n-simaendel
producto de
Ejemplo
Para calcular
media
muestra
del
estudio1.8
EURAMIC,
se halla
primero el logaritmo
naturalHDL
de cada la
uno
de los
La media geomtrica es, por tanto, xG = exp(0,155) = 1,168 mmol/l.
Allos
igual
que la
la media
geomtrica
til comonatural
medidade
decada
tendencia
valores
demediana,
una muestra
dehalla
tamao
n, eleslogaritmo
del
estudio
EURAMIC,
se
primero
uno decentral
los para
valores
a continuacin
seque
calcula
su media
aritmtica,
variables
muyyasimtricas,
en las
un pequeo
grupo
de observaciones extremas tienen una
excesiva
influencia
sobre la la
media
La1 /media
geomtrica
tiene
ventaja adicional de
valores
continuacin
se aritmtica.
calcula
su media
aritmtica,
Al igual
que ylaamediana,
media
geomtrica
es
como medida
delatendencia
n til
n
10 sencillo

presentar un tratamiento estadstico


ms
que
la
mediana.
1,53)
1
x1)x 2+ ...
...+ xlog(
x x i= log(=0n,89
n .
log xG = x G= log
i
central para variables muy asimtricas,
en
las
que
un
pequeo
grupo
de) observaciones
i =1 log(0,89) + 10
10
=1
... + log(1,53
1 i10
log x G = log x i =
0,i117
+ ... + 0,425
10 .
=1
1.3 MEDIDAS
POSICIN:
= 10 CUANTILES
= aritmtica.
0,155
extremas
tienen unaDE
excesiva
influencia
sobre la media
La media geomtrica
En la prctica, la forma ms sencilla
de
calcular
la
media
geomtrica consiste en
0,117 +10... + 0,425
. respecto al resto de la muestra.
= 0,155con
Los cuantiles indican la posicin=relativa de una observacin
8
10
calcular primero
el logaritmo
de cadams
valor
muestral, hallar a continuacin la media de
A continuacin
se describen
los cuantiles
utilizados:
La media geomtrica es, por tanto, xG = exp(0,155) = 1,168 mmol/l.
yy Percentiles son los valores de una variable que dejan un determinado porcentaje de los
losLa
logaritmos
y deshacer
Para calcular los
media geomtrica
es,finalmente
por tanto, laxGtransformacin
= exp(0,155) =logartmica.
1,168 mmol/l.
datos por debajo de ellos. As, por ejemplo,
el percentil 10 es el valor superior al 10% de
las
observaciones,
pero inferior
90% restante.
Lacomo
mediana
corresponde,
por tanto, al
Allogaritmos
igual
que se
la mediana,
media al
geomtrica
es til
medida
de tendencia
puede usarlacualquier
base, siempre
y cuando
el logaritmo
y el
percentil 50. En una muestra de tamao n, previamente ordenada de menor a mayor, el
Al igual que la mediana, la media geomtrica es til como medida de tendencia
percentil
p-simo
seendefine
como:
antilogaritmo
estn
la
misma
base.
que
media geomtrica
slo puede
central
para variables
muy
asimtricas,
enNotar
las que
unlapequeo
grupo de observaciones

Sipara
np/100
es un nmero
entero, la media
deque
las observaciones
(np/100)
y (np/100 + 1)-simas.
central
variables
muy asimtricas,
en las
un pequeo grupo
de observaciones
emplearse
como
medida de
tendenciasobre
central
en
variables
que toman
valores
positivos.
extremas
tienen
una
excesiva
influencia
la
media
aritmtica.
La
media
geomtrica
Si np/100 no es un nmero entero, el valor k-simo de la muestra, siendo
k el menor
extremas
tienen
una excesiva
influencia sobre la media aritmtica. La media geomtrica
entero
superior
a np/100.
8
Ejemplo
1.8 Para acalcular
la media10,
geomtrica
colesterol
HDL
en lapara
muestra
yy Deciles,
corresponden
los percentiles
20, ..., 90.del
Los
deciles se
utilizan
dividir
8
la muestra en 10 grupos de igual tamao.
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los
yy Quintiles, corresponden a los percentiles 20, 40, 60 y 80, y dividen la muestra en 5 grupos
de igual tamao.
valores y a continuacin se calcula su media aritmtica,
log(0,89) + ... + log(1,53)
1 10
log x G = log x i =
10 i =1
10
0,117 + ... + 0,425

Pastor-Barriuso R.

mmol/l. De igual forma, como 10p/100 = 2,5 no es un nmero entero para p = 25,
Estadstica descriptiva

el percentil 25 es el tercer valor de la muestra, que corresponde a 0,87 mmol/l.

yy Cuartiles, corresponden a los percentiles 25, 50 y 75, y dividen la muestra en 4 grupos de


Es importante recordar que, para calcular cuantiles, los valores de la muestra deben
igual tamao.
yy Terciles,
corresponden
a los
33,3 y 66,7,
y dividen
muestra
3 grupos
estar
previamente
ordenados.
Sipercentiles
el tamao muestral
es grande,
la laforma
msenrpida
de de
igual tamao.
obtener los cuantiles manualmente es realizando un grfico de tallo y hojas (ver ms
Ejemplo 1.9 Los 10 valores del colesterol HDL ordenados de menor a mayor son 0,79,
0,84, 0,87, 0,89, 1,06, 1,29, 1,42, 1,53, 1,58 y 1,96 mmol/l. Dado que 10p/100 = 1 es un
adelante).
nmero entero para p = 10, el percentil 10 es la media de la primera y segunda observacin,
que corresponde a (0,79 + 0,84)/2 = 0,815 mmol/l. De igual forma, como 10p/100 = 2,5
no es un nmero
entero para p = 25, el percentil 25 es el tercer valor de la muestra, que
1.4 MEDIDAS
DE DISPERSIN
corresponde a 0,87 mmol/l.

Las medidas de dispersin indican el grado de variabilidad de los datos y se


Es importante
recordar
que, para calcular cuantiles, los valores de la muestra deben estar
1.2 MEDIDAS DE
TENDENCIA
CENTRAL
previamente ordenados. Si el tamao muestral es grande, la forma ms rpida de obtener los
complementan
con lasesmedidas
de un
tendencia
la descripcin
de una muestra.
cuantiles
manualmente
realizando
grfico central
de tallo en
y hojas
(ver ms adelante).
Las medidas de tendencia central informan acerca de cul es el valor ms representativo
En este apartado se presentan las principales medidas de dispersin.
de una determinada
variable o, dicho
de forma equivalente, estos estimadores indican
1.4 MEDIDAS
DE DISPERSIN
1.4.1
Varianza
y desviacin
tpica
Las
medidas
de dispersin
indican
el grado Las
de variabilidad
los datos y se complementan con
alrededor de qu
valor
se agrupan
los datos
observados.
medidas de de
tendencia
las medidas de tendencia central en la descripcin
de
una
muestra.
En este apartado se presentan
2
La
varianza
muestral,
denotada
por
s
,
se
define
como
la
suma
de los cuadrados de las
las principales
medidas
dispersin.
central de la muestra
sirven tanto
paraderesumir
los resultados observados como para

diferencias
entre
valor de
la muestra ycorrespondientes.
su media, dividida
realizar inferencias
acerca
de los
parmetros
poblacionales
A por el tamao muestral
1.4.1
Varianza
y cada
desviacin
tpica
1, muestral,
varianza
denotada
por s2, se define
como la suma
de los
cuadrados de las diferencias
continuacin La
semenos
describen
los principales
estimadores
de la tendencia
central
de una
entre cada valor de la muestra y su media, dividida por el tamao muestral menos 1,
variable.
media, el nmero de valores independientes
de la muestra
(denominado grados de
1 n
1 n 2

2
2
( xi x ) =
s =
x i nx 2 .

1 i =1
n 1 i =1 la media y n - 1 valores, el
libertad) para el clculo denlavarianza
es n - 1 (conocida
1.2.1 Media aritmtica

Como puede apreciarse, cuanto ms dispersos estn los datos, mayores sern los cuadrados de
valor
restante
se(x
deducira
automticamente).
ms
formal paradeesta
2
La media aritmtica,
denotada
por
define
comola
lavarianza
sumaUna
de
uno
de las
los
las
desviaciones
y cuanto
mayor
ser
s2cada
.justificacin
Notar
que
desviaciones
Como
puede apreciarse,
ms
dispersos
estn
los
datos,
mayores
sern loscada valor
i x ), se
respecto de la media se elevan al cuadrado para evitar que se compensen las desviaciones
definicin
de por
la varianza
se aaporta
en el2Tema
5.
positivas
(valores
media)
lasrealizadas.
negativas
inferiores
la media).
Cabe
valores muestrales
dividida
el
nmero
delaobservaciones
Si
denotamos
y mayor
ser la(valores
varianza
s2. Notaraque
las
cuadrados
de lassuperiores
desviaciones
(x
i - x )con
destacar tambin que, en la frmula de la varianza muestral, el denominador es n 1 en lugar de n.
Lasevarianza
muestral
es observado
difcil
de interpretar
como
medida
dispersin,
ya que sus
por n el tamao
muestral
xcada
valor
para
el
sujeto
ide=de
1,
..., n, independientes
Esto
debey por
ade
que,
vez
calculada
lalamedia,
elsei-simo,
nmero
valores
i eluna
desviaciones
valor
respecto
de
media
elevan al
cuadrado
para evitar quedesela
muestra (denominado grados de libertad) para el clculo de la varianza es n 1 (conocida la
unidades
son
las
de la el
variable
originalse
al deducira
cuadrado.automticamente).
La medida de dispersin
ms
la media vendra
dada
media
y npor
1las
valores,
valorpositivas
restante
compensen
desviaciones
(valores
superiores a la media)Una
con justificacin
las negativasms
formal para esta definicin de la varianza se aporta en el Tema 5.
utilizada es la desviacin
tpica o desviacin estndar s, que se define como la raz
(valores
inferiores
Cabe
tambin
que,
la frmula
varianza
+ ...destacar
+ x n como
x +de
x 2interpretar
1a nlaesmedia).
La varianza
muestral
difcil
medida
deen
dispersin,
yade
quelasus
unidades
.
x = xi = 1
son
las
de
la
variable
original
al
cuadrado.
La
medida
de
dispersin
ms
utilizada
es
la
desviacin
n i =1
n
cuadrada de la varianza
muestral,
el denominador
n - 1seen
lugarcomo
de n.laEsto
debe a que,
vez calculada la
tpica
o desviacin
estndar es
s, que
define
razse
cuadrada
de launa
varianza

10
La media es la medida de tendencia central ms utilizada
1 yn de ms fcil
2
s=
( xi x )
n 1 i =1
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que la media,
principal limitacin
es que tpica
est muy
influenciada
por
valores
extremos
y, (gran
en este
lay,desviacin
est
influenciada
porlos
valores
muy
extremos
desviacin
respecto
en consecuencia,
presenta
las mismas
unidades
que
la variable
original.
Al igual
que de la
caso, puede nolaser
un fiel
de la tpica
tendencia
de la distribucin.
media,
lareflejo
desviacin
est central
influenciada
por valores muy extremos (gran
6

Pastor-Barriuso R.

desviacin respecto de la media), que inflaran la estimacin resultante, no siendo un


Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se

desviacin respecto de la media), que inflaran la estimacin resultante, no siendo un


buen reflejo de la dispersin global de los datos.
realizar
de los parmetros
poblacionales
correspondientes. A
bueninferencias
reflejo de acerca
la dispersin
global de los
datos.

Medidas de dispersin

Ejemplo
1.10 Conocida
la media
del colesterol
en loscentral
10 primeros
continuacin
se describen
los principales
estimadores
de laHDL
tendencia
de una
Ejemplo
1.10 Conocida
la mediaa del
colesterol
HDL
en los 10 primeros
mbio de origen
(traslacin).
Si se suma
una constante
cada xuno
de los mmol/l,
datos la varianza vendra dada
= 1,223
participantes
del estudio
EURAMIC,
variable.
media), que inflaran la estimacin resultante, no siendo un buen reflejo de la dispersin global
del estudio EURAMIC, x = 1,223 mmol/l, la varianza vendra dada
de losparticipantes
datos.
na muestra, la varianza
pory la desviacin tpica no cambian; si yi = xi + c,
1.2.1 Media aritmtica
por
2
1.10 Conocida la media del colesterol HDL en los 10 primeros participantes
nces s y = s x2 y sy = sEjemplo
x.
define
como
suma
los
La media aritmtica,
por x ,=se1,223
varianza
vendra
por
del estudiodenotada
EURAMIC,
(mmol/l,
0,89
1,la
223
) 2 + de
... +cada
(1,53uno
dada
1de
,223
)2
1 10
2
2
s = ( xi x ) =
9 + (1,53 1,223) 2
(0,89
1,223
) 2 + ...
19 10
i =1cada uno 2de los
mbio de escala
(unidades).
Si
se
multiplica
datos
de una
valores muestrales dividida
el
nmero
de
observaciones
realizadas.
Si denotamos
s 2 = por
x
x
(

)
=

+i ... + 0,094
90,111
92
i =1
DE TENDENCIA CENTRAL =
= 0,156 (mmol/l)
stra por una
la varianza
a la varianza
pori-simo, i = 1, ..., n,
9igual
porconstante,
n el tamao
muestralresultante
y por
xi el
valor
parainicial
el sujeto
0,111
...
094
+es
+ 0,observado
=
= 0,156 (mmol/l) 2
9 valor
tendencia
central
acerca
cules
esigual
el
representativo
onstante
allacuadrado
y la desviacin
tpica
a lams
desviacin
tpica
mediainforman
vendra
dada
porde
la desviacin
desviacin tpica por s = 0,156 = 0,395 mmol/l.
yy la
2estimadores
2
2
nada
o, dicho
desidesviacin
forma
yi = cxequivalente,
sestos
y sy == cs
. Unmmol/l.
cambio
ial porvariable
dicha constante;
i, entonces
xindican
0,395
y la
tpica por
y ns==c s0
x ,156
+
+
...
+
x
x
x
1
1
2
n
Algunas propiedadesxde= la varianza
x i = y la desviacin .tpica son:

valor se agrupanAlgunas
los datos
observados.deLas
medidas
de
n
n valores
propiedades
la
varianza
y latendencia
desviacin
tpica
son:
i =1 de todos
scala que se realizayy con
frecuencia
es (traslacin).
la divisin
los
de
una
Cambio
de origen
Si se suma
una
constante
a cada
uno de los datos de una muestra,
Algunas
propiedades
de la varianza
la desviacin
la varianza
y la desviacin
tpica noycambian;
si yi = tpica
xi + c, son:
entonces sy2 = sx2 y sy = sx.
uestra sirven tanto para resumir los resultados observados como para
stra por su desviacin
tpica.
La desviacin
tpicacentral
de la variable
resultante
La media
es la medida
de (unidades).
tendencia
ms utilizada
y de
yy Cambio
de escala
Si se multiplica
cada
unoms
de fcil
los datos de una muestra por
una constante,
la varianza
resultante es igual
a la varianza inicial por la constante al
cias acerca de los parmetros
poblacionales
correspondientes.
A
, por tanto,interpretacin.
igual a 1.
Corresponde
al centro
de gravedad
los datos de
la muestra.
Su dicha constante;
cuadrado
y la desviacin
tpica
es igual a ladedesviacin
tpica
inicial por
11
2 2
cxi, entoncesde
sy2la
= ctendencia
sx y sy =central
csx. Undecambio
si yi = estimadores
e describen los principales
una de escala que se realiza con frecuencia
edades delprincipal
cambio de
origen
y
escala
se
emplean
para
la
estandarizacin
de
limitacin
es que
est muy
pormuestra
los valores
extremos
y, entpica.
este La desviacin
11
es la divisin
de todos
los influenciada
valores de una
por su
desviacin
tpica de la variable resultante ser, por tanto, igual a 1.
que consiste
en puede
restarlenoa ser
los un
valores
de unadevariable
su media
y dividirlos
por
caso,
fiel reflejo
la tendencia
central
de la distribucin.
Las propiedades del cambio de origen y escala se emplean para la estandarizacin de variables,
que consiste
en restarle
a los valores
de una0variable
su media y dividirlos por su desviacin
itmtica
cin
tpica. La variable
estandarizada
resultante
tiene media
y desviacin
1.2tpica.
MEDIDAS
DE
TENDENCIA
CENTRAL
La 1.4
variable
estandarizada
resultante
tiene media
y desviacin
tpica 1; essedecir, si zi =
Ejemplo
En este
y en los sucesivos
ejemplos
sobre 0estimadores
muestrales,
por
x
,
se
define
como
la
suma
de
cada
uno
de
los
stica,
decir,denotada
si zi = (x(x
x
)/
s
,
entonces
z
=
0
y
s
=
1.

)/s
,
entonces
=
0
y
s
=
1.
ii
xx
zz
utilizarn
los
valores
del
colesterol
HDLacerca
obtenidos
en los
primeros
sujetos del
Las medidas de tendencia central informan
de cul
es el10valor
ms representativo
ales dividida por el nmero de observaciones realizadas. Si denotamos
1.4.2 Rango intercuartlico
go intercuartlico
estudio
European
Study o,
ondicho
Antioxidants,
and Cancer
of
de una
determinada
variable
de formaMyocardial
equivalente,Infarction
estos estimadores
indican
muestral y porEl
xi rango
el valor
observado
para
el
sujeto
i-simo,
i
=
1,
...,
n,
intercuartlico
se define
la diferencia
entre
el tercer y el primer cuartil (percentiles
ntercuartlico se define como
la diferencia
entrecomo
el tercer
y el primer
cuartil
the
Breast
(EURAMIC),
un
estudio
multicntrico
de
casos
controles
realizado
alrededor
derespectivamente).
qu valor se agrupan
los datos
observados.indica
Las medidas
de tendencia
75 y 25,
El rango
intercuartlico
layamplitud
del
50% central de la
a dada por
muestra
y
se
usa
como
medida
de
dispersin
cuando
la
variable
presenta
valores
extremos. En
es 75 y 25, respectivamente). El rango intercuartlico indica la amplitud del
entre
1991
y
1992
en
ocho
pases
Europeos
e
Israel
para
evaluar
el
efecto
de
los
central
de lasuele
muestra
sirven tantode
para
resumir los
resultados
para
tal caso,
ir acompaado
la mediana
como
medida observados
de tendenciacomo
central.
n
al de la muestra y1se usa como
cuando la variable
x +medida
x 2 + ... +dexdispersin
n
x=
x i = 1 1.11
realizar
inferencias
acercaAde
los. parmetros
poblacionales
correspondientes.
A
Ejemplo
partir
de
los
10 valores
del colesterol
HDL ordenados
5de menor a
n i =1
n
mayor,
percentiles
25 y 75de
vienen
determinados
alores extremos. En tal
caso,los
suele
ir acompaado
la mediana
como por la tercera (0,87 mmol/l) y octava
continuacin
se describen
principales
estimadores El
de rango
la tendencia
central de
observacin
(1,53los
mmol/l),
respectivamente.
intercuartlico
se una
calcula entonces
latendencia
medida de
tendencia
central
ms
utilizada
y
de
ms
fcil
central. como la diferencia entre ambos percentiles, 1,53 0,87 = 0,66 mmol/l.
variable.
Corresponde al centro de gravedad de los datos de la muestra. Su
1.4.3 Coeficiente de variacin
mplo 1.11 A 1.2.1
partirMedia
de los 10
valores del colesterol HDL ordenados de menor a
aritmtica
cin es que estElmuy
influenciada
por lossevalores
extremos
y, en este
coeficiente de variacin
define como
el cociente
entre la desviacin tpica y la media aritmtica,
or, los percentiles
25 yaritmtica,
75como
vienen
determinados
tercera
(0,87
Laexpresado
media
denotada
por xpor
seladefine
como
suma
dey cada
de losde escala ya que,
.,Este
estimador
nolammol/l)
est
afectado
poruno
cambios
porcentaje,
100s/
ser un fiel reflejo
de
la
tendencia
central
de
la
distribucin.
al multiplicar los valores de una variable por un mismo factor, tanto la media como la desviacin
va observacin
(1,53muestrales
mmol/l),por
respectivamente.
El
se
tpica
cambian
dicho por
factor
su rango
cociente
permanece inalterable.
valores
dividida
el ynmero
de intercuartlico
observaciones
realizadas.El
Si coeficiente
denotamosde variacin

relaciona la desviacin tpica con la media y es til para comparar la variabilidad de diferentes
1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
con distintas
por ejemplo,
unapara
desviacin
tpica
de 10i kg
porvariables
n el tamao
muestralmedias.
y por xiAs,
el valor
observado
el sujeto
i-simo,
= 1,en...,una
n, muestra de
adultos con un peso medio de 70 kg indicara un mismo grado de dispersin que una desviacin
los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
la media vendra dada por
12

European Study on Antioxidants, Myocardial Infarction and Cancer of


x + x 2 + ... + x n
1 n
.
=
= 1
x
xyi controles

t (EURAMIC), un estudio multicntrico de casos


n i =1
nrealizado

Pastor-Barriuso R.

realizar inferencias acerca de los parmetros poblacionales correspondientes. A


Estadstica descriptiva

continuacin se describen los principales estimadores de la tendencia central de una


variable.
tpica de
0,5 kg en una muestra de recin nacidos con un peso medio de 3,5 kg (ambos coeficientes
de variacin son 10010/70 = 1000,5/3,5 = 14,3%).
1.2.1 Media aritmtica
Ejemplo 1.12 El coeficiente de variacin de los 10 primeros valores del colesterol HDL
1000,395/1,223
32,3%;
es decir,
en
estudio
EURAMIC
sera 100s/
Laelmedia
aritmtica,
denotada
por x ,=se
define como la =suma
de cada
uno la
dedesviacin
los
tpica es aproximadamente un tercio de la media.
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
1.5 REPRESENTACIONES
por n el tamao muestral yGRFICAS
por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
En el anlisis e interpretacin de los datos de un estudio, es importante no limitarse a realizar medidas
la media vendra dada por
de resumen numricas. Las medidas de tendencia central y dispersin deben completarse con grficos
que permitan observar directamente las caractersticas y relaciones de las variables estudiadas. En
esta seccin se revisan los principales mtodos
... + x n y resumir una variable.
x +para
x 2 +presentar
1 n grficos
.
x = xi = 1
n i =1
n
1.5.1 Diagrama de barras

La media
es la medida
de tendencia
ms utilizada
de ms fcily cuantitativas
Los diagramas
de barras
son adecuados
para central
representar
variables ycualitativas
discretas. En estos diagramas se representan las categoras de la variable en el eje horizontal y sus
interpretacin.
de gravedad
los datos
devariable
la muestra.
Su
frecuencias
(absolutas Corresponde
o relativas) enalelcentro
eje vertical.
Para cada de
categora
de la
se construye
un rectngulo de anchura constante y altura proporcional a la frecuencia. Los rectngulos estn
principal
limitacin
estdistancia
muy influenciada
porlalos
valores extremos
y, en este
separados
unos de
otros pores
la que
misma
para reflejar
discontinuidad
de la variable.
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
Ejemplo 1.13 La representacin del diagrama de barras del hbito tabquico en el grupo
control del estudio EURAMIC se ilustra en la Figura 1.1. De los 700 controles del estudio que
no haban
padecido
miocardio,
todos salvo
presentaban
informacin
Ejemplo
1.4 un
Eninfarto
este y agudo
en los de
sucesivos
ejemplos
sobreuno
estimadores
muestrales,
se
sobre el consumo de tabaco. De stos, un 27,2% (190/699) eran nunca fumadores, un 35,3%
(247/699)
eran exlos
fumadores,
y elcolesterol
restante 37,5%
fumadores
actuales.
utilizarn
valores del
HDL (262/699)
obtenidoseran
en los
10 primeros
sujetos del
40
estudio
European Study on Antioxidants, Myocardial Infarction and Cancer of

the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado

Frecuencia relativa (%)

30
entre
1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los

5
20

10

0
Nunca
fumador

Ex fumador

Fumador
actual

Figura 1.1 Diagrama de barras del hbito tabquico en el grupo control del estudio EURAMIC.Figura 1.1
8

Pastor-Barriuso R.

Representaciones grficas

1.5.2 Histograma y polgono de frecuencias


El histograma es el principal mtodo grfico para la representacin de variables cuantitativas
continuas. En primer lugar, los valores de la variable continua se agrupan en categoras
exhaustivas (cubren todo el rango de la variable) y mutuamente excluyentes (no se solapan). En
el eje horizontal del histograma se representan las categoras o intervalos y en el eje vertical las
frecuencias (absolutas o relativas) de cada intervalo. Posteriormente, se construye un rectngulo
para cada categora, cuya anchura es igual a la longitud del intervalo y cuyo rea es proporcional
a la frecuencia (si los intervalos tienen distinta longitud, las alturas de los rectngulos del
histograma no sern proporcionales a las frecuencias).
El polgono de frecuencias se construye uniendo con lneas rectas los puntos medios de las bases
superiores de los rectngulos que conforman un histograma. Tanto el histograma como el polgono
de frecuencias sirven para representar grficamente la distribucin de una variable continua.
Ejemplo 1.14 El histograma de la distribucin del colesterol HDL en el grupo control
del estudio EURAMIC se presenta en la Figura 1.2. En este caso, se representa la
frecuencia absoluta en el eje vertical e intervalos de distinta longitud en el eje horizontal.
Para los intervalos de menor longitud (0,2 mmol/l), la altura de los rectngulos es igual a
la frecuencia; as, por ejemplo, la altura del rectngulo en el intervalo 1,2-1,4 mmol/l es
igual a los 86 sujetos con niveles del colesterol HDL dentro de este rango. Sin embargo,
para los intervalos de mayor longitud, la altura de la barra es igual a la frecuencia dividida
por el incremento relativo de la longitud del intervalo; as, por ejemplo, para el intervalo
1,4-1,7 mmol/l, cuya frecuencia es 55 y su longitud es 1,5 veces la longitud mnima, la
altura de la barra es 55/1,5 = 36,7. La Figura 1.2 se completa con el polgono de frecuencias,
que muestra una distribucin del colesterol HDL aproximadamente simtrica con la cola
superior ligeramente mayor que la inferior.
150

Frecuencia absoluta

125

100

75

50

25

0
0

0,3

0,6

0,8

1,2

1,4

Colesterol HDL (mmol/l)

1,7

2,5

Figura 1.2

Figura 1.2 Histograma y polgono de frecuencias del colesterol HDL en el grupo control del estudio
EURAMIC.
Pastor-Barriuso R.

Estadstica descriptiva

1.5.3 Grfico de tallo y hojas


Este grfico tiene la ventaja de reflejar los datos originales de la muestra, a la vez que permite
visualizar la distribucin de frecuencias. En primer lugar, para cada observacin de la variable,
se separa el ltimo dgito significativo (hoja) de los restantes dgitos del valor de la variable
(tallo). A continuacin, todos los posibles tallos se colocan ordenados en una misma columna.
Finalmente, para cada valor de la variable, se coloca su hoja a la derecha del tallo correspondiente.
Las hojas de un mismo tallo suelen colocarse en orden creciente. El resultado se conoce con el
nombre de grfico de tallo y hojas.
Ejemplo 1.15 La Figura 1.3 muestra el grfico de tallo y hojas del colesterol HDL en los
100 primeros controles del estudio EURAMIC con datos para esta variable. Los 2 valores
ms bajos del colesterol HDL son 0,21 y 0,26 mmol/l, cuyo tallo comn es 0,2 y sus
respectivas hojas son 1 y 6, que aparecen a la derecha de la primera lnea del grfico. El
siguiente tallo es 0,3, que no tiene ninguna hoja ya que no hay valores entre 0,30 y 0,39
mmol/l, y lo mismo sucede con el tallo 0,4. En el tallo 0,5 hay una hoja igual a 7, que
corresponde al valor 0,57 mmol/l. En el tallo 0,6 hay 5 hojas (35558), que corresponden a
los 5 valores del colesterol HDL entre 0,60 y 0,69 mmol/l y que son 0,63, 0,65, 0,65, 0,65 y
0,68 mmol/l. El resto de los tallos se interpreta de la misma manera. A partir de este grfico
resulta sencillo calcular los cuantiles; as, por ejemplo, la mediana se obtendra como la
media de los valores ordenados en las posiciones 50 y 51, (1,10 + 1,12)/2 = 1,11 mmol/l.
Frecuencia
2
0
0
1
5
3
12
13
13
9
15
7
6
6
2
2
2
1
1

Tallo
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0

Hoja
16
7
35558
467
002344455579
0013334566779
0111123455559
023456789
000023356689999
1223778
345789
133689
44
34
36
0
9

Figura 1.3 Grfico de tallo y hojas del colesterol HDL en los 100 primeros controles del estudio EURAMIC.

Figura 1.3

10

Pastor-Barriuso R.

Representaciones grficas

1.5.4

Diagrama de caja

El diagrama de caja permite evaluar la tendencia central, la dispersin y la simetra de la


distribucin de una variable, as como identificar valores extremos. Los lmites inferior y
superior de la caja corresponden a los percentiles 25 y 75; es decir, la altura de la caja representa
el rango intercuartlico e indica la dispersin de la muestra. La lnea horizontal dentro de la caja
corresponde a la mediana y representa la tendencia central de la muestra. El grfico se completa
con barras verticales a ambos lados de la caja de longitud 1,5 veces el rango intercuartlico. Los
valores extremos, aquellos distanciados de los lmites de la caja entre 1,5 y 3 veces el rango
intercuartlico, se representan con un crculo y los valores muy extremos, aquellos alejados de
la caja ms de 3 veces el rango intercuartlico, se denotan mediante un asterisco.
En este grfico, si la distribucin es simtrica, los lmites superior e inferior de la caja estarn
aproximadamente a la misma distancia de la mediana, mientras que si la distribucin est sesgada
positivamente, el lmite superior estar ms alejado de la mediana que el inferior y si la distribucin
est sesgada negativamente, el lmite inferior estar ms alejado de la mediana que el superior.
Ejemplo 1.16 La Figura 1.4 muestra el diagrama de caja del colesterol HDL en el grupo
control del estudio EURAMIC. Como puede observarse, esta distribucin presenta un
leve sesgo positivo ya que el lmite superior de la caja est ligeramente ms alejado de la
mediana que el lmite inferior.
2,5

Colesterol HDL (mmol/l)

1,5

0,5

Figura 1.4 Diagrama de caja del colesterol HDL en el grupo control del estudio EURAMIC.

Figura 1.4

Pastor-Barriuso R.

11

Estadstica descriptiva

1.6 REFERENCIAS
1. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.
2. Glantz SA. Primer of Biostatistics, Fifth Edition. New York: McGraw-Hill/Appleton &
Lange, 2001.
3. Pagano M, Gauvreau K. Principles of Biostatistics, Second Edition. Belmont, CA: Duxbury
Press, 2000.
4. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,
2006.

12

Pastor-Barriuso R.

TEMA 2
PROBABILIDAD
2.1INTRODUCCIN
Se denominan experimentos estocsticos, aleatorios o no determinsticos a aquellos en los
que pueden obtenerse resultados distintos cuando se repiten en idnticas circunstancias. Los
fenmenos biolgicos tienen en este sentido una componente aleatoria importante. La
herramienta matemtica que constituye la base para el estudio de fenmenos con una componente
aleatoria es la teora de la probabilidad, que proporciona modelos tericos aplicables a la
frecuencia de los distintos resultados de un experimento.
A continuacin, se revisan algunos conceptos previos que van a ser necesarios para
sistematizar la nocin de probabilidad.
yy Espacio muestral, denotado por W, es el conjunto de los posibles resultados de un
experimento aleatorio.
yy Se denomina suceso a cualquier subconjunto del espacio muestral W. Los sucesos pueden
ser elementos simples de W o conjuntos de elementos. Dos sucesos particulares son el
suceso seguro W, que contiene todos los elementos del espacio muestral, y el suceso
imposible o conjunto vaco , que no contiene ningn elemento.
Ejemplo 2.1 Si el experimento consiste en observar el nmero de supervivientes a
los 6 meses de 4 pacientes con cncer sometidos a tratamiento, el espacio muestral
ser W = {0, 1, 2, 3, 4}. Si el experimento consiste en medir los niveles de colesterol HDL
de una persona, el espacio muestral ser W = (0, ).
En el primer experimento, algunos sucesos podran ser: no observar ningn superviviente
A = {0}, observar 1 2 supervivientes B = {1, 2} u observar al menos 2 supervivientes
C = {2, 3, 4}. En el segundo experimento, algunos de los posibles sucesos incluiran:
tener un colesterol HDL 1 mmol/l A = (0, 1] o tener un colesterol HDL > 1,5 mmol/l
B = (1,5, ).
yy El suceso unin AB es el evento constituido por los elementos que pertenecen a A o B, o
a ambos a la vez.
yy El suceso interseccin AB es el evento formado por los elementos que pertenecen
simultneamente a A y B.
yy Sucesos disjuntos, incompatibles o mutuamente excluyentes son aquellos que no pueden
ocurrir simultneamente; es decir, su interseccin es el conjunto vaco, AB = .
yy El suceso complementario del suceso A, denotado por Ac, es el evento que ocurre cuando
no se realiza A.
Estos sucesos estn representados en los diagramas de la Figura 2.1. En general, las
operaciones entre sucesos se rigen por la teora de conjuntos, de la cual pueden derivarse algunas
propiedades importantes como A(BC) = (AB)(AC), A(BC) = (AB)(AC),
(AB)c = AcBc y (AB)c = AcBc.
Pastor-Barriuso R.

13

Probabilidad

su interseccin es
A BC = {2}. Al medir los niveles deAcolesterol HDL de una
persona, los sucesos
= (0, 1] y B = (1,5, ) son mutuamente
(a)AAB
(b) ABexcluyentes ya que
AB = . Asimismo, en este experimento el complementario de A es el suceso Ac
= (1, ).
B

En este tema se define el concepto de probabilidad y se introducen las reglas bsicas


A

para operar con probabilidades. Estas reglas constituyen la base para el clculo e
(c) AB =

(d) Ac

interpretacin de los procedimientos de inferencia estadstica (por ejemplo, el valor P


Figura 2.1 Diagramas de los sucesos unin (a), interseccin (b), sucesos mutuamente excluyentes
Figura 2.1(c) y
suceso
(d).
de un complementario
contraste de hiptesis
vase Tema 5) y permiten tambin evaluar la

sensibilidad,
especificidad
y los valoresdepredictivos
de lasa pruebas
diagnsticas.
Ejemplola 2.2
En el experimento
supervivencia
los 6 meses
de 4 pacientes con
cncer, la unin de los sucesos B = {1, 2} y C = {2, 3, 4} es BC = {1, 2, 3, 4} y su
interseccin es BC = {2}. Al medir los niveles de colesterol HDL de una persona, los
2.2 CONCEPTO
Y 1]
DEFINICIONES
PROBABILIDAD
sucesos A = (0,
y B = (1,5, ) sonDE
mutuamente
excluyentes ya que AB = . Asimismo,
en este experimento el complementario de A es el suceso Ac = (1, ).
El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano:
En este tema se define el concepto de probabilidad y se introducen las reglas bsicas para
operar
con probabilidades.
reglas
constituyen la
paraocurra,
el clculo
e interpretacin
de
la probabilidad
de un sucesoEstas
refleja
la verosimilitud
debase
que ste
de forma
que
los procedimientos de inferencia estadstica (por ejemplo, el valor P de un contraste de hiptesis
vase
Tema
5)probables
y permiten
tambin
la sensibilidad,
especificidad
y los
los sucesos
ms
se darn
con evaluar
mayor frecuencia
que loslamenos
probables.
Sinvalores
predictivos de las pruebas diagnsticas.
embargo, para abordar la probabilidad de forma sistemtica, es necesaria una definicin
2.2 CONCEPTO Y DEFINICIONES DE PROBABILIDAD
rigurosa, a la vez que compatible con nuestra intuicin. Dos definiciones de
El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano: la
probabilidad de
de un
usosuceso
comnrefleja
son: la verosimilitud de que ste ocurra, de forma que los sucesos
probabilidad
ms probables se darn con mayor frecuencia que los menos probables. Sin embargo, para
Definicin frecuentista (von Mises). Al repetir un experimento indefinidamente,
abordar
la probabilidad de forma sistemtica, es necesaria una definicin rigurosa, a la vez que
compatible con nuestra intuicin. Dos definiciones de probabilidad de uso comn son:
la probabilidad de un suceso es el lmite del cociente entre el nmero de veces que
yy Definicin frecuentista (von Mises). Al repetir un experimento indefinidamente, la
probabilidad
un suceso
es el lmite
del cocienterealizados,
entre el nmero de veces que ocurre
ocurre dicho de
suceso
y el nmero
de experimentos
dicho suceso y el nmero de experimentos realizados,

#A
,
n n

P(A) = lim

donde #A es el nmero de veces que se realiza A en los n experimentos.


donde #A es el nmero de veces que se realiza A en los n experimentos.
14

Pastor-Barriuso R.

indefinidamente los registros anuales, el lmite de estos cocientes 0,4850, 0,4845,


Concepto y definiciones
de probabilidad
0,4845, ... determinara la probabilidad de ser mujer. En la prctica,
sin embargo,

no es posible realizar infinitos experimentos y las probabilidades tericas se


Ejemplo 2.3 Supongamos que se desea conocer la probabilidad de ser mujer entre todos
estiman
mediante
empricas
obtenidas
partir de Nacional
un nmero
los recin
nacidos probabilidades
vivos en Espaa.
Segn los
datos dela Instituto
definito
Estadstica,
se registraron 226.170 nias de 466.371 nacimientos en 2005, 233.773 de 482.957 en
de
experimentos.
utilizando
losLa
datos
disponibles
de nacimientos
en226.170/466.371
2005
2006
y 238.632 deAs,
492.527
en 2007.
proporcin
acumulada
de nias es
= 0,4850 en 2005, 459.943/949.328 = 0,4845 en 2005-2006 y 698.575/1.441.855 = 0,4845
2007,
se estimara
una probabilidad
de ser mujerlosderegistros
0,4845. anuales, el lmite de estos
en 2005-2007.
Aumentando
indefinidamente
cocientes 0,4850, 0,4845, 0,4845, ... determinara la probabilidad de ser mujer. En la
prctica, sin embargo, no es posible realizar infinitos experimentos y las probabilidades
Definicin
(Kolmogorov).
La probabilidad
una funcin
quede
asigna
tericas se axiomtica
estiman mediante
probabilidades
empricas es
obtenidas
a partir
un nmero
finito de experimentos. As, utilizando los datos disponibles de nacimientos en 20052007,
asecada
posible
suceso
de un experimento
numrico, de tal forma que se
estimara
una
probabilidad
de ser mujerundevalor
0,4845.

cumplan losaxiomtica
siguientes axiomas:
yy Definicin
(Kolmogorov). La probabilidad es una funcin que asigna a cada
posible suceso de un experimento un valor numrico, de tal forma que se cumplan los
(i) Noaxiomas:
negatividad: P(A) 0,
siguientes
(i) (ii)No
negatividad: P(
P(A)
Normatividad:
) = 0,
1,
(ii) Normatividad: P(W) = 1,
, ...son
sonsucesos
sucesosmutuamente
mutuamenteexcluyentes,
excluyentes,entonces
entonces
Aditividad:SiSiAA, 1A, A, 2...
(iii) (iii)Aditividad:
1

axiomtica se derivan
de
algunas propiedades importantes de la funcin
P Ai = P( A1 A2 ...) = P( A1 ) + P( A2 ) + ... = P( Ai ) .
axiomtica se derivan
algunas propiedades importantes de la funcin
de
i =1
probabilidad: i =1
Notar que esta definicin de probabilidad tan slo especifica las propiedades generales
probabilidad:

) tener
=esta
0, una
- P(
Notar
que
definicin
probabilidad tan
especifica
las propiedades
que
debe
funcin de probabilidad,
peroslo
no permite
la asignacin
de probabilidades
a- un
suceso
) = 0, concreto. No obstante, de la definicin axiomtica se derivan algunas
P(
1importantes
- debe
P(A),tener de
- P(Ac) =que
generales
unalafuncin
propiedades
funcinde
deprobabilidad,
probabilidad:pero no permite la

c
) = 1=-0,P(A),
- P(AP()
(iv)
asignacin
probabilidades
a un
concreto.
No obstante, de la definicin
B, suceso
entonces
P(A) P(B),
- Si A estdeincluido
en B, A
c
P(A
) =incluido
1 P(A),
-(v) Si A
est
en B, A B, entonces P(A) P(B),
- 0 P(A) 1,
(vi) Si A est incluido en B, AB, entonces P(A) P(B),
- 0 P(A) 1,
- Sub-aditividad:
(vii)
0 P(A) 1, Para cualquier coleccin de sucesos A1, A2, ...,
4
- Sub-aditividad: Para cualquier coleccin de sucesos A1, A2, ...,
(viii) Sub-aditividad: Para cualquier
coleccin
de
sucesos
A
,
A
,
...,
1
2


P Ai P( Ai ) ,
i=1 i=1
P Ai P( Ai ) ,
i =1 i =1
, ...,
AkAsucesos
cualesquiera,
- Principio
de de
inclusin-exclusin:
Sean
A1,AA,2A
(ix)
Principio
inclusin-exclusin:
Sean
, ...,
sucesos
cualesquiera,
1

- Principio de inclusin-exclusin: Sean A1, A2, ..., Ak sucesos cualesquiera,


k
k
P Ai = P ( Ai ) P( Ai A j ) + ...
ik=1 ik=1
1 i < j k
P Ai = P(k A
) P( Ai A j ) + ...
+1i
k 2 ... Ak ).
i =1 + i(=1 1) P( A11 i <j A

+ (1) k +1 P( A1 A2 ... Ak ).
Del tercer axioma de la probabilidad se deduce que, si dos sucesos son mutuamente
Del tercer axioma
de la probabilidad
se deduce
dossus
sucesos
son mutuamente
excluyentes,
la probabilidad
de la unin
es la que,
sumasi de
probabilidades
por separado. El

Del
tercer de
axioma
de la probabilidad
se deduceeste
que,resultado
si dos sucesos
son mutuamente
principio
inclusin-exclusin
generaliza
para sucesos
no necesariamente
excluyentes, la probabilidad de la unin es la suma de sus probabilidades por separado.
excluyentes, la probabilidad de la unin es la suma de sus probabilidades por separado.
El principio de inclusin-exclusin generaliza este resultado para sucesos no
Pastor-Barriuso R.
El principio de inclusin-exclusin generaliza este resultado para sucesos no
necesariamente excluyentes: la probabilidad de la unin de dos sucesos cualesquiera es

15

El principio de
inclusin-exclusin
generaliza
este resultado
para sucesospor
no separado.
excluyentes,
la probabilidad
de la unin
es la suma
de sus probabilidades
necesariamente
excluyentes: la probabilidad
la unin
de dos
sucesos
cualesquiera
El
principio de inclusin-exclusin
generalizadeeste
resultado
para
sucesos
no
Probabilidad

es
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada
la suma de sus probabilidades
separado, menos
la probabilidad
de lacualesquiera
interseccin,es
necesariamente
excluyentes: lapor
probabilidad
de la unin
de dos sucesos
poblacin de adultos es 0,20, la probabilidad de ser diabtico es 0,03 y la
excluyentes: la probabilidad de la unin de dos sucesos cualesquiera es la suma de sus
la suma de sus probabilidades
separado,
probabilidad
de la interseccin,
B)
= P(A) +menos
P(B)de-la
P(A
B).
P(Apor
probabilidades
por separado,
menos
la probabilidad
interseccin,
probabilidad
de ser simultneamente
bebedor
yladiabtico
es 0,01. Si se denota por
- P(AB).
P(Ayapor
B) D
= P(A)
+con
P(B)
B al suceso
ser aplicarse
bebedor
al suceso
ser
diabtico,
la probabilidad
que un
Este principio
puede
colecciones
ms
de dos sucesos.
As, por de
ejemplo,

Este principio puede aplicarse a colecciones con ms de dos sucesos. As, por ejemplo, para tres
individuo
decualesquiera,
esta poblacin
sea bebedor,
o ambos
a laAs,
vez por
viene
para principio
tres
sucesos
cumple
quecondiabtico
Este
puede
asecolecciones
ms de dos
sucesos.
ejemplo,
sucesos
cualesquiera,
se aplicarse
cumple que
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada
determinada
por
para tres
sucesos cualesquiera,
C)cumple
= P(A) que
+ P(B) + P(C)
P(ABse

poblacin de adultos es 0,20, la probabilidad de ser diabtico es 0,03 y la

- P(AB) - P(AC) - P(BC)


D)+ =P(C)
0,20 + 0,03 - 0,01 = 0,22.
P(BD)
BC)+ =P(D)
P(A)- P(B
+ P(B)
P(A=P(B)
probabilidad de ser simultneamente
bebedor
y
diabtico
es 0,01. Si se denota por
+ P(ABC).
- P(AB) - P(AC) - P(BC)
B al suceso ser bebedor y por D al suceso ser diabtico, la probabilidad de que un
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada
2.3poblacin
PROBABILIDAD
CONDICIONAL
E INDEPENDENCIA
DE SUCESOS
de adultos
0,20, lasea
probabilidad
de ser diabtico
y la probabilidad5 de
+ P(A
Bdiabtico
C).
individuo
de esta es
poblacin
bebedor,
o ambos aesla0,03
vez viene
ser simultneamente bebedor y diabtico es 0,01. Si se denota por B al suceso ser bebedor
La yprobabilidad
de un
puede
de laderealizacin
de otrode
suceso.
As, por sea
pordeterminada
D al suceso
sersuceso
diabtico,
la depender
probabilidad
que un individuo
esta poblacin
por
5
bebedor, diabtico o ambos a la vez viene determinada por
ejemplo, la probabilidad de tener un infarto
de miocardio es diferente
en los hombres
-

P(BD) = P(B) + P(D)

P(BD) = 0,20 + 0,03

0,01 = 0,22.

que en las mujeres; es decir, la probabilidad del suceso tener un infarto de miocardio
del suceso serCONDICIONAL
hombre
o ser mujer.
El concepto matemtico
que
permite
2.3depende
PROBABILIDAD
EE INDEPENDENCIA
DESUCESOS
SUCESOS
2.3
PROBABILIDAD
CONDICIONAL
INDEPENDENCIA
DE
La probabilidad
de un
suceso
puede
depender de de
la realizacin
defuncin
otro suceso.
As,espor
ejemplo,
formalizar
cmo
se
modifica
la
probabilidad
unrealizacin
suceso en
de otro
la
La
probabilidad
de
un
suceso
puede
depender
de
la
de
otro
suceso.
As,
por
la probabilidad de tener un infarto de miocardio es diferente en los hombres que en las mujeres;
es decir,
la probabilidad
del suceso
tener un
de miocardio
depende
del suceso ser hombre
probabilidad
condicional.
Entener
general,
lainfarto
probabilidad
delessuceso
B condicionada
ejemplo, la probabilidad
de
un infarto
de miocardio
diferente
en los hombresal
o ser mujer. El concepto matemtico que permite formalizar cmo se modifica la probabilidad
de un
suceso
enmujeres;
funcin
otro la
esprobabilidad
la probabilidad
condicional.
general,
la probabilidad del
suceso
se
define
como
que
enAlas
esdedecir,
del suceso
tener unEninfarto
de miocardio
suceso B condicionada al suceso A se define como
depende del suceso ser hombre o ser mujer. El
P(concepto
A B) matemtico que permite

P(B|A) =

( Asuceso
)
formalizar cmo se modifica la probabilidad dePun
en funcin de otro es la
De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este suceso.
probabilidad condicional. En general, la probabilidad del suceso B condicionada al
As,DeP(infarto|hombre)
es equivalente
a seleccionar
en primer
lugar a los
y
forma intuitiva, condicionar
por el suceso
A es equivalente
a seleccionar
porhombres
este
posteriormente
determinar
su
probabilidad
de
tener
un
infarto
de
miocardio.
suceso A se define como
es el riesgo arelativo
de la en
enfermedad
entre
los
no suceso.
expuestos
y RR
= P(D|E)/P(D|Eesc) equivalente
As,
P(infarto|hombre)
seleccionar
primer lugar
a los
El concepto
de
probabilidad condicional
tiene numerosas
aplicaciones
en epidemiologa
y
salud pblica. Por ejemplo, si D es el sucesoP(tener
y E es el suceso estar
A Buna
) deenfermedad
expuestos
y ylosposteriormente
no expuestos.
hombres
probabilidad
tener
un infartoentre
de miocardio.
. de la
P(B|A)
expuesto
a un
factor de riesgo,determinar
P(D|E)
es su
la =probabilidad
enfermedad
los expuestos,
P
(
A
)
c
P(D|E ) es la probabilidad de la enfermedad entre los no expuestos y = P(D|E)/P(D|Ec) es el
El
concepto
deenfermedad
probabilidad
condicional
tiene ynumerosas
aplicaciones en
riesgoEjemplo
relativo
de
entre
expuestos
loslanoprobabilidad
expuestos.
2.5laContinuando
con
ellos
ejemplo
anterior,
de que un
De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este

epidemiologa y salud pblica. Por ejemplo, si D es el suceso tener una enfermedad y E


Ejemplo
2.5diabtico
Continuando
con como
el ejemplo anterior, la probabilidad de que un bebedor
bebedor
sea
se calcula
suceso.
As,
P(infarto|hombre)
sea diabtico
se calcula comoes equivalente a seleccionar en primer lugar a los
es el suceso estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la
hombres y posteriormente determinarPsu( Bprobabilidad
de tener un infarto de miocardio.
D) 0,01
c
= 0,05
P(D|B)
=
=
de la enfermedad entre los
enfermedad entre los expuestos, P(D|E ) es la probabilidad
P( B)
0,20
El concepto de probabilidad condicional tiene numerosas aplicaciones en
6
epidemiologa
y salud
Porbebedor
ejemplo,sea
si Ddiabtico
es el suceso
tener una enfermedad y E
y la probabilidad
de pblica.
que un no
como
16

es el suceso
Pastor-Barriuso
R.

estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la

P( B c D) P( D) P( B D) 0,03 0,01
c
)
=
= 0,025.
P(D|B
= c
= de la enfermedad
entre los
enfermedad entre los expuestos,
1 laPprobabilidad
( B)
1 0,20
P( B c ) P(D|E ) es

As, el riesgo de diabetes es el doble en los bebedores que en los no bebedores,


P( B D) 0,01
PP(D|B)
(B c D
0,03 0,01
= ) P( D) P
= ( B D=)0,05
c
c=
)
= 0,025.
==P2.( B)
=
P(D|B
0,20Probabilidad
c
RR = P(D|B)/P(D|B ) = 0,05/0,025
1 P( B)
1condicional
0,20 e independencia de sucesos
P( B )
la probabilidad
de que
no bebedor seasidiabtico
comode uno no afecta a la
Se ydice
queeldos
sucesos
sonun
independientes
la bebedores
ocurrencia
As,
riesgo
de diabetes
es el doble en los
que en los no bebedores,
y la probabilidad de que un no bebedor sea diabtico como
c A y B son independientes si P(B|A) = P(B|Ac) = P(B) o,
probabilidad
otro;
es decir,
RR =del
P(D|B)/P(D|B
P( B )c =
0,05/0,025
D) P( D)=2.P( B D) 0,03 0,01
c
P(D|B ) =
= 0,025.
=
=
c
1 P( B)
1 0,20
P( B )
c
de forma equivalente, si P(A|B) = P(A|B ) = P(A). En consecuencia, si dos sucesos son
Se dice
que dos
independientes
si la ocurrencia
unoennolos
afecta
a la
As,
el riesgo
desucesos
diabetesson
es el
doble en los sujetos
bebedoresdeque
no bebedores,
c
independientes,
puede
probarse
que
As,
el riesgo
de diabetes
es
el doble
= P(D|B)/P(D|B
) = 0,05/0,025
= 2.en los bebedores que en los no bebedores,
probabilidad del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o,
RR = P(D|B)/P(D|Bc) = 0,05/0,025 = 2.
P(AB)
= P(A)P(B|A)
P(A)P(B).de uno no afecta a la probabilidad
Se dice que dos sucesos son
independientes
si la=ocurrencia
si dos sucesos son
de forma equivalente, si P(A|B) = P(A|Bc) = P(A). En consecuencia,
del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o, de forma equivalente,
c riesgo relativo es distinto de la unidad, RR = 2 1. Esta dependencia
es=que
decir,
= P(A). son
En consecuencia,
si doslasucesos
son independientes,
puede
si P(A|B)
P(A|B
dice
dosel)sucesos
independientes
ocurrencia
de unosinolaafecta
a la probarse
PorSe
tanto,
dos sucesos
tambin
pueden
independientes
probabilidad
independientes,
puede
probarse
que definirse sicomo
que
c
se refleja
tambin
en elAhecho
de que la probabilidad
de ser= simultneamente
P(B) o,
probabilidad
del otro;
es decir,
y B son
P(B|A
de su interseccin
es igual
al producto
de independientes
la probabilidad sideP(B|A)
cada suceso
por) =
separado.
P(AB) = P(A)P(B|A) = P(A)P(B).
c
bebedor y diabtico
no =
esP(A|B
el producto
de sus
) = P(A).
En probabilidades,
consecuencia,
si dos
son de su
de
P(A|B)
Porforma
tanto,equivalente,
dos sucesossitambin
pueden
definirse
como
independientes
si lasucesos
probabilidad
Ejemplo
2.6
A
partir
de
los
resultados
del
ejemplo
anterior,
puede
concluirse
que
Por
tanto,
dos
sucesos
tambin
pueden
definirse
como
independientes
si
la
probabilidad
interseccin
es igual
al producto
de es
la probabilidad
cada suceso
es decir,
el riesgo
relativo
distinto de la de
unidad,
RR = 2 por
1.separado.
Esta dependencia
independientes, puede probarse
que = 0,01 0,200,03 = P(B)P(D).
P(BD)
los
sucesos
padecer
diabetes
y serde
bebedor
no
son independientes
dadopor
queseparado.
la
de Ejemplo
su interseccin
es
igual
al
de
probabilidad
dedecada
se refleja
el producto
hecho
quelala
probabilidad
ser suceso
simultneamente
2.6tambin
A partirende
los
resultados
del
ejemplo anterior,
puede concluirse
que los
sucesos padecer diabetes
y ser= bebedor
no son
independientes dado que la probabilidad
P(AB)
P(A)P(B|A)
= P(A)P(B).
probabilidad
de
ser diabtico
esinterseccin
diferente ende
bebedores
que en no bebedores,
Notar
que
lael
la
dos
bebedor
yprobabilidad
diabtico
node
esen
el
producto
probabilidades,
es
decir,
riesgo
relativo
es
distinto dede
lasus
unidad,
RR = 2cualesquiera
1. Esta dependencia
de ser
diabtico
es diferente
bebedores
que
en
nosucesos
bebedores,
Ejemplo 2.6 A partir de los resultados del ejemplo anterior, puede concluirse que
es decir,
el riesgotambin
relativopueden
es distinto
de la como
unidad,
RR =c2 1. Esta
Por tanto,
dos sucesos
definirse
independientes
si ladependencia
probabilidad
P(D|B)
=
0,05

0,025
=
P(D|B
);
se refleja tambin en el
hecho
de
que
la
probabilidad
de
ser
simultneamente
P(AB)
=
P(A)P(B|A)
P(BD)y=ser
0,01
0,200,03
P(B)P(D).
los sucesos padecer diabetes
bebedor
no son=independientes
dado que la
se
refleja
tambin
en
el
hecho
de
que
la
probabilidad
de
ser
simultneamente
de su interseccin
es igual
al producto
de lade
probabilidad
por separado.se refleja
es decir,
el riesgo
relativo
ladeunidad,
de= cada
2 1.suceso
Esta dependencia
bebedor
y diabtico
no es
es distinto
el producto
sus probabilidades,
probabilidad
de
ser
diabtico
es
diferente
en
bebedores
que
en
no
bebedores,
no equivale
al producto
ambos sucesosbebedor
sean y diabtico
tambin en
el hecho de sus
que probabilidades,
la probabilidad salvo
de serque
simultneamente
bebedor
y diabtico
no es el
producto
de sus de
probabilidades,
Notar
que
la
probabilidad
de
la
interseccin
dos
sucesos
cualesquiera
no es el producto de sus probabilidades,
7
Ejemplo 2.6 A
de P(BD)
los
resultados
ejemplodeanterior,
= 0,01del
0,200,03
=
P(B)P(D).
independientes.
Enpartir
general,
para
cualquier
conjunto
sucesos
A1, A2,concluirse
..., Ak, la que
c puede
P(D|B) = 0,05 0,025 = P(D|B );
P(BD) =P(AB)
0,01 0,200,03
= P(B)P(D).
= P(A)P(B|A)
los sucesosdepadecer
diabetes es
y ser bebedor no son independientes dado que la
probabilidad
su interseccin
Notar que la probabilidad de la interseccin de dos sucesos cualesquiera
Notar
que la al
probabilidad
la probabilidades,
interseccin
sucesos
cualesquiera
noprobabilidad
equivale
producto
dede
salvo
que ambos
sean
de ser diabtico
es diferente de
en dos
bebedores
que
ensucesos
no bebedores,
Notar
que
probabilidad
desus
la interseccin
de
dos
sucesos
cualesquiera
7
A
...A
)
=
P(A
)P(A
...A
|A
)
P(Ala
1
2
k
1
2
k 1
P(A)P(B|A)
independientes. En general, para P(AB)
cualquier= conjunto
de sucesos A1, A2, ..., Ak, la
= 0,05
0,025
= P(D|Bc);
P(AB)
=1)P(A
P(A)P(B|A)
= P(D|B)
P(A
1)P(A2|A
3...Ak|A1A2) = ...
no equivale al producto de sus probabilidades, salvo que ambos sucesos sean independientes. En
probabilidad
su interseccin
es
no
equivale
alde
producto
de susde
probabilidades,
ambos sucesos sean
general,
para cualquier
conjunto
sucesos A1, A2salvo
, ..., Aque
k, la probabilidad de su interseccin es
)P(A
|A
)P(A
|A
A
)P(A
...Ak-1).
=
P(A
1
2
1
3
1
2
k|A1A2sean
no equivale al producto de sus probabilidades, salvo que ambos sucesos
independientes.
general,
para cualquier conjunto de sucesos A1, A2, ..., Ak, la
7
P(A1A2En
...A
k) = P(A1)P(A2...Ak|A1)
independientes.
En
general,
para
cualquier
conjunto
de
sucesos
A
,
A
,
...,
A
,
la
1
2
k
En el caso de que estos sucesos sean mutuamente independientes, las probabilidades
= P(Aes
probabilidad de su interseccin
1)P(A2|A1)P(A3...Ak|A1A2) = ...
probabilidad
de su
es )P(A
condicionales
deinterseccin
la frmula= anterior
se2|A
reducen
a probabilidades no condicionales y, en
P(A
1
1)P(A3|A1A2)P(Ak|A1A2...Ak 1).
P(A1A2...Ak) = P(A1)P(A2...Ak|A1)
la
probabilidad
de la sean
interseccin
es igualindependientes,
al producto de sus
Enconsecuencia,
el P(A
caso1A
de2...A
que
estos
sucesos
mutuamente
las probabilidades
k) = P(A
1)P(A2...A
k|A1)
P(A )P(Ase
condicionales de la frmula= anterior
a probabilidades
2|Areducen
1)P(A3...A
k|A1A2) = ... no condicionales y, en
En el caso de que estos sucesos 1sean mutuamente
independientes,
las probabilidades
probabilidades,
consecuencia,
la probabilidad
de
la
interseccin
es
igual
al
producto
de sus probabilidades,
= P(A1)P(A2|A1)P(A3...Ak|A1A
2) = ...
= P(A
1)P(A2|A1)P(A3|A1A2)P(Ak|A1A2...Ak-1).
condicionales de la frmula
anterior
se reducen a probabilidades no condicionales y, en
k
k

= P(A1)P(A2|A1)P(A3|A1A2)P(Ak|A1A2...A
k-1).
P Ai = P(A1A2...Ak) = P(A1)P(A2)P(Ak) = P( Ai ) .
consecuencia,
la interseccin
igual al producto
sus
En
el caso de que
estos
mutuamenteesindependientes,
las
probabilidades
i =1de
i =la
1 probabilidad
sucesosdesean

En el caso de que estos sucesos sean mutuamente independientes, las probabilidades


probabilidades,
condicionales
de la frmula anterior se reducen a probabilidades no condicionales y, en
condicionales
la frmula
anterior se reducen
a probabilidades no condicionales y, en
2.4 REGLAdeDE
LA PROBABILIDAD
TOTAL
consecuencia, lak probabilidad de la interseccin es igual al producto de
sus Pastor-Barriuso R.
k

Pprobabilidad
Ai = P(Ade
...Ak) = P(A
)P(A2al)P(A
1A
k) =
consecuencia, la
la2interseccin
es 1igual
producto
de
susP( Ai ) .

i =1
i
=
1

La
probabilidad no condicional
de un suceso B se relaciona con su probabilidad
probabilidades,

17

i =1
i =1
espacio muestral; es decir, A y Ac son sucesos exhaustivos AAc = y mutuamente
Probabilidad

excluyentes AAc = .
2.4 REGLA DE LA PROBABILIDAD TOTAL

As,
probabilidad
condicional
de B esAla
media
ponderada
de lasexhaustivos
probabilidades
y
En la
general,
para unnoconjunto
de sucesos
1, A
2, ..., A
k globalmente
2.4LaREGLA
DE
LA
PROBABILIDAD
TOTAL
probabilidad no condicional de un suceso B se relaciona con su probabilidad
descomposicin
de la probabilidad
sucesoque
B en
condicionales
de B dadoque
A yformen
Ac. Estauna
particin
del espacio
muestral,
sedel
verifica
Lamutuamente
probabilidadexcluyentes
no condicional
de un suceso
B se relaciona
con su
probabilidad
condicionada
condicionada en la ocurrencia o no de otro suceso A mediante la frmula
en la ocurrencia o nocde otro suceso A mediante la frmula
constituyen una particin del
trminos de A y A es aplicablek porque estos sucesos
k
( Ai c
B) == P(A)P(B|A)
P( Ai ) P( B
Ai )c,)P(B|Ac).
= +PP(A

P(B) =P(B)
P(AB)
B)
+ |P(A
c
i
i
=
1
=
1
espacio muestral; es decir, A y A son sucesos exhaustivos AAc = y mutuamente
As, la probabilidad no condicional de B es la media ponderada de las probabilidades
c
c
8
= de
.
excluyentes
. Esta descomposicin
la probabilidad
del sucesotil
B enentrminos
condicionales
deAA
Bregla
dado
A ylaAprobabilidad
conocida
como
total. Esta de
frmula
es particularmente
c
de A y A es aplicable porque estos sucesos constituyen una particin del espacio muestral; es
c
c
Ak globalmente
exhaustivos
y
En
para un
conjunto
sucesos
AA
= WA1y, A
mutuamente
excluyentes
AAal
=dividir
.
decir,
A ygeneral,
Ac son sucesos
2, ...,
epidemiologa,
donde
seexhaustivos
emplean de
con
frecuencia
las
particiones.
Por ejemplo,
En general, para un conjunto de sucesos A1, A2, ..., Ak globalmente exhaustivos y mutuamente
mutuamente
excluyentes
que formen
unaestn
particin
del espacio
muestral,
se verifica que
la
poblacin
gruposuna
de edad
y sexo
empleando
categoras
globalmente
excluyentes
queenformen
particin
delseespacio
muestral, se
verifica que

exhaustivas y mutuamente excluyentes.


En general,
siempre que se divide la poblacin
k
k
P(B) = P( Ai B) = P( Ai ) P( B | Ai ) ,
i =1
i =1
en estratos se aplica una particin
a esa poblacin.
conocida como regla de la probabilidad total. Esta frmula es particularmente til en
conocida como
reglasedeemplean
la probabilidad
total. Esta
es particularmente
en
epidemiologa,
donde
con frecuencia
lasfrmula
particiones.
Por ejemplo, til
al dividir
la
Ejemplo
2.7
En
una
poblacin
de
mayores
de
65
aos,
los
individuos
con
edades
poblacin en grupos de edad y sexo se estn empleando categoras globalmente exhaustivas y
epidemiologa,
donde se
frecuencia
particiones.
Por ejemplo,
al dividir
mutuamente
excluyentes.
Enemplean
general,con
siempre
que selasdivide
la poblacin
en estratos
se aplica
entre
6574,
7584
y

85
aos
constituyen
el
60,
30
y
10%
de
la
poblacin.
La
una particin a esa poblacin.
la poblacin en grupos de edad y sexo se estn empleando categoras globalmente
prevalencia de la enfermedad de Alzheimer en estos grupos de edad es
Ejemplo 2.7 En una poblacin de mayores de 65 aos, los individuos con edades entre
exhaustivas
y mutuamente
general,
siempre
se divideLa
la prevalencia
poblacin de
65-74, 75-84
y 85 aosexcluyentes.
constituyen En
el 60,
30 y 10%
de laque
poblacin.
respectivamente de 20, 75 y 300 casos por 1000. La prevalencia global de la
la enfermedad de Alzheimer en estos grupos de edad es respectivamente de 20, 75 y 300
en casos
estratos
aplicaLa
una
particin aglobal
esa poblacin.
porse1000.
prevalencia
de la enfermedad de Alzheimer en esta poblacin
enfermedad de Alzheimer en esta poblacin de mayores de 65 aos se calculara
de mayores de 65 aos se calculara
Ejemplo 2.7 En una3poblacin de mayores de 65 aos, los individuos con edades
P(A) = P( E i ) P( A | E i )
entre 6574, 7584i =y1 85 aos constituyen el 60, 30 y 10% de la poblacin. La
2.5 TEOREMA DE BAYES
= 0,600,020 + 0,300,075 + 0,100,300 = 0,0645,
prevalencia de la enfermedad de Alzheimer en estos grupos de edad es
resultando 64,5 casos por 1000 personas.
El teorema de Bayes permite obtener la probabilidad condicional de A dado B a partir
respectivamente
de 20,
y 300
casos por 1000. La prevalencia global de la
resultando
64,5 casos
por75
1000
personas.
de la probabilidad de A y de las probabilidades condicionales inversas de B dado A y Ac.
2.5 TEOREMA
DEdeBAYES
enfermedad
Alzheimer en esta poblacin de mayores de 65 aos se calculara
Aplicando
definicin
de probabilidad
condicionalcondicional
y la regla dedelaAprobabilidad
total,de la
El teorema
delaBayes
permite
obtener la probabilidad
dado B a partir
3
c
probabilidad de A y de las probabilidades condicionales inversas de B dado A y A . Aplicando
9
P(A) = P( E i ) P( A | E i )
se obtienede
queprobabilidad
la definicin
condicional
y la regla de la probabilidad total, se obtiene que
i =1

P( A B) 0,300,075P(+A0,100,300
) P( B | A) = 0,0645,
P(A|B) == 0,600,020 +
.
=
P( B)
P( A) P( B | A) + P( A c ) P( B | A c )
resultando
64,5secasos
porfrecuencia
1000 personas.
El teorema
de Bayes
usa con
en la evaluacin de pruebas diagnsticas. Cuando
El teorema
Bayesdiagnstica
se usa con yfrecuencia
en lasus
evaluacin
de con
pruebas
diagnsticas.
se desarrolla
una de
prueba
se comparan
resultados
los de
un patrn oro
(mtodo de referencia en el diagnstico de la enfermedad), suelen determinarse los siguientes
Cuando se
desarrolla una propias
prueba diagnstica
se comparan sus resultados con los de un
parmetros
o caractersticas
de la pruebaydiagnstica:
18

patrn oro (mtodo de referencia en el diagnstico de la enfermedad), suelen

Pastor-Barriuso R.

determinarse los siguientes parmetros o caractersticas propias de la prueba

Teorema de Bayes

yy Sensibilidad es la probabilidad de obtener un resultado positivo de la prueba diagnstica


P( D) PS(+=| P(+|D).
D)
PS
entreVP
los
enfermos,
+ =sujetos
+) =
=
,
P ( D | realmente
c
c
P( D) P(+ | D) + P( D ) P(+ | D ) PS + (1 P)(1 E )
yy Especificidad es la probabilidad
entre los sujetos
| D) un resultado negativo
P( D)de
P(+obtener
PS
+
=
+
=
=
,
(
|
)
VP
P
D
c
c
c
realmente sanos, E = P(|D
P( D) P).(+ | D) + P( D ) P(+ | D ) PS + (1 P)(1 E )

En la aplicacin clnica de una pruebaPdiagnstica


( D c ) P( | Dac una
) determinada poblacin
(1 P ) E interesa conocer,
c
= Psiguientes
( D | ) = parmetros:
=
.
VP los
sin embargo,
c
c
+ (1 P) E
P( D) P (P| (DDc))+P(P+( D
| D)c P( | D ) P(1 S )PS
( D ) P( | D de
) tener la =
(1 Pentre
) E las personas
,
)=
VP + = P ( Dc | +positivo
yy Valor
laPprobabilidad
enfermedad
que
= P( D | ) = P( Des
VP predictivo
+ (1 P)(1 E ) .
) P(+ | D) + P( D cc ) P(+ | D cc ) = PS
(
1
)
(
1
)

P
S
P
E
(
)
(
|
)
(
)
(
|
)

P
D
P
D
P
D
P
D
tienen un resultado positivo, VP+ = P(D|+).
P( D) P(+ | D)
PS
yy Valor
negativo
es de
la probabilidad
de nopara
tener
+ =2.8
= la enfermedad entre,las personas
)=
VPpredictivo
P( D
Ejemplo
La| +sensibilidad
la prueba ELISA
c
c detectar seropositividad
) + P( D
) Pc (+ | D ) PS + (1 P)(1 E )
P(negativo,
D) P(+ | DVP
que tienen un resultado
(P(D
| D c |).
)
(1 P ) E
P ( D c ) P=
c
|sensibilidad
inmunodeficiencia
)=
= y su especificidad
VP al=virus
P( D
Ejemplo
2.8
La
de
la
prueba
ELISA
para
seropositividad
c es del
c detectar
frente
de
humana
99%
es. del de la
Aplicando el teorema de Bayes,
los| Dvalores
funcin
S ) + (1 en
P) E
( | D) +calcularse
) P(1predictivos
P( D) Ppueden
P( D ) P(
prevalencia de la enfermedad en la poblacin
y de la sensibilidad y especificidad de la prueba
c
)P
( | D c de
)es infeccin
P ) Ede es del
P( D
frente
al
virus
humana
del 99% ypor
su especificidad
cde inmunodeficiencia
96%.
En
una
poblacin
con
una
prevalencia
el(1virus
diagnstica,
=
.
VP = P( D | ) =
c
c
P( D) P ( | D) + P( D ) P( | D ) P(1 S ) + (1 P) E
Ejemplo
2.8 La
sensibilidad
de0,3%,
la
para
detectar
96%.
En una
poblacin
con del
una
prevalencia
por
elseropositividad
virus
P
(prueba
D) Pnicamente
(+ |ELISA
Dde
) infeccin
PS de con un
inmunodeficiencia
el 6,9%
de las
personas
VP + = P ( D | + )humana
=
=
,
P( D) P(+ | D) + P( D c ) P(+ | D c ) PS + (1 P)(1 E )
frente al virus
de inmunodeficiencia
humana
es del
sulas
especificidad
es un
del
inmunodeficiencia
humana
del 0,3%,
nicamente
el 99%
6,9%yde
personas con
resultado
positivo
del
test ELISA
estarn
realmente
infectadas,
Ejemplo 2.8 La sensibilidad de la prueba
ELISA
para
detectar
seropositividad
P ( D c ) P( | D c )
(1 P ) E
c
.
VPEn
=una
P( D
| del
) =test
= por el virus de
96%.
poblacin
con
una prevalencia
de infeccin
resultado
positivo
ELISA
estarn realmente
infectadas,
c
c
S ) + (1 P)es
E del
0P,003
0,)99y Psu(1especificidad
P(PS
D) P ( | D)humana
+ P( D )es
(del
| D
frente al virus de inmunodeficiencia
99%
VP+ =
=
= 0,069,
PShumana
+ (1 Pdel
)(1 0,3%,
E ) nicamente
0,003 0,99 el
+ 06,9%
,997 de
0,04
inmunodeficiencia
las personas con un
PS una prevalencia de
0,003
0,99 por el virus de
96%. En una
con
infeccin
VP+poblacin
=
=
= 0,069,
Ejemplo 2.8 LaPS
sensibilidad
ELISA
detectar
+ test
(1 ELISA
P)(1de
Elaestarn
) prueba
0,003
0,99 +para
0infectadas,
,997
0,04 seropositividad frente al
resultado positivo del
realmente
virus
de inmunodeficiencia
humana
del 99%
su
especificidad
esestarn
delcon
96%.
mientras
que prcticamente
todas
las es
personas
conyelresultado
inmunodeficiencia
humana del
0,3%,
nicamente
6,9%
de negativo
las personas
un En una
Ejemplo
2.8
La
sensibilidad
de
la
prueba
ELISA
para
detectar
seropositividad
poblacin con una prevalencia de infeccin por el virus de inmunodeficiencia humana del
mientras
que
prcticamente
todas
las
personas
resultado
negativo
0con
,003
infectadas,
0,99 positivo
0,3%,
nicamente
el
de
las personas
con
un
resultado
del estarn
test ELISA estarn
libres de
la
infeccin,
resultado
positivo
del6,9%
testPS
ELISA
estarn
realmente
VP+
=
=
=
0,069, es del
frente
al
virus
de
inmunodeficiencia
humana
es
del
99%
y
su
especificidad
realmente infectadas,
PS + (1 P)(1 E ) 0,003 0,99 + 0,997 0,04
libres de la infeccin,
(1 PS
P) Euna prevalencia 00de
,,997
00,,99
96 por el virus de
003
96%. EnVPuna poblacin
con
infeccin
=
=
= 1,000.
0,069,
VP+ ==
=
PPS
(1
1 P)EE
00,,003
00,,con
01 +
00,,997
00,,negativo
96
mientras que prcticamente
las
personas
resultado
estarn
+(1S(1)+PP()1todas
)(
)
003
99
+
997
04
E
0,997 0,96
inmunodeficiencia
humana del 0,3%,
VP- =
= nicamente el 6,9% de las=personas
1,000. con un
P(1 S ) + (1todas
P) las
E personas
0,003 0con
,01 +resultado
0,997 0,negativo
96
mientras
prcticamente
estarn libres de la
libres de que
la infeccin,
Sin
embargo,
en
una
poblacin
de
alto
riesgo
con
una
prevalencia
del
virus
de
mientras
que
prcticamente
todas
las
personas
con
resultado
negativo
estarn
infeccin,
resultado positivo del test ELISA estarn realmente infectadas,

Sin
embargo,
en unahumana
poblacin
de altoelriesgo
una
del virus de
(1 Pdel
) E 10%,
0de
,997
0sujetos
,prevalencia
96
inmunodeficiencia
73,3%con
los
con resultado
libres
de la
VPinfeccin,
=
=
=
,003
,99 0,96 1,000.
P(1 S ) +PS
(1 P) E =0,003 0,001
+ 0 ,0997
VP+
=
= 0,069,
inmunodeficiencia
humana
del
los+sujetos
positivo estarn realmente
PS
+ (1 infectados,
P)(110%,
E )el 73,3%
0,003 de
0,99
0,997 con
0,04resultado
P) E
0,997 con
0,96 una prevalencia del virus de
Sin embargo, en una(1 poblacin
de alto riesgo
VP- =
=
= 1,000.
inmunodeficiencia
el 073,3%
losuna
positivo
Sin embargo,
enrealmente
riesgo
con
prevalencia
del virus
de estarn
positivo
estarn
Puna
(1humana
poblacin
S ) + infectados,
(del
1 10%,
Pde) Ealto
,003 0de
,01
+ sujetos
0,997
con
0,96resultado
PS
0
,
10

0
,
99
mientras infectados,
que prcticamente
todas las=personas con resultado negativo
realmente
VP+
=
= 0,733,estarn
+ (1 del
P)(110%,
E ) el 73,3%
0,10 0,de
99los
+ 0sujetos
,90 0,04
inmunodeficienciaPS
humana
con resultado
PS de alto riesgo con
0,10una
0,99
Sin
embargo,
en=una poblacin
prevalencia
del virus de
libres
de VP+
la infeccin,
=
= 0,733,
PS
+
(
1

P
)(
1

E
)
0
,
10

0
,
99
+
0
,
90

0
,
04
positivo estarn realmente infectados,
siendo muy improbable
la infeccin
aquellos
sujetos
con
resultado
negativo,
inmunodeficiencia
humana
del 10%,entre
el 73,3%
de los
sujetos
con
resultado
P) E
siendo muy improbable(1lainfeccin
entre aquellos
sujetos
0,997
0,96 con resultado negativo,
VP=
= aquellos sujetos con resultado
= 1,000.
siendo
improbable
la) PS
infeccin
entre
negativo,
00,10
+0,099
P
(
1

S
+
(
1

P
)
E
0
,
003

,
01
,
997

0
,
96
positivomuy
estarn
realmente
infectados,
(1 P) E
0,90 0,96
VP+ =
=
= 0,733,
VP = PS + (1 P)(1 E ) = 0,10 0,99 + 0,90 0,04 = 0,999.
P(1 S ) + (1 P) E 0,10 0,01 + 0,90 0,96
(1 PS
P) E
0,,90
00,,96
10 una
99prevalencia
Sin embargo,
en
de alto
del virus de
VP- == una poblacin
== riesgo0con
== 0,999.
VP+
0,733,
P
(
1

S
)
+
(
1

P
)
E
0
,
10

0
,
01
+
0
,
90

0
,
96
siendo muy improbable
aquellos
PS + (1lainfeccin
P)(1 E )entre
0,10
0,99 +sujetos
0,90 0con
,04 resultado negativo,
inmunodeficiencia humana del 10%, el 73,3% de los sujetos con resultado
(1lainfeccin
P) E
0,90 0,96
Pastor-Barriuso
siendo
muy
improbable
entre
11 R.
positivo
estarn
infectados,
VP= realmente
= aquellos sujetos con resultado
= 0,999. negativo,
P(1 S ) + (1 P) E 0,10 0,01 + 0,90 0,96
11
(1 P
)E
0,090
PS
,10 0 ,096
,99

19

Como puede apreciarse, el valor predictivo positivo de esta prueba vara


Probabilidad

enormemente
funcin de
la prevalencia
la infeccin.
Como puede en
apreciarse,
el valor
predictivopoblacional
positivo dedeesta
prueba vara

enormemente en funcin de la prevalencia poblacional de la infeccin.


, A2, ..., Ak el
son
sucesos
globalmente
y mutuamente
EnComo
general,
si A1apreciarse,
puede
valor
predictivo
positivoexhaustivos
de esta prueba
vara enormemente en
funcin de la prevalencia poblacional de la infeccin.
excluyentes,
el teorema
generalizarse
como
, ...,Bayes
Ak sonpuede
sucesos
globalmente
exhaustivos y mutuamente
En general,
si A1, A2de
En general, si A1, A2, ..., Ak son sucesos globalmente exhaustivos y mutuamente excluyentes,
el teorema
degeneralizarse
BayesPpuede
generalizarse
( Ai como
B)
P ( Ai )como
P( B | Ai )
elexcluyentes,
teorema de Bayes
puede
= k
P(Ai|B) =
.
P( B)
P( A ) P( B | A )
P( Ai B)
P ( Aij) P( B | Ai j)
=
1
j
= k
P(Ai|B) =
.
P( B)
P( A j ) P( B | A j )
j =1

Ejemplo 2.9 Continuando con el Ejemplo 2.7, la distribucin de los casos de la


Ejemplo 2.9 Continuando con el Ejemplo 2.7, la distribucin de los casos de la
enfermedad
deContinuando
Alzheimer por
por
grupo
de edad
edad
viene
dada por
por de los casos de la
Ejemplo 2.9
congrupo
el Ejemplo
2.7,
la distribucin
enfermedad
de
Alzheimer
de
viene
dada

enfermedad de Alzheimer Ppor


viene
E1edad
( E1grupo
) P( A |de
)
0,60 dada
0,020por
P(E1|A) = 3
= 0,186,
=
0,0645
PP((EE1i))PP((AA|| EE1i)) 0,60 0,020
P(E1|A) = i =13
=
= 0,186,
0,0645

) i ) 0,30 0,075
P( EP2()EPi () P
A(| A
E |2 E
i
=
1
|A)
=
= 0,349,
P(E2
=
3
0,0645
P( E i ) P( A | E i )
i =1

P( E 2 ) P( A | E 2 )
0,30 0,075
= 0,349,
P(E2|A) = 3
=
P( E 3 ) P( A | E 3 )
0,100,0645
0,300
= 0,465.
P(E3|A) = 3 P ( E i ) P( A | E i )=
0,0645
i =1
P( E i ) P( A | E i )
i =1

P( E 3 ) P( A | E 3 )
0,10 0,300
Esto es, el 18,6, P(E
34,93|A)
y 46,5%
Alzheimer tienen edades
= 3 de los casos de la
= enfermedad =de0,465.
0,0645
entre 65-74, 75-84 y 85 aos, (respectivamente.
( A | Ede
Esto es, el 18,6, 34,9 y 46,5%
i ) Pcasos
i ) la enfermedad de Alzheimer tienen
PdeElos
i =1

2.6REFERENCIAS
edades
entre
6574,
7584
y 85
respectivamente.
Esto es,
el 18,6,
34,9
y 46,5%
de aos,
los casos
de la enfermedad de Alzheimer tienen
1. Billingsley P. Probability and Measure, Third Edition. New York: John Wiley & Sons, 1995.
edades entre 6574, 7584 y 85 aos, respectivamente.
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press, 2002.
2.6 REFERENCIAS
3.
Feller W. An Introduction to Probability Theory and Its Applications, Volume 1, Third
Edition. New York: John Wiley & Sons, 1968.
2.6
REFERENCIAS
Billingsley
P. Probability
and Measure,
Third
Edition.
New York:
John Wiley
& 2006.
4. 1.Rosner
B. Fundamentals
of Biostatistics,
Sixth
Edition.
Belmont,
CA: Duxbury
Press,

1995. P. Probability and Measure, Third Edition. New York: John Wiley &
1. Sons,
Billingsley
Sons, 1995.

12
12

20

Pastor-Barriuso R.

TEMA 3
VARIABLES ALEATORIAS Y
DISTRIBUCIONES DEPROBABILIDAD
3.1INTRODUCCIN
En el tema de estadstica descriptiva se revisaron las tcnicas necesarias para la realizacin de un
anlisis descriptivo de las variables recogidas en una muestra. El presente tema se centra en describir
algunos modelos tericos de probabilidad que permiten caracterizar la distribucin poblacional de
determinadas variables y que, a su vez, son aplicables a mltiples situaciones prcticas.
Cuando se realiza un estudio o un experimento aleatorio, es frecuente asignar a los resultados
del mismo una cantidad numrica. A la funcin que asocia un nmero real a cada resultado de un
experimento se le denomina variable aleatoria. Aunque el concepto de variable se ha introducido
con anterioridad, una definicin ms formal de variable aleatoria es, por tanto, la de una funcin
definida sobre el espacio muestral W que asigna a cada posible resultado de un experimento un
valor numrico. Aunque en general pueden definirse mltiples variables aleatorias para un mismo
experimento, es aconsejable seleccionar en cada caso aquellas variables que recojan las
caractersticas fundamentales del experimento. Las variables aleatorias suelen denotarse por
letras maysculas del final del alfabeto, tales como X, Y o Z, mientras que los valores que pueden
tomar se representan por sus correspondientes letras minsculas, x, y o z.
Ejemplo 3.1 A continuacin se definen algunas variables aleatorias para los experimentos
del Ejemplo 2.1 del tema anterior. En el experimento consistente en observar la
supervivencia a los 6 meses de 4 pacientes con cncer sometidos a tratamiento, una
variable aleatoria X podra ser el nmero de supervivientes, que tomara los valores X =
0, 1, 2, 3 4 en funcin del nmero de pacientes que hayan sobrevivido a los 6 meses.
Alternativamente, podra definirse otra variable aleatoria Y como el nmero de muertes,
cuyos valores seran Y = 0, 1, 2, 3 4 en funcin del nmero de muertes observadas. Para
el experimento de medir el colesterol HDL de una persona, la variable aleatoria X ms
natural sera el nivel de colesterol HDL en mmol/l, que podra tomar cualquier valor
positivo. Si el inters se centra en saber si los niveles de colesterol HDL son superiores o
inferiores al umbral de 0,90 mmol/l, otra variable aleatoria Y podra definirse como Y = 0
si el nivel observado es inferior a 0,90 mmol/l y 1 en caso contrario. La eleccin de los
valores 0 y 1 es arbitraria, bastara con asignar dos valores distintos para diferenciar
ambos tipos de resultados.
Como las variables aleatorias son funciones definidas sobre el espacio muestral, sus posibles
valores tendrn asociada una probabilidad, que corresponder a la probabilidad del suceso
constituido por aquellos resultados del experimento que toman dichos valores. Los diferentes
valores de una variable aleatoria y las probabilidades asociadas constituyen la distribucin de
probabilidad de la variable.
Ejemplo 3.2 En el primer experimento del ejemplo anterior, el nmero de supervivientes
es una variable aleatoria que toma los valores X = 0, 1, 2, 3 4. La probabilidad asociada
al valor 0 P(X = 0) sera la probabilidad del suceso ninguno de los 4 pacientes sobrevive
Pastor-Barriuso R.

21

Variables aleatorias y distribuciones deprobabilidad

a los 6 meses, la probabilidad asociada al valor 1 P(X = 1) sera la probabilidad del


suceso slo 1 de los 4 pacientes sobrevive a los 6 meses, y as sucesivamente. En el
segundo experimento, el nivel de colesterol HDL es una variable aleatoria X que puede
tomar cualquier valor en el intervalo (0, ). En este caso no tiene sentido preguntarse, por
ejemplo, cul es la probabilidad de tener exactamente un nivel de colesterol HDL de 1
mmol/l, ya que si esta variable se pudiera determinar con una precisin infinita, la
probabilidad P(X = 1) = 0. En tal caso, deberamos preguntarnos por la probabilidad de
un determinado intervalo de valores. As, por ejemplo, la probabilidad P(X 1) sera la
probabilidad del suceso tener niveles de colesterol HDL menores o iguales a 1 mmol/l.
En general, se distinguen dos grandes grupos de variables aleatorias:
yy Variables aleatorias discretas son aquellas que tan slo puede tomar un nmero discreto
(finito o infinito) de valores. Cada uno de estos valores lleva asociada una probabilidad
positiva, mientras que la probabilidad de los restantes valores es 0.
yy Variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro de
un intervalo.
caso,
la probabilidad
un valor
0, porcomo
lo que las
de la
variable
discreta X de
su obtener
probabilidad
P(Xconcreto
= xi) se es
conoce
valor
xi, i = 1, 2,En...,este
probabilidades se asignan a intervalos de valores.
funcin
dede
probabilidad.
Esta funcin
debe cumplir
las=siguientes
i = masa
1, 2,se...,
la variable
discreta
X su probabilidad
P(X
xi) sealeatorias
conoce como
valor
xi, de
A
continuacin
describen
las principales
caractersticas
de las
variables
discretas
y continuas, as como algunas distribuciones tericas de probabilidad que sern aplicables a
propiedades:
la probabilidad
deutilizadas
cadaEsta
valorfuncin
estar
0 y las
1, 0siguientes
< P(X = xi) 1, y la
funcin
de variables
masa
de aleatorias
probabilidad.
debeentre
cumplir
muchas
de las
enhalade
prctica.
suma
de las probabilidades
todosvalor
los valores
debeentre
ser igual
a 1,
propiedades:
la probabilidadpara
de cada
ha de estar
0 y 1,
0 < P(X = xi) 1, y la
3.2 DISTRIBUCIONES DE PROBABILIDAD DISCRETAS
valor xi, i = 1, 2, ..., de la variable discreta X su probabilidad P(X = xi) se conoce como
suma de las probabilidades para todos Plos
igual a 1,
( Xvalores
= x i )discreto
=debe
1. ser
Las variables aleatorias discretas toman
un
nmero
de
valores
con probabilidad no nula
i 1
funcin
de
masa
de
probabilidad.
Esta
funcin
debe
cumplir
las
siguientes
y, en consecuencia, estarn completamente caracterizadas si se conoce la probabilidad asociada
P( Xasigna
= x i ) a= cada
1. posible valor x , i = 1, 2, ..., de la

a cada uno de estos valores. La funcin


que
i
i

1
propiedades:
la
probabilidad
deP(X
cada
ha
de estar
entre
y 1,de
0 masa
< P(Xde
= que
xprobabilidad.
1, y la
Una
vez conocida
la funcin
de masa
deconoce
probabilidad,
la 0probabilidad
i) una
como
funcin
de
variable
discreta
X su
probabilidad
= valor
xi) se
Esta funcin debe cumplir las siguientes propiedades: la probabilidad de cada valor ha de estar
variable
aleatoria
comprendida
en cualquier
subconjunto
Ade
se
calcula
suma
las
probabilidades
todos
losde
valores
debe serlaigual
atodos
1, los
1,Xpara
yest
la suma
de
las
probabilidades
para
valores
debe ser
entre
0Una
yde
1,vez
0 <conocida
P(X discreta
= xi)lafuncin
de
masa
probabilidad,
probabilidad
que
una
igual a 1,
como
la suma
de las
probabilidades
de aquellosenvalores
xi incluidos
dentro
de calcula
ese
variable
aleatoria
discreta
X est comprendida
subconjunto
A se
P( X = x ) =cualquier
1.

i 1

subconjunto,
como la suma de las probabilidades de aquellos valores xi incluidos dentro de ese
Una vez conocida la funcin de masa de probabilidad, la probabilidad de que una variable
Unadiscreta
vez conocida
funcin de masa
de probabilidad,
la probabilidad
que la
una
aleatoria
X est la
comprendida
en cualquier
subconjunto
A se calculade
como
suma de
subconjunto,
P(X
A)
=
.
P
(
X
=
x
)

ide ese subconjunto,


dentro
las probabilidades de aquellos valores xi incluidos
xi A
variable aleatoria discreta X est comprendida
en cualquier subconjunto A se calcula
P(X A) = P( X = x i ) .
xi A
como
la suma la
defuncin
las probabilidades
de aquellos
xi incluidos
dentro
dedefine
ese
En particular,
de distribucin
F(x)
devalores
una variable
aleatoria
X se
En particular, la funcin de distribucin F(x) de una variable aleatoria X se define como la
subconjunto,
como
la probabilidad
de
un valor
menor
igual
a x, aleatoria X se define
probabilidad
de observar
unobservar
valor
menor
o igual
a de
x, ouna
En particular,
la funcin
de distribucin
F(x)
variable
F(x)P(X
= un
P(X
=x)menor
Xx =) .xai )x,.
como la probabilidad de observar
valor
A)
= P( XPo=( igual
i
xi A

xi x

F(x)variable
= P(X discreta
x) = ser
P ( Xuna
= xfuncin
La funcin de distribucin de una
escalonada creciente con
i ).
La
funcin
de
distribucin
de
una
variable
discreta
xi x ser una funcin escalonada
saltos
en
los
valores
x
con
probabilidad
no
nula.
i
En particular, la funcin
de distribucin F(x) de una variable aleatoria X se define
creciente
con
en los valores
xi con probabilidad
nouna
nula.
La funcin
desaltos
distribucin
de una variable
discreta ser
funcin escalonada
como la probabilidad de observar un valor menor o igual a x,
22

Pastor-Barriuso R.

creciente con saltos en los valores xi con probabilidad no nula.


F(x) que
= P(X
x) = previos
P ( X = xse
Ejemplo 3.3 Supongamos
porestudios
i ) .estima que, despus de 6
xi x

meses de tratamiento en 4 pacientes con cncer, la probabilidad de que sobrevivan

0, 1, 2, 3 y 4 con probabilidad no nula.


Distribuciones de probabilidad discretas

[Tabla 3.1 aproximadamente aqu]


Ejemplo 3.3 Supongamos que por estudios previos se estima que, despus de 6 meses
de tratamiento en 4 pacientes
con cncer,
la probabilidadaqu]
de que sobrevivan 0, 1, 2, 3 4
[Figura
3.1 aproximadamente
pacientes viene determinada por la segunda columna de la Tabla 3.1. Estos valores y sus
probabilidades constituyen la funcin de masa de probabilidad de la variable nmero de
supervivientes,
quedeseestadstica
muestra endescriptiva,
la Figura 3.1(a).
Los valores
de la funcin
de distribucin
En
el primer tema
se definieron
la media
y la varianza
en 0, 1, 2, 3 y 4 aparecen en la tercera columna de la Tabla 3.1; as, por ejemplo, la funcin
de distribucin
en 1 esdeF(1)
= P(X central
1) = P(X
= 0) + P(Xde= una
1) =variable
0,1296 +en0,3456
muestral
como medidas
tendencia
y dispersin
una = 0,4752.
La funcin de distribucin de esta variable se representa en la Figura 3.1(b). Notar que
F(x) est
definida sobre
cualquier
nmero
real, aun
cuando
la variable
tome slo los
muestra.
A continuacin,
se definen
medidas
anlogas
para
la distribucin
poblacional
valores 0, 1, 2, 3 y 4 con probabilidad no nula.
de una variable aleatoria. La esperanza o media poblacional de una variable aleatoria
En el primer tema de estadstica descriptiva, se definieron la media y la varianza muestral
como
medidas
de tendencia
y dispersin
de unalavariable
una
muestra.de
A continuacin,
discreta
X, denotada
por central
o E(X),
se define como
suma deenlos
productos
cada
se definen medidas anlogas para la distribucin poblacional de una variable aleatoria. La
esperanza
o media
poblacional
de=una
valor xi por
su probabilidad
P(X
xi),variable aleatoria discreta X, denotada por o E(X), se
define como la suma de los productos de cada valor xi por su probabilidad P(X = xi),

= E(X) =

x P( X = x ) .
i

i 1

Tabla
Funcin
masa de probabilidad y
La esperanza es la
media3.1
de los
valores xde
i ponderados por su probabilidad y representa
funcin de distribucin del nmero de supervivientes
a los de
6 meses
de4aleatoria.
pacientesNotar
con cncer
sometidos
a se puede
as el valor promedio
la variable
que la media
muestral
tratamiento.
calcular de forma similar,
multiplicando cada
valor observado
de la variable por su
Nmero
Funcin
Funcin
frecuencia relativa.

de supervivientes
de masa
(x)
P(X
= x)una
La varianza poblacional de

0
2
abreviada por o var(X), 1se define
2
3
la variable respecto de su media,
4

0,4

como

2 = var(X) = E(X - )2 =

0,1296
0,3456
la
esperanza
0,3456
0,1536
0,0256

del

0,1296
0,4752
cuadrado
0,8208
0,9744
1,0000

discreta X,

de la desviacin de

(x

P( X = x i ) 2 = E(X2) - 2.

i 1

0,3

de distribucin
F(x) = aleatoria
P(X x)
variable

i 1

P(X = x) 0,2

2
i

) 2 P( X = xi )
1

0,8

F(x)

0,1

0,6
0,4

0,2

0
0

(a)

(b)

Figura 3.1 Funcin de masa de probabilidad (a) y funcin de distribucin (b) del nmero de supervivientes
a los 6 meses de 4 pacientes con cncer sometidos a tratamiento.
Figura 3.1

Pastor-Barriuso R.

23

as el valor promedio de la variable aleatoria. Notar que la media muestral se puede


Variables aleatorias y distribuciones deprobabilidad

calcular de forma similar, multiplicando cada valor observado de la variable por su

frecuencia relativa. La varianza poblacional de una variable aleatoria discreta X,


La esperanza
es la ponderada
media de los
xi ponderados
por su probabilidad
y representa as el
s, la varianza resulta
ser la media
del valores
cuadrado
de las desviaciones
en los
valor promedio de la2variable aleatoria. Notar que la media muestral se puede calcular de forma
abreviada por o var(X), se define como la esperanza del cuadrado de la desviacin de
observado
la variable
por su frecuencia relativa. La
cuadradamultiplicando
de la varianzacada
es lavalor
desviacin
tpica de
poblacional
, que
lores xi. La razsimilar,
As, la varianza
resulta
media ponderada
del cuadrado
de las desviaciones
en los
se define
varianza
poblacional
deser
unalavariable
aleatoria discreta
X, abreviada
por 2 o var(X),
la variable respecto de su media,
como ladeesperanza
delaleatoria
cuadrado
de la desviacin
depoblacional.
la variable respecto de su media,
presenta la dispersin
la variable
respecto
de su media
As,
la varianza
resulta
ser lade
media
ponderada
cuadradotpica
de laspoblacional
desviaciones
valores
x . La raz
cuadrada
la varianza
es ladel
desviacin
, en
quelos
i

2 = var(X) = E(X )2 = ( xi ) 2 P( X = xi )
valores
x
.
La
raz
cuadrada de
la varianza
esi la
desviacin
poblacional , que
i
la variable
aleatoria
respecto
detpica
su
Ejemplo 3.4 representa
A partir delalosdispersin
datos del de
ejemplo
anterior,
el 1valor
esperado
delmedia poblacional.
= xrespecto
media
= E(X
) .
representa la dispersin de la variable aleatoria
de
poblacional.
i P( X = x
i ) su
nmero de supervivientes a los 6 meses de 4 pacientes con
i 1 cncer sometidos a
Ejemplo 3.4 A partir de los datos del ejemplo anterior, el valor esperado del
2

varianza3.4
resulta
ser lademedia
ponderada
del cuadrado
las
desviaciones
en los valores
tratamiento As,
seralaEjemplo
A partir
losadatos
del
ejemplo
anterior,de
elcon
valor
esperado
del
nmero
de supervivientes
loses6la
meses
de 4 pacientes
cncer
sometidos
a
cuadrada
de la varianza
desviacin
tpica poblacional
, que representa
xi. La raz
5la
dispersin
de ladevariable
aleatoriaa respecto
de su
poblacional.
4
nmero
supervivientes
los 6 meses
demedia
4 pacientes
con cncer sometidos a
tratamiento
sera
= kP( X = k ) = 00,1296 + 10,3456 + ... + 40,0256 = 1,60,
k = 0 Ejemplo 3.4 A partir de los datos del ejemplo anterior, el valor esperado del nmero de
tratamiento sera
supervivientes a4 los 6 meses de 4 pacientes con cncer sometidos a tratamiento sera
= kP( X = k ) = 00,1296 + 10,3456 + ... + 40,0256 = 1,60,
y la varianza
4k = 0
= kP( X = k ) = 00,1296 + 10,3456 + ... + 40,0256 = 1,60,
k =0

y 4la varianza
=y
(k ) 2 P( X = k )
la
varianza
k =0
y la varianza
2

2 = k)
2 =+

) 2 P( X
= (0 - 1,60) 0,1296
... (+k(4
- 1,60)
0,0256 = 0,96.
2

4k = 0

2 ==
(k1,60)
)220,1296
P( X =+k )... + (4 1,60)20,0256 = 0,96.
(0

k =0
Es decir, el nmero esperado de supervivientes
a los 6 meses es 1,60 y la
Es decir, el nmero esperado 2de supervivientes a los 62meses es 1,60 y la desviacin tpica
= (0 - 1,60) 0,1296 + ... + (4 - 1,60) 0,0256 = 0,96.
= decir,
0,96 el=nmero
0,98.
desviacin tpica Es
esperado de supervivientes a los 6 meses es 1,60 y la

Es decir, el nmero esperado de supervivientes a los 6 meses es 1,60 y la


= 0,96 = 0,98.
tpica
3.2.1 desviacin
Distribucin
binomial
2.1 Distribucin binomial
La distribucin
binomial
terico de distribucin de probabilidad discreta aplicable
,96 = 0,98.
desviacin
tpica es=un 0modelo
a
aquellos
experimentos
en
los
que
se
realizan
pruebas independientes,
cada una de ellas con
distribucin binomial es un modelo terico de distribucin denprobabilidad
discreta
3.2.1
Distribucin
binomial
slo dos resultados posibles (xito o fracaso) y la misma probabilidad de xito . En tal caso, se
dice
que la variable
aleatoria
X nmero
de xitos
en las n pruebas
licable a aquellos
experimentos
en los
que se realizan
n pruebas
independientes,
cada sigue una distribucin
3.2.1
Distribucin
binomial
La
distribucin
binomial
es
un
modelo
terico
de
distribucin
de
probabilidad(vase
discreta
binomial con parmetros n y . A partir de los resultados del tema de probabilidad
Ejemplo
3.5),
puede
probarse
que
la
distribucin
binomial
toma
valores
en
k
=
0,
1,
...,
n
con
probabilidad
a de ellas con slo
dos resultados
posibleses(xito
o fracaso)
y lademisma
probabilidad
La
distribucin
binomial
un modelo
terico
distribucin
de probabilidad
discreta
aplicable
a aquellos
experimentos
en los
que se
realizan
n pruebas
independientes,
cada
n n k k
nk nk
= se(realizan
1de
(1xitos
P(XP(X
=enk)=los
se dice
que la variable
aleatoria
X=k)
nmero
en, las n independientes, cada
xito . En tal caso,
)fracaso)
)n, pruebas
aplicable
a aquellos
experimentos
que

una de ellas
con slo
dos resultados
posibles
(xito
o
y la misma probabilidad
k k

A partir
de los y la misma probabilidad
uebas sigue unauna
distribucin
binomial
parmetros
n y .(xito
de ellas
con
slo
doscon
posibles
o fracaso)
. En
tal
caso,
seresultados
dice que la
variable
aleatoria
X nmero de xitos en las n
de xito
n
n n! n!

= =
donde
es
nmero
de
de ndeelementos
tomados
de kdeenk k,
es el
el
nmero
de combinaciones
combinaciones
elementos
es
el
nmero
de
combinaciones
n elementos
tomados
encon
donde
k!tal
sultados del tema
de
probabilidad
Ejemplo
3.5),
puede probarse
que
la
k. kEn
((vase
(nk!caso,
k)!kse
dice
que
la
variable
aleatoria
X
nmero
de
xitos
en
las
n
de
xito
n
)!

pruebas sigue una distribucin binomial con parmetros n y . A partir de los


n! = n(n 1)1 y 0! = 1. Por supuesto, estas probabilidades constituyen una funcin de
stribucin binomial
toma
valores
endistribucin
k ya
= y0,que,
...,1.binomial
n con
probabilidad
partir
deque
losigual
pruebas
sigue
una
con
npuede
y es. A
masa
de
nparmetros
y ,
su
suma
exactamente
a 1. En la
k,
con
n! probabilidad
=n!
n(n
-tema
1)1
0!1,
supuesto,
estas
probabilidades
constituyen
k, con
= n(n
- 1)1
y =0!para
= Por
1. cualquier
Por
supuesto,
estas
probabilidades
constituyen
resultados
del
de probabilidad
(vase
Ejemplo
3.5),
probarse
launauna
prctica, resulta tedioso calcular las probabilidades de una distribucin binomial mediante la
resultados
del
tema
de probabilidad
probabilidad
(vase
Ejemplo
puede
que
la
suma
es exactamente
funcin
de de
masa
de de
probabilidad
ya ya
que,
cualquier
n yprobabilidad
,probarse
su suma
es exactamente
funcin
masa
para
cualquier
ny, su
distribucin
binomial
toma valores
enque,
k para
= 0,
1, ...,
n3.5),
con
24

distribucin
binomial
toma
valores
en kcalcular
= 0,
1, ...,
con
probabilidad
igual
a 1.a En
la prctica,
resulta
tedioso
lasnlas
probabilidades
de de
una distribucin
igual
1. En
la prctica,
resulta
tedioso
calcular
probabilidades
6 una distribucin
Pastor-Barriuso R.

binomial
mediante
la frmula
anterior.
PorPor
ello,
en en
la Tabla
1 del
Apndice
se facilitan
binomial
mediante
la frmula
anterior.
ello,
la Tabla
1 del
Apndice
se facilitan
6

caractersticas sometidos a una misma terapia.


Distribuciones de probabilidad discretas

Ejemplo 3.5 En los ejemplos anteriores, se ha considerado el experimento de

observar
la Por
supervivencia
(o muerte)
en pacientes
con un determinado
cncer binomiales
frmula
anterior.
ello, en la Tabla
1 del Apndice
se facilitan
las probabilidades
para n = 2, 3, ..., 20 y = 0,05, 0,10, ..., 0,50.
sometidos al mismo tratamiento. Si por estudios previos se sabe que la
En general, la distribucin binomial se aplica al estudio de observaciones repetidas e
independientes de una misma variable dicotmica (con slo dos resultados posibles), tal como
supervivencia a los 6 meses en dichos pacientes es del 40%, el nmero de
el resultado de un tratamiento (xito o fracaso) en pacientes de similares caractersticas
sometidos a una misma terapia.
supervivientes a los 6 meses en una muestra de 4 pacientes seguir una
dado que el resultado en cada paciente es independiente y todos tienen una misma
Ejemplo 3.5binomial
En los ejemplos
anteriores,
el experimento de observar
considerado
= 0,4.
distribucin
X de parmetros
n = se
4 yha
probabilidad
de
supervivencia
del
0,4.
En
general,
la
probabilidad
desometidos
que
la supervivencia (o muerte) en pacientes con un determinado cncer
al mismo
tratamiento.
Si
por
estudios
previos
se
sabe
que
la
supervivencia
a
los
6
meses
en
dichos
suceso
dedeque
Utilizando
las
leyes
de la
probabilidad,
si denotamos
por Si al
dado
que
el
resultado
en
cada
paciente
es
independiente
y
todos
tienen
una
misma
sobrevivan
2
pacientes
cualesquiera
puede
descomponerse,
en
funcin
qu
pacientes es del 40%, el nmero de supervivientes a los 6 meses en una muestra de 4
pacientes seguir
unapaciente,
distribucin
binomial X de
de que
parmetros
n = 4nicamente
y = 0,4. los
sobreviva
el i-simo
sobrevivan
probabilidad
de supervivencia
del 0,4. En general,
la probabilidad
de que
pacientes
sobrevivan,
como la probabilidad
Utilizando las leyes de la probabilidad, si denotamos por Si al suceso de que sobreviva el
dado
quepaciente,
el resultado
envendra
cada paciente
es
independiente
y todoslos
tienenprimeros
una misma
dos
primeros
pacientes
dada
por
i-simo
la probabilidad
de que
sobrevivan
nicamente
pacientes
sobrevivan
2 pacientes
cualesquiera
enc dos
funcin de qu
cpuede
c descomponerse,
c
P(X = 2) = P{(S1S2 S 3 S 4 )(S1 S 2 S3 S 4 )
vendra dada por
probabilidad de supervivencia
del 0,4. En general, la probabilidad de que
c
pacientes
S 4c ) = P(S1)P(S2)P( S 3c )P( S 4c ) = 0,42(1 0,4)2,
P(Ssobrevivan,
1S2 S 3 como
c
(S1 S 2cpuede
S 3c descomponerse,
S4)( S1c S2Sen
3 S 4 )
sobrevivan 2 pacientes cualesquiera
funcin de qu
dado que el resultado en cada paciente es independiente
y todosctienen unac misma probabilidad
c
c
P
(
X
=
2)
=
P
{(
S

S
)(
S1de
S2
S3sobrevivan
S4 )
1
2
4
de supervivencia del 0,4. En general, la 3probabilidad
que
2 pacientes
pacientes sobrevivan, como( S1c S2 S 3c S4)( S1c S 2c S3S4)}.
cualesquiera puede descomponerse, en funcin de qu pacientes sobrevivan, como
(S1 S 2c S 3c S4)( S1c S2S3 S 4c )
c
c
P(Xest
= 2)constituida
= P{(S1Spor
S 4c )(
S3 S 4c como
)
2 Sla
1 S 2
Esta probabilidad
unin
deStantos
sucesos
posibles 7
3
cc
c
c
c
c
S4)(
)(
S1c SS12 SS32SS4c3
) S4)}.
(S(
1 S12 SS23SS34
4
4!
24
c
c 2 en 2; es
c decir,
c
S
S= )}.
combinaciones de 4 pacientes
de
=

S
)(
S

( Stomados
2
4
3
4
1
3
1
2
2 2! (4 2)! 4
Esta probabilidad est constituida por la unin de tantos sucesos
como posibles
Esta probabilidad est constituida por la unin de tantos sucesos como posibles
= 6 sucesos. Adems, estos sucesos son mutuamente excluyentes y todos ellos
4
4!
24
combinaciones
4 pacientes
tomados
2;es
es decir,
decir, =
=
combinaciones
de 4depacientes
tomados
dede2 2enen
2;
=6
2
2
(4 2)!
Esta
probabilidad
constituida
la unin
de(1tantos
2como
2!posibles
- 0,4)sucesos
. En consecuencia,
la 4
tienen
una misma est
probabilidad
de por
ocurrir
de 0,4
sucesos. Adems, estos sucesos son mutuamente excluyentes y todos ellos tienen una
2 son mutuamente
2
4y! todos ellos
24 de que
= 6 probabilidad
sucesos.
Adems,
estosde
sucesos
excluyentes
probabilidad
de que
sobrevivan
2 0,4
pacientes
cualesquiera
es 4 la probabilidad
(1 0,4)
. En consecuencia,
misma
de
ocurrir
combinaciones de 4 pacientes tomados de 2 en 2; es decir, =
=
sobrevivan 2 pacientes cualesquiera es
2 2! (4 2)! 4
tienen una misma probabilidad de ocurrir de 0,42(1 - 0,4)2. En consecuencia, la
4 2
0,4mutuamente
(X =sucesos
2) = son
(1 0,4) 2 =excluyentes
0,3456,
= 6 sucesos. Adems, P
estos
y todos ellos
probabilidad de que sobrevivan
22 pacientes cualesquiera es
- 0,4)2. En
tienen
una mismaa probabilidad
dede
ocurrir
de 0,42(1 binomial
que corresponde
la probabilidad
la distribucin
deconsecuencia,
parmetros n =la4 y = 0,4
que
corresponde
a
la
probabilidad
de
la
distribucin
binomial
de
parmetros n = 4
4
2
para k = 2. Aplicando esta frmula, las probabilidades
2para k = 0, 1, 2, 3 4 supervivientes

P
(
X
=
2)
=
0,4
(
1

0
,
4
)
=
0,3456,
probabilidad
cualesquiera
es
2 3.1(a).
aparecen en de
la que
Tablasobrevivan
3.1 y en 2lapacientes
Figura
Estas probabilidades
tambin pueden

=
0,4
para
k
=
2.
Aplicando
esta
frmula,
las
probabilidades
para
k
=
0, 1, 2, 3
y
obtenerse directamente de la Tabla 1 del Apndice.
4 2
n=4
que
corresponde
a
la
probabilidad
deesperanza
binomial
de
parmetros
Tabla
0,4
P
(
X
=
2)
=
(la
1 distribucin
,4)la2yFigura
=la0,3456,

4
supervivientes
aparecen
en
la
3.1
y0en
3.1(a).
A partir de las frmulas generales para
la
varianza
deEstas
una
variable aleatoria
2

discreta, puede probarse que la esperanza de una distribucin binomial de parmetros n y es

=
0,4
para
k
=
2.
Aplicando
esta frmula,
las probabilidades
y
probabilidades tambin pueden obtenerse
directamente
de la Tabla 1para
del k = 0, 1, 2, 3
n
n
n k binomial
n=4
que correspondeEa(Xla) =
probabilidad
de
la
distribucin
y en
(
=
)
=
(1la
Figura
) n k =de
nparmetros
kP
X
k
k

a
).
Estas
4 supervivientes aparecen en la Tabla 3.1
3.1(
Apndice.
k =0
k =0 k
y = 0,4 para k = 2. Aplicando esta frmula, las probabilidades para k = 0, 1, 2, 3
probabilidades tambin pueden obtenerse directamente de la Tabla 1 del
de lasesfrmulas generales para la esperanza y la varianza de una variable
yAsupartir
varianza
4 supervivientes
aparecen en la Tabla 3.1 y en la Figura 3.1(a). Estas
Apndice.
Pastor-Barriuso R.
aleatoria discreta, puede probarse
que la esperanza de una distribucin binomial de
n
probabilidades tambin pueden
obtenerse
directamente
de
la
Tabla
1
del
var(X) = (k n ) 2 P( X = k )
A partir
las frmulask =generales
para la esperanza y la varianza de una variable
0
n y de
es
parmetros
Apndice.

25

k =0

k =0

kP( X = k ) = k k
Variables aleatorias y distribuciones deprobabilidad
E(X) =

y su varianza es
y su varianza es

k =0

(1 ) n k = n

As, el nmero esperado de xitos es igual al n

probabilidad individual de xito. La varianza n


var(X) =

(k n )

P( X = k )

nmero de pruebas y ms extrema sea la probab

que = 0 1, la varianza ser 0 ya que todas la


n
IA de la enfermedad
cumplen las siguientes hiptesis
respecto2 anla
incidencia
acumulada

= (k n ) k (1 ) n k = n(1 ).
o xitos.
k
k =0
(esto es, la probabilidad de desarrollar unnuevo
caso en un periodo de tiempo
k =0

As, el nmero esperado de xitos es igual al nmero de pruebas realizadas por la probabilidad
determinado):
As, el de
nmero
de xitos
al nmero
de pruebas
realizadas
la pruebas con el ejemplo
3.6por
Continuando
individual
xito.esperado
La varianza
n(1 es)igual
disminuye
cuanto
menor Ejemplo
sea
el nmero
de
y ms extrema sea la probabilidad de xito. En el caso particular de que = 0 1, la varianza
La probabilidad
de observarfracasos
un casooesxitos.
aproximadamente
supervivientes a los 6 meses de 4 pacient
ser 0yaProporcionalidad:
que todas las pruebas
sern respectivamente
probabilidad individual de xito. La varianza n(1 - ) disminuye cuanto menor sea el
proporcional al tiempo transcurrido, de tal forma que en un nintervalo
de 1,60,
tiempo
= 40,4
la varianza n(1 - ) =
Ejemplo 3.6 Continuando con el ejemplo anterior, el nmero esperado
de=supervivientes
nmero
de
pruebas
y
ms
extrema
sea
la
probabilidad
de
xito.
En
el
caso
particular
de la
a los 6 meses de 4 pacientes con cncer sometidos a tratamiento es n = 40,4 = 1,60,
arbitrariamente corto, la probabilidad de observar un caso es muy pequea y la
varianza n(1 ) = 40,40,6 = 0,96 y la desviacin tpica n (1 ) = 0,98. Estos resultados coin
= 0 1,
la varianza
0 ya que todas
pruebas
respectivamente
fracasosse
que
resultados
coinciden
conser
los obtenidos
en el las
Ejemplo
3.4,sern
donde
la media y la varianza
probabilidad de observar ms de un caso es esencialmente nula.
calculaban a partir de las frmulas generales para variables discretas.
3.4, donde la media y la varianza se calcu
o xitos.
Estacionaridad: El nmero de casos por unidad de tiempo permanece
para variables discretas.
3.2.2 Distribucin de Poisson
t. Notar
aproximadamente
constantecon
a loellargo
de todo
el periodo
de tiempo
Ejemplo 3.6 Continuando
ejemplo
anterior,
el nmero
esperado
de que,
La distribucin de Poisson es otro modelo terico de distribucin discreta particularmente til
para el estudio
epidemiolgico
lasubstancial
ocurrencia
Se
que
sisupervivientes
se produjera
un
cambio
dedeladeterminadas
incidencia
deenfermedades.
laDistribucin
enfermedad
en
elPoisson
3.2.2
dedice
a los
6de
meses
de 4 pacientes
con cncer
sometidos
a tratamiento
es la
variable aleatoria X nmero de casos de una determinada enfermedad a lo largo de un periodo
de tiempotiempo,
tasuncin
es
un la
intervalo
largo,
como
1 tpica
10 aos,
distribucin
de Poisson
es otro modelo teri
esta=
no seradeaplicable.
nt,
=donde
40,4
1,60,
varianza
ntiempo
(1 - ) arbitrariamente
= 40,40,6 =La
0,96
y la tal
desviacin
sigue una distribucin de Poisson si se cumplen las siguientes hiptesis respecto a la incidencia
acumulada
IA de la enfermedad
(esto es,
la probabilidad
de desarrollar
un nuevo
casoel
un epidemiolg
Independencia:
ocurrencia
de un
caso
en un determinado
instante
aen
la
particularmente
til
para
estudio
n (1 ) = La
0,98.
Estos resultados
coinciden
con los
obtenidos
enno
el afecta
Ejemplo
periodo de tiempo determinado):
probabilidad de La
observar
nuevosde
casos
en periodos
posteriores.
As, por
ejemplo,
Se dice
que la variable aleatoria
yy Proporcionalidad:
probabilidad
observar
un caso
esenfermedades.
aproximadamente
proporcional
3.4, donde la media
y la varianza
se
calculaban
a partir
de las frmulas generales
al tiempo transcurrido, de tal forma que en un intervalo de tiempo arbitrariamente corto,
enfermedad
a lo largo de un periodo de tiempo
esta hiptesis
independencia no se cumplir en brotes
epidmicos.
la probabilidad
dede
observar
para variables
discretas.un caso es muy pequea y la probabilidad de observar ms de
un caso es esencialmente nula.
tal como 1 10 aos, sig
Aunque la distribucin de Poisson se emplea habitualmentearbitrariamente
en el estudio delargo,
la morbiyy Estacionaridad: El nmero de casos por unidad de tiempo permanece aproximadamente
constante
a lo largo
todo el periodo
de tiempo
t. distribucin
Notar que, siesseenprodujera
3.2.2
Distribucin
dedePoisson
mortalidad
debida
a determinadas
enfermedades,
esta
general un cambio
substancial de la incidencia de la enfermedad en el tiempo, esta asuncin no sera aplicable.
distribucin
de La
Poisson
estiempo
otrode
modelo
terico
de determinado
distribucin
a la ocurrencia
en el
de
aleatoriosdiscreta
que satisfagan
las a la
yaplicable
yLa
Independencia:
ocurrencia
un aquellos
caso
en sucesos
un
instante
no afecta
probabilidad de observar nuevos casos en periodos posteriores. As, por ejemplo, esta
particularmente
til(por
paraejemplo,
el estudio
epidemiolgico
deepidmicos.
la ocurrencia de determinadas
hiptesis
anteriores
accidentes
de trfico).
hiptesis
de independencia
no selos
cumplir
en brotes
Aunque
la distribucin
de Poisson
se emplea
habitualmente
en de
elde
estudio
de
morbi-mortalidad
X nmero
casos
delauna
determinada
enfermedades.
Se dice
que
variable
aleatoria
k sucesos,
k=
Bajo
estas asunciones,
se la
establece
que
la probabilidad
que
ocurran
debida a determinadas enfermedades, esta distribucin es en general aplicable a la ocurrencia
en el
tiempo
sucesos
aleatorios
las hiptesis
anteriores
(por
ejemplo,
t, donde
t es unXintervalo
tiempo
a loperodo
largo
dedeuntiempo
periodo
deque
tiempo
t para
unasatisfagan
variable
aleatoria
que
siguedeuna
0,enfermedad
1, 2, ...,de
enaquellos
un
los accidentes de trfico).

arbitrariamente
largo,setal
como 1que
10laaos,
sigue una
Poissonk si
se 1, 2, ...,
distribucin
de Poisson
es
Bajo
estas asunciones,
establece
probabilidad
dedistribucin
que ocurran kdesucesos,
= 0,
en un periodo de tiempo t para una variable aleatoria X que sigue una distribucin de Poisson es
9

k
e
P(X = k) =
,
k!

26

donde el parmetro es el nmero esperado de sucesos en el perodo de tiempo t. A

Pastor-Barriuso R.

diferencia de la distribucin binomial, donde el nmero de xitos k no puede exceder el

nmero finito de pruebas realizadas, en la distribucin de Poisson el nmero de pruebas


Una caracterstica importante de la distribucin de Poisson es que tanto su media
grande, aunque
se considera infinito y el nmero de sucesos k puede ser arbitrariamente
Distribuciones de probabilidad discretas
como su varianza son iguales al parmetro ,
la probabilidad P(X = k) decrecer al aumentar k hasta hacerse esencialmente nula. Para
k
e
donde
el parmetro
esel>nmero
esperado
de sucesos
en el periodo
de tiempo t. A diferencia
probabilidades
son
positivas
cualquier
parmetro
kP
X
k
k
E(X)0,=estas
=
=
= , y suman 1, constituyendo
(
)

de la distribucin binomial, donde


el
nmero
de
xitos
k
no
puede
exceder
el nmero finito de
k!
k 0
k 0
pruebas
realizadas,
en la de
distribucin
de Poisson
el nmero
pruebassesepresentan
consideralas
infinito y el
una funcin
de masa
probabilidad.
En la Tabla
2 del de
Apndice
nmero de sucesos k puede ser arbitrariamente grande, aunque la probabilidad
P(X = k) decrecer
k
e
) 2 P( X = k ) =nula.
X) hacerse
= (k esencialmente
) 2cualquier=parmetro
.
(kPara
al aumentar k var(
hasta
> 0, estas

de
0,5
a
20
en
intervalos
de
probabilidades de Poisson
para
k! 0,5.
k 0 y suman 1, constituyendo
k 0
probabilidades son positivas
una funcin
de masa de probabilidad. En
la Tabla 2 del Apndice se presentan las probabilidades de Poisson para de 0,5 a 20 en
Una caracterstica importante de la distribucin de Poisson es que tanto su media
intervalos de 0,5.
Ejemplo
3.7 Segn
el ltimo
de Mortalidad
por Cncer
en tanto
Espaa,
tasa de
Una
caracterstica
importante
deAtlas
la distribucin
es que
su la
media
como su
, de Poisson
como
su varianza
son
iguales
al
parmetro

varianza son iguales al parmetro ,


mortalidad por cncer de vescula en hombres es de I = 1,80 casos por 100.000
e k
kP
X
k
k
E
(
X
)
=
=
=
= ,
(
)

personas-ao. Partiendo de esta


informacin, kse
pretende
k! determinar la
k 0
0

k
2 por cncer de vescula
2 een
distribucin del
nmero
de
muertes
un
periodo
var(X) = (k ) P( X = k ) = (k )
= . de 1 2
k
!
k 0
k 0
aos en una poblacin de 140.000 hombres. Las asunciones de estacionaridad e

Ejemplo 3.7 Segn el ltimo Atlas de Mortalidad por Cncer en Espaa, la tasa de
independencia parecen razonables por tratarse de casos de mortalidad por cncer
mortalidad por cncer de vescula en hombres es de I = 1,80 casos por 100.000 personas3.7deSegn
el ltimo Atlas
Mortalidad
por Cncer
en Espaa,
tasa de de
ao.Ejemplo
Partiendo
esta informacin,
se de
pretende
determinar
la distribucin
dellanmero
en periodos cortos de tiempo. Adems, como la tasa de mortalidad I es baja y se
muertes por cncer de vescula en un periodo de 1 2 aos en una poblacin de 140.000
porrazonables
100.000 por
mortalidad
cncer dedevescula
en hombres
es de I = 1,80 casos
hombres.
Las por
asunciones
estacionaridad
e independencia
parecen
asume constante en el tiempo, puede probarse que la incidencia acumulada en un
tratarse de casos de mortalidad por cncer en periodos cortos de tiempo. Adems, como
personas-ao.
Partiendo
de yesta
se pretende
determinar
la tasa
de mortalidad
I es baja
se informacin,
asume constante
en el tiempo,
puedelaprobarse que la
periodo de tiempo t es
incidencia acumulada en un periodo de tiempo t es
distribucin del nmero de muertes por cncer de vescula en un periodo de 1 2
IAt = 1 exp(It ) It;
aos en una poblacin de 140.000 hombres. Las asunciones de estacionaridad e
es decir, la probabilidad de que un individuo de esta poblacin muera por cncer de
es
decir,
la
derazonables
queproporcional
un individuo
esta
mueracumplindose
por por
cncer
vescula
es probabilidad
aproximadamente
aldetiempo
transcurrido,
independencia
parecen
por tratarse
de poblacin
casos
de mortalidad
cnceras la
hiptesis de proporcionalidad. La incidencia acumulada en 1 ao es IA1 = 0,000018 y en
de
vescula
aproximadamente
proporcional
al tiempo
transcurrido,
0,000036.
En consecuencia,
nmero
de muertes
2 aos
IA2 =es0,0000182
I es bajapor
y secncer
en periodos
cortos de =tiempo.
Adems,
como
la tasa el
de
mortalidad
de vescula en un periodo de tiempo t seguir una distribucin de Poisson con un nmero
esperado
casos igual
al tiempo,
productopuede
del tamao
poblacional
por la probabilidad
asumede
constante
en el
probarse
que la incidencia
acumulada individual
en11un
de muerte en dicho periodo, = 140.0000,000018 = 2,52 muertes esperadas en 1 ao y
140.0000,000036
= 5,04
t es en 2 aos.
periodo de tiempo
Estas distribuciones de probabilidad se muestran en la Tabla 3.2 y en la Figura 3.2. Por
ejemplo, la probabilidad de que no
IAtse= produzca
1 - exp(-Itninguna
) It; muerte por cncer de vescula
durante 1 ao en esta poblacin se calcula a partir de la distribucin de Poisson de
parmetro = 2,52 como P(X = 0) = e 0/0! = e2,52 = 0,0805. Estas distribuciones tambin
es decir,
la probabilidad
de que
un individuo dedeesta
poblacin
pueden
aproximarse
mediante
las probabilidades
Poisson
de lamuera
Tabla por
2 delcncer
Apndice
para = 2,5 y 5. En la Figura 3.2 puede observarse como, al aumentar el nmero esperado
de vescula
es aproximadamente
al tiempo
transcurrido,
de muertes,
la distribucin
tiende a proporcional
ser ms simtrica
alrededor
del valor esperado y su
varianza aumenta.
11

Pastor-Barriuso R.

27

Variables aleatorias y distribuciones deprobabilidad

Tabla 3.2 Distribucin de probabilidad del


nmero de muertes por cncer de vescula en
periodos de 1 y 2 aos en una poblacin de
140.000 hombres.

P(X = k)

P(X = k)

Nmero
de muertes (k)

1 ao

2 aos

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

0,0805
0,2028
0,2555
0,2146
0,1352
0,0681
0,0286
0,0103
0,0032
0,0009
0,0002
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0065
0,0326
0,0822
0,1381
0,1740
0,1754
0,1474
0,1061
0,0668
0,0374
0,0189
0,0086
0,0036
0,0014
0,0005
0,0002
0,0001
0,0000

0,25

0,25

0,2

0,2

0,15

0,15

0,1

0,1

0,05

0,05

0
0

10

15

20

10

(a)

(b)

15

20

Figura 3.2 Distribucin de probabilidad del nmero de muertes por cncer de vescula en un periodo de 1
ao (a) y de 2 aos (b) en una poblacin de 140.000 hombres.

Figura 3.2

28

Pastor-Barriuso R.

Este resultado es particularmente til en la prctica, ya que el clculo de las


probabilidades binomiales para n grande y pequea es muy laborioso, en cuyo caso

Distribuciones de probabilidad continuas

las probabilidades de Poisson son ms fciles de manejar y facilitan resultados


3.2.3 Aproximacin
virtualmente
idnticos. de Poisson a la distribucin binomial
Bajo determinadas circunstancias, la distribucin de Poisson puede utilizarse como aproximacin
a la distribucin
binomial.
Supongamos
que,anterior
en una distribucin
binomial,Xel nmero de pruebas
Ejemplo 3.8
Retomemos
del ejemplo
la variable aleatoria
n es grande y la probabilidad individual de xito es pequea. En tal caso, el nmero de xitos
de la distribucin
binomial
puedede
sermuertes
muy grande
y su varianza
seren
aproximadamente
correspondiente
al nmero
por cncer
de vescula
un periodo de 2 igual al
valor esperado, n(1 ) n. Como se vio en el apartado anterior, estas dos caractersticas son
propias
de en
unauna
distribucin
lo que sugiere
la validez del
siguienteconsistira
resultado: si el
aos
poblacin de
de Poisson,
140.000 hombres.
El experimento
subyacente
nmero de pruebas n es grande y la probabilidad de xito es pequea, la distribucin binomial
se aproxima
a unapara
distribucin
de los
Poisson
con parmetro
n. Por regla
general,
n = 140.000
hombres, la =ocurrencia
o no de
una esta
en observar,
cada uno de
aproximacin se considera suficientemente precisa cuando n 100 y 0,01.

muerte
por cncer
de vescula durante
unprctica,
periodo ya
de que
2 aos.
El resultado
cada
Este
resultado
es particularmente
til en la
el clculo
de las en
probabilidades
binomiales para n grande y pequea es muy laborioso, en cuyo caso las probabilidades de
sujeto
independiente
y la probabilidad
de que un virtualmente
individuo promedio
de esta
Poisson
son es
ms
fciles de manejar
y facilitan resultados
idnticos.
Utilizando la aproximacin de Poisson a la distribucin binomial, el nmero de
Ejemplo 3.8
Retomemos
ejemplo en
anterior
X correspondiente
= IA2 aleatoria
= 0,000036.
Por
poblacin
muera
por cncerdel
de vescula
2 aoslaesvariable
al nmero de muertes por cncer de vescula en un periodo de 2 aos en una poblacin
muertes por cncer de vescula en un periodo de 2 aos seguir aproximadamente
de 140.000
hombres.
El experimento
en observar,
para cada
tanto,
el nmero
de muertes
por cncersubyacente
de vesculaconsistira
en esta poblacin
a lo largo
de uno
de los n = 140.000 hombres, la ocurrencia o no de una muerte por cncer de vescula
=enncada
= 140.0000,000036
= 5,04. Eny la
una distribucin
dede
Poisson
conElparmetro
un periodo
2 aos.
resultado
es independiente
nsujeto
= 140.000
y=
2durante
aos seguir
una distribucin
binomial
con parmetros
probabilidad de que un individuo promedio de esta poblacin muera por cncer de
consecuencia,
la es
probabilidad
de observarPor
2 muertes
aproximarse
por
0,000036.
tanto,
elpuede
nmero
de muertes
vescula
enAs,
2 aos
= IAla2 =probabilidad
0,000036.
por ejemplo,
de que
ocurran
exactamente
2 por cncer
de vescula en esta poblacin a lo largo de 2 aos seguir una distribucin binomial con
5 , 04 por2 ejemplo, la probabilidad de que ocurran
parmetros
muertes
es n = 140.000 y = 0,000036.
e As,
5,04
P
(
X
=
2)

= 0,082222,
exactamente 2 muertes es
Utilizando la aproximacin de Poisson a la2!distribucin binomial, el nmero de
140.000
2
139.998

0,un
Pcncer
(X = 2)de
= vescula
000036
0,999964
= 0,082220.
muertes
por
en
periodo
de 2 aosbinomial
seguir
aproximadamente
que coincide casi perfectamente
con
la
probabilidad
exacta.
2

Utilizando
la aproximacin
a la distribucin
binomial, el nmero
muertes
= n = 140.0000,000036
= 5,04.deEn
una distribucin
de Poisson de
conPoisson
parmetro
por cncer de vescula en un periodo de 2 aos seguir aproximadamente una distribucin
Poisson conla parmetro
de
= n
= 140.0000,000036
5,04. En consecuencia,
la
3.3de
DISTRIBUCIONES
DE PROBABILIDAD
CONTINUAS
consecuencia,
probabilidad
observar
2 muertes
puede=aproximarse
por
probabilidad de observar 2 muertes puede aproximarse por
13
5 , 04
2
Las variables aleatorias continuas son aquellas
que
pueden
tomar
cualquier
valor
dentro
5,04
e
P(X = 2)
= 0,082222,
2!
de un intervalo. La probabilidad de que estas variables tomen exactamente un valor
que coincide casi perfectamente con la probabilidad binomial exacta.
que coincide
perfectamente
la probabilidad
binomial
determinado
es 0casi
y, en
consecuencia,con
carece
de sentido definir
unaexacta.
funcin de masa de
3.3probabilidad.
DISTRIBUCIONES
DE PROBABILIDAD
CONTINUAS
Para las variables
aleatorias continuas,
las probabilidades se asignan a
Las variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro de un
3.3intervalos
DISTRIBUCIONES
DE PROBABILIDAD
CONTINUAS
densidad
de probabilidad
denotada es 0
de valores mediante
una funcin
intervalo.
La probabilidad
de que estas
variablesdetomen
exactamente
un valor ,determinado
y, en consecuencia, carece de sentido definir una funcin de masa de probabilidad. Para las
f(x).aleatorias
Esta
funcin
ha de ser
negativa
valor
x, f(x) de0,
y eldentro
rea
Laspor
variables
aleatorias
continuas
son
aquellaspara
quesecualquier
pueden
cualquier
valor
variables
continuas,
las no
probabilidades
asignantomar
a intervalos
valores
mediante
una funcin de densidad de probabilidad, denotada por f(x). Esta funcin ha de ser no negativa
de total
uncualquier
intervalo.
La probabilidad
quefuncin
estasbajo
variables
tomen
exactamente
un
bajo lavalor
curva
deladensidad
debe
ser
1, valorde densidad
para
x,definida
f(x) 0, por
y eldeesta
rea
total
curva
definida
porigual
esta afuncin
debe ser igual a 1,
determinado es 0 y, en consecuencia, carece
de sentido definir una funcin de masa de

f
(
x) dx = 1.
probabilidad. Para las variables aleatorias continuas, las probabilidades se asignan a
Pastor-Barriuso R.
A partir
de la funcin
de densidad,
la probabilidad
una variable
aleatoria
de densidadde
deque
probabilidad
, denotada
intervalos
de valores
mediante
una funcin

tome valores
de cualquier
, b) puede
como el
f(x). EstaX funcin
ha de dentro
ser no negativa
paraintervalo
cualquier(avalor
x, f(x)calcularse
0, y el rea
porcontinua

29

VariablesAaleatorias
y distribuciones
deprobabilidad
partir de
la funcin
de densidad,

la probabilidad de que una variable aleatoria

continua X tome valores dentro de cualquier intervalo (a, b) puede calcularse como el
A partir de la funcin de densidad, la probabilidad de que una variable aleatoria continua X
a ycalcularse
b,
rea
bajo ladentro
funcin
densidad
entre los
tome
valores
de de
cualquier
intervalo
(a,puntos
b) puede
como el rea bajo la funcin
de densidad entre los puntos a y b,
en regiones de baja probabilidad. La funcin debdistribucin F(x) corresponde a la
P(a < X < b) = f ( x) dx .
a
probabilidad de que la variable tome un valor igual o inferior a x y, en el caso de una
As, aun cuando la probabilidad de obtener un valor concreto es 0, la funcin de densidad
tomar
valores
elevados
en regiones
alta probabilidad
ydevalores
en
de
As, aun
cuando
lacontinua,
probabilidad
de de
obtener
un
valorbajo
concreto
0,pequeos
ladefuncin
deregiones
variable
aleatoria
se calcula
como
el rea
la es
curva
la funcin
de
baja probabilidad. La funcin de distribucin F(x) corresponde a la probabilidad de que la
variable
tome
unizquierda
valor
igual
ox, inferior
x y, en el
de una variable
aleatoria
continua, se
valores
enaregiones
decaso
alta probabilidad
y valores
pequeos
densidad
atomar
la
deelevados
calcula como el rea bajo de la curva de la funcin de densidad a la izquierda de x,

F(x) = P(X x) =

14

f (t ) dt .

La funcin de distribucin de una variable aleatoria continua es una funcin que, partiendo de 0,
crece
formade
continua
hasta alcanzar
el valoraleatoria
1.
La de
funcin
distribucin
de una variable
continua es una funcin que,

partiendo
de 3.9
0, crece
formade
continua
hasta
alcanzar
el valorHDL
1. en hombres adultos se
Ejemplo
La de
funcin
densidad
para
el colesterol
representa en la Figura 3.3(a). Notar que, aunque el rea bajo la curva ha de ser igual a 1, la
funcin de densidad puede tomar valores superiores a 1. Los niveles de colesterol HDL
Ejemplo
La funcin
densidad
para elprobabilidad
colesterol HDL
en hombres
adultos
prximos
a 13.9
mmol/l
son losdeque
tienen mayor
de ocurrir,
mientras
que para
niveles inferiores y superiores esta probabilidad decrece. As, por ejemplo, la probabilidad de
a).de
Notar
que, aunque
el reaa bajo
curva(niveles
ha de ser
en la tenga
Figuraun3.3(
queseunrepresenta
hombre adulto
nivel
colesterol
HDL inferior
0,90 la
mmol/l
bajos
segn las recomendaciones del National Cholesterol Education Program) corresponde al
a 1, la funcin
de densidad
puedede
tomar
1. Los
niveles
reaigual
sombreada
bajo la curva
a la izquierda
0,90 valores
mmol/l ysuperiores
es igual a aP(X
0,90)
= 0,3274.
esperanza
o
media
poblacional
de
una
Al
igual
que
para
variables
discretas,
la
Esta probabilidad tambin puede obtenerse a partir de la funcin de distribucin del colesterol
de colesterol
HDL prximos
a 13.3(b).
mmol/lEsta
sonfuncin
los quepresenta
tienen mayor
probabilidad
de de
HDL,
que se representa
en la Figura
el aspecto
caracterstico
variable
aleatoria
representa
el valorcontinuas
promedioaproximadamente
de esa variable, ysimtricas.
se define
las funciones
decontinua
distribucin
para variables
ocurrir, mientras que para niveles inferiores y superiores esta probabilidad
como
Al
igual que para variables discretas, la esperanza o media poblacional de una variable
por ejemplo,
la promedio
probabilidad
de que
un hombre
adultocomo
tenga un nivel
aleatoria decrece.
continuaAs,
representa
el valor
de esa
variable,
y se define

E(X)mmol/l
= x(niveles
f ( x) dxbajos
.
de colesterol HDL inferiora=0,90
segn las

Program) corresponde al
recomendaciones del National Cholesterol Education
1,5
1
La varianza poblacional de una variable aleatoria continua es la esperanza de las
rea sombreada bajo la curva a la izquierda de
0,90 mmol/l y es igual a P(X
0,75
desviaciones
al cuadrado de los valores de la variable
respecto de su media, y se calcula
1
0,90) = 0,3274. Esta probabilidad tambin
obtenerse a partir de la funcin
f(x)
F(x) puede
0,5
como
0,5
de distribucin del colesterol HDL, que se representa en la Figura 3.3( b). Esta

0,25

2 = var(X) = E(X - )2 = ( xde


) 2 f ( x) dx
funcin presenta el aspecto caracterstico
las funciones de distribucin para

simtricas.
variables
continuas
aproximadamente
2
2
2
2
0
0,5
1
1,5
2
2,5
=
x f ( x) dx 0 =0,5E(X ) 1- . 1,5

Colesterol HDL (mmol/l)

2,5

Colesterol HDL (mmol/l)

La raz cuadrada de la varianza


es la desviacin
tpica poblacional
3.3 aproximadamente
aqu] , que
(a) [Figura
(b)representa la
Figura 3.3 Funcin de densidad de probabilidad (a) y funcin de distribucin (b) del colesterol HDL en
dispersin de la variable aleatoria respecto de su media poblacional. Estas expresiones
hombres adultos.
Figura 3.3
30

para la media y la varianza poblacional de una variable continua son similares a las

Pastor-Barriuso R.

facilitadas para variables discretas, salvo que la suma sobre el nmero discreto de

15

= x 2 f ( x) dx 2 = E(X2) - 2.
La varianza poblacional de una variablealeatoria continua es la esperanza de las
, que representa
la continuas
La raz cuadrada de la varianza es la desviacin tpica poblacionalDistribuciones
de probabilidad
cuadrado
de los
valores
de la variable
respecto de,su
media,
y se calcula
que
representa
la
Ladesviaciones
raz cuadradaalde
la varianza
es la
desviacin
tpica poblacional
dispersin de la variable aleatoria respecto de su media poblacional. Estas expresiones
Lacomo
varianza
de una variable
continua
es la esperanza
de las desviaciones
dispersin
de poblacional
la variable aleatoria
respectoaleatoria
de su media
poblacional.
Estas expresiones
para
la media
la varianza
una variable
continua
son
similares
a las
al
cuadrado
deylos
valores depoblacional
la variablede
respecto
de su media,
y se
calcula
como
para la media y la varianza
poblacional de
2
2 unavariable 2continua son similares a las
facilitadas para variables
discretas,
= var(
X ) = E(Xsalvo
) que
= la( suma
x )sobre
f ( x)eldxnmero discreto de

Existen muchos modelos tericos de distribuciones


continuas, cada una de ellas

facilitadas para variables discretas, salvo que la


de
suma sobre el nmero2discreto
2
2 la integral 2sobre todos los
valores con probabilidad no nula se reemplaza
por
posibles

=
x
f
(
x
)
dx

=
E
(
X
)

.
caracterizada por una frmula o expresin
concreta para la funcin de densidad. A
valores con probabilidad no nula se reemplaza por la integral sobre todos los posibles
valores
de la variable
continua.es la desviacin tpica poblacional , que representa la dispersin
La
raz cuadrada
de la varianza
continuacin se revisa en detalle la distribucin normal, que es la utilizada con mayor
de la variable aleatoria respecto de su media poblacional. Estas expresiones para la media y la
valores de la variable continua.
, que representa
la
La raz poblacional
cuadrada de de
la varianza
es la desviacin
tpica
poblacional
varianza
una variable
continua son
similares
a las
facilitadas
para variables
t de Student,
chifrecuencia
en estadstica.
Otras
distribuciones
continuas,
como la
Ejemplo
la funcin
de densidad
ejemplo
anterior,
el valor
discretas,
salvo3.10
que Utilizando
la suma sobre
el nmero
discreto del
de valores
con
probabilidad
no nula se
reemplaza
por
lalaintegral
sobre
los posibles
la variable
continua.
dispersin
de3.10
variable
aleatoria
respecto
de suvalores
media
poblacional.
Estas
Ejemplo
Utilizando
latodos
funcin
de densidad
del de
ejemplo
anterior,
elexpresiones
valor
decolesterol
Fisher, seHDL
discutirn
vayande
surgiendo
lo
largosera
del
texto.
cuadrado
o Fdel
esperado
en unasegn
poblacin
hombresaadultos
paraesperado
la mediadel
y lacolesterol
varianza
poblacional
una
variable
continua
son
similares
a las esperado
Ejemplo
3.10
Utilizando
laen
funcin
de
densidad
del
ejemplo
anterior,
HDL
una de
poblacin
de hombres
adultos
sera el valor
3.3.1
Distribucin
normal

del colesterol HDL en una poblacin de hombres adultos sera


= salvo
x f ( xque
) dxla=suma
1,10 sobre
mmol/l,
facilitadas para variables discretas,
el nmero discreto de
0

La distribucin normal, tambin


denominada
distribucin
Gaussiana,
es el modelo
= x f ( x) dx = 1,10 mmol/l,
0
valores con probabilidad no nula se reemplaza por la integral sobre todos los posibles
y la desviacin
tpica
terico
de distribucin
y la desviacin
tpicacontinua ms utilizado en la prctica. Muchas mediciones
valores
de la variable
continua.
y la desviacin
tpica
1 / 2 similares al modelo terico normal
epidemiolgicas y clnicas presentan
distribuciones

= ( x 1,10) f ( x) dx
= 0,30 mmol/l.
0
1 / 2
2
Ejemplo
3.10colesterol
Utilizando
valor
(presin
arterial,
ndice
masa
o bienanterior,
pueden el
transformarse
= srico,
( xlafuncin
1,10
) f de
(de
x)densidad
dx corporal)
= del
0,30ejemplo
mmol/l.
0

Existen
muchosdel
modelos
tericos
de
continuas,
cada
una demediante
ellas caracterizada
colesterol
HDL
endistribuciones
una poblacin
de hombres
adultos
sera
para esperado
conseguir
distribuciones
aproximadamente
normales
(tpicamente
por una frmula o expresin concreta para la funcin de densidad. A continuacin se revisa
16 en
detalle
la
distribucin
normal,
que
es
la
utilizada
con
mayor
frecuencia
en
estadstica.
Otras
transformaciones logartmicas de los
datos originales). No obstante, como se ver en los
16
distribuciones continuas, como lat=de Student,
chi-cuadrado
o F de Fisher, se discutirn segn
x f ( x) dx
= 1,10 mmol/l,
0
vayan
surgiendo
a
lo
largo
del
texto.
temas posteriores, la utilidad fundamental de la distribucin normal surge dentro de las
y la de
desviacin
tpica
3.3.1
Distribucin
normal
tcnicas
inferencia
estadstica: incluso cuando la distribucin poblacional de una
La distribucin normal, tambin denominada distribucin
Gaussiana, es el modelo terico de
2
variable diste mucho de ser normal,
puede
probarse1 / que,
bajo ciertas condiciones, la

2
distribucin continua ms utilizado
epidemiolgicas y clnicas
= en
( x la1prctica.
,10) f ( xMuchas
) dx mediciones
= 0,30 mmol/l.
al0 modelo terico normal
(presin arterial, colesterol srico, ndice
presentan distribuciones similares
distribucin de los valores medios de dicha variable seguir un modelo
de masa corporal) o bien pueden transformarse para conseguir distribuciones aproximadamente
normales (tpicamente mediante transformaciones logartmicas de los datos originales). No obstante,
aproximadamente normal.
como se ver en los temas posteriores, la utilidad fundamental de la distribucin normal surge dentro
16
de las tcnicas de inferencia estadstica: incluso cuando la distribucin poblacional de una variable
Una variable aleatoria continua X sigue una distribucin normal si su funcin de
diste mucho de ser normal, puede probarse que, bajo ciertas condiciones, la distribucin de los
valores medios de dicha variable seguir un modelo aproximadamente normal.
densidad es
Una variable aleatoria continua X sigue una distribucin normal si su funcin de densidad es

f (x) =

(x ) 2
exp
2 2
2

para cualquier valor x en la recta real, < x < . Esta funcin de densidad depende de los
parmetros
y , donde
para cualquier
valor x en la recta real, - < x < . Esta funcin de densidad depende de
yy representa la esperanza o media poblacional de la distribucin y
,desviacin
donde
ylos
y parmetros
correspondeaysu
tpica poblacional.

representa la esperanza o media poblacional de la distribucin y

Pastor-Barriuso R.

17

31

Variables aleatorias y distribuciones deprobabilidad

1
2

corresponde a su desviacin tpica poblacional.

La distribucin normal o Gaussiana con media y varianza 2 se denota


abreviadamente
por N(, 2). Para cualquier y > 0, la funcin de densidad normal
f(x)
es positiva y el rea total bajo la curva es igual a 1. Esta funcin de densidad, que
aparece representada en la Figura 3.4, tiene forma de campana, es simtrica alrededor
corresponde
tpica
poblacional.
en + ya su- desviacin
. Al tratarse
de una
de la media y tiene dos puntos de inflexin
0

Lamediana
distribucin
normalElo valor
Gaussiana
con media y varianza 2 se denot
distribucin simtrica, la media y la
coinciden.
ms frecuente
- 3

- 2

+ 2

+ 3

N(, del
). Para
y > 0, la funcin de de
abreviadamente
y su dispersinpor
alrededor
valorcualquier
medio aumenta
1/( 2 ) se alcanza en la media
x

Figura 3.4

positiva
yprobarse
el rea total
la curva
igual
a 1. Esta funcin de dens
.es
As,
puedenormal
que bajo
el68,27%
deles
rea
bajo
al aumentar
la desviacin
Figura
3.4 Funcin
de densidadtpica
de unadistribucin
con media
y desviacin
tpica
. una

aparece representada
tiene
de campana, es simt
, la
el Figura
95,45%3.4,
entre
forma
2 y el
funcin de densidad normal est comprendido
entre en
2
La distribucin normal o Gaussiana con media y varianza se denota abreviadamente
ydetiene
dos puntos
de es
inflexin
enyel+ rea
y - . Al tratars
). Para
y > de
0, la
la media
funcin
densidad
normal
positiva
por99,73%
N(, 2entre
cualquier
3.
total bajo la curva es igual a 1. Esta funcin de densidad, que aparece representada en la
y la mediana
Figura 3.4, tiene forma de campana, distribucin
es simtricasimtrica,
alrededorlademedia
la media
y tiene coinciden.
dos puntosEl valor ms fre
de inflexin en + y . Al[Figura
tratarse3.4
deaproximadamente
una distribucin simtrica,
la media y la mediana
aqu]
media
y suydispersin
alrededor del valor
se alcanza
alcanzaenenla la
media
su dispersin
coinciden. El valor ms frecuente 1/( 2 ) se
alrededor del valor medio aumenta al aumentar la desviacin tpica . As, puede probarse
distribucin
normal
con funcin
media
0 de
y desviacin
tpica 1 est
se denomina
que elLa
68,27%
del rea
bajo una
densidad
normal
comprendido
,que el 68,27% d
. As, distribucin
puedeentre
probarse
al aumentar
la desviacin
tpica
el 95,45% entre 2 y el 99,73% entre 3.
normal estandarizada, y suele denotarse por
Z o N(0, normal
1). La funcin
de densidadentre
de , el 95,45% en
de densidad
est comprendido
La distribucin normal con media 0funcin
y desviacin
tpica 1 se denomina
distribucin
normal

estandarizada,
y suele
denotarse
por Z o se
N(0, 1). La
funcin de densidad de una distribucin
una distribucin
normal
estandarizada
99,73%reduce
entre a 3.
normal estandarizada se reduce a

f (z) =

1
exp z 2 ,
2
2
1

[Figura 3.4 aproximadamente aqu]

para cualquier < z < , que se representa en la Figura 3.5(a). Como puede observarse,
La distribucin
normal
media
0 y desviacin
tpica
se trata
de una funcin
deen0.la Para
obtener
probabilidades
bajo
la 1 se denomin
, que sealrededor
representa
Figura
3.5(con
a).las
Como
puede
para cualquier
- < z <simtrica
funcin de densidad normal estandarizada, no se recurre al clculo integral, ya que estas
estandarizada
y Para
suele
denotarse
por Z facilitan
o N(0, 1). La funcin de
probabilidades
estn
y son normal
fcilmente
accesibles.
En
general,
estas
observarse, se
tratatabuladas
de una funcin
simtrica
alrededor
de ,0.
obtener
lastablas
la funcin de distribucin; es decir, la probabilidad de que la variable normal estandarizada
una
estandarizada
se
reduce
tome
un valor igual
La distribucin
funcin
de normal
distribucin
normal
estandarizada
se
probabilidades
bajoolainferior
funcin adez.densidad
normal
estandarizada,
no se recurre
al a
denota por F(z) = P(Z z), y se ilustra en la Figura 3.5(b). En la Tabla 3 del Apndice se
facilita
la funcin
F(z) para valores
de z no negativos.
clculo
integral,de
yadistribucin
que estas probabilidades
estn tabuladas
y son fcilmente
1
1
f ( z) =
exp z 2 ,
2 la 2
accesibles. En general, estas tablas facilitan la funcin de distribucin; es decir,

z.
probabilidad de que la variable normal
estandarizada
unque
valor
o inferior
z < ,
se igual
representa
en laaFigura
3.5(a). Como p
para cualquier
- <tome
32

Pastor-Barriuso R.

observarse, se trata de una funcin simtrica alrededor de 0. Para obtene


18

Distribuciones de probabilidad continuas

f(z)

(z)
1

0,5

-3

-2

-1

-3

-2

-1

(a)

(b)

Figura 3.5 Funcin de densidad (a) y funcin de distribucin (b) de una variable aleatoria normal
estandarizada.
Figura 3.5

Ejemplo 3.11 La probabilidad de obtener un valor inferior a 0,50 en una distribucin


normal estandarizada se obtiene directamente de la Tabla 3 del Apndice como el valor
de la funcin de distribucin en 0,50; es decir, P(Z 0,50) = F(0,50) = 0,6915.
Asimismo, aunque en la Tabla 3 del Apndice no aparecen las probabilidades acumuladas
para valores negativos, la probabilidad de obtener un valor inferior a 0,25 en una
distribucin normal estandarizada puede calcularse fcilmente a partir de dicha tabla.
Como la distribucin normal estandarizada es simtrica alrededor de 0, la probabilidad
a la izquierda de 0,25 es igual a la probabilidad a la derecha de 0,25 y, en consecuencia,
P(Z 0,25) = P(Z 0,25) = 1 P(Z 0,25) = 1 F(0,25) = 1 0,5987 = 0,4013. A
partir de los resultados anteriores, la probabilidad de que un valor de la distribucin normal
estandarizada. Este resultado ser particularmente til en los temas de inferencia
estandarizada se encuentre entre 0,25 y 0,50 viene dada por P(0,25 Z 0,50) = P(Z
0,50)
P(Z 0,25) = 0,6915 0,4013 = 0,2902.
estadstica.

El percentil 97,5 de una distribucin normal estandarizada se denota por z0,975 y corresponde
al valor z que deja por debajo una probabilidad del 0,975. De la Tabla 3 del Apndice, se
y
El
calculo
de probabilidades
cualquier
distribucin
normal
con media
= 1,96. Por
tratarse
de una distribucin
tiene
que F(1,96)
= 0,9750 para
y, por
tanto, z0,975
simtrica en 0, el percentil 2,5 corresponde al percentil 97,5 con signo opuesto; es decir,
z0,975 especficas,
= 1,96. As,sino
los que
valores
1,96
abarcan
el 95%
el percentil
es z0,025de= tablas
2 no2,5
requiere
puede
realizarse
a partir
decentral
las de
varianza
la distribucin normal estandarizada. Este resultado ser particularmente til en los temas
de inferencia
estadstica.
tablas
de la distribucin
normal estandarizada. Para ello, se hace uso del siguiente

resultado
la estandarizacin
de una distribucin
normal:
si con
una variable
El clculosobre
de probabilidades
para cualquier
distribucin
normal
media aleatoria
y varianza 2
no requiere de tablas especficas, sino que puede realizarse a partir de las tablas de la distribucin
X sigue
una distribucin
normal
con media
y varianzaresultado
2, X ~ sobre
N(, la2),estandarizacin
entonces la de
normal
estandarizada.
Para ello,
se hace
uso del siguiente
una distribucin normal: si una variable aleatoria X sigue una distribucin normal con media
2
, X ~ N(,
la una
variable
aleatorianormal
Z = (Xestandarizada,
)/ sigue una distribucin
y varianza
Z =(2X),-entonces
)/ sigue
distribucin
variable aleatoria
normal estandarizada,

Z=

~ N(0, 1),

donde el smbolo ~ significa estar distribuido como. Como ya se coment enPastor-Barriuso


el Tema R.
1, al restar a los valores de una variable su media y dividirlos por su desviacin tpica,

33

procedimiento de estandarizacin de variables normales permite utilizar las tablas


Variables aleatorias y distribuciones
deprobabilidad
correspondientes
a la distribucin
normal estandarizada.

3.12
Supongamos
el colesterol
HDL
en una
poblacin
dondeEjemplo
el smbolo
~ significa
estarque
distribuido
como.
Como
ya se
coment de
en hombres
el Tema 1, al restar
a los valores de una variable su media y dividirlos por su desviacin tpica, la variable resultante
X con media
= 1,10
mmol/l
y desviacin
una distribucin
tiene adultos
media sigue
0 y desviacin
tpica normal
1. El resultado
anterior
garantiza
adems
que la variable
estandarizada conserva la distribucin normal. Este procedimiento de estandarizacin de variables
= 0,30
mmol/l.
Utilizando
la estandarizacin
de variables
normales,
el
tpicapermite
normales
utilizar
las tablas
correspondientes
a la distribucin
normal
estandarizada.
Ejemplo 3.12
Supongamos
el colesterol
HDLniveles
en una de
poblacin
de HDL
hombres adultos
porcentaje
de hombres
de estaque
poblacin
que tienen
colesterol
sigue una distribucin normal X con media = 1,10 mmol/l y desviacin tpica = 0,30
mmol/l.
la estandarizacin
entre
0,90Utilizando
y 1,20 mmol/l
corresponde ade variables normales, el porcentaje de hombres de
esta poblacin que tienen niveles de colesterol HDL entre 0,90 y 1,20 mmol/l corresponde a

0,90 1,10 X 1,10 1,20 1,10


P(0,90 X 1,20) = P

0,30
0,30
0,30
= P ( 0,67 Z 0,33) = P(Z 0,33) P(Z 0,67).
Utilizando la Tabla 3 del Apndice, se obtiene que P(Z 0,33) = F(0,33) = 0,6293 y P(Z
20
0,67) = F(0,67) = 1 F(0,67) = 1 0,7486 = 0,2514. As, resulta que P(0,90 X
1,20) = 0,6293 0,2514 = 0,3779; es decir, el 37,79% de los hombres de esta poblacin
tienen niveles de colesterol HDL entre 0,90 y 1,20 mmol/l.
Para obtener el percentil 90 de la distribucin del colesterol HDL en esta poblacin, se
calcula primero el percentil 90 en la distribucin normal estandarizada, que corresponde
a z0,90 = 1,28, ya que F(1,28) 0,90. Para pasar este percentil estandarizado al
correspondiente percentil del colesterol HDL basta resolver z0,90 = (x0,90 )/. Por tanto,
el percentil 90 del colesterol HDL es x0,90 = + z0,90 = 1,10 + 1,280,30 = 1,484 mmol/l.
3.3.2 Aproximacin normal a la distribucin binomial
El clculo de las probabilidades binomiales es muy laborioso cuando el nmero de pruebas n en
muy elevado. Como se vio anteriormente, si n es grande y la probabilidad de xito es muy
pequea, la distribucin binomial puede aproximarse mediante una distribucin de Poisson. En
este apartado, se revisa el comportamiento de una distribucin binomial para un nmero de
pruebas n grande y una probabilidad individual de xito no excesivamente extrema. En la
Figura 3.6 se muestran las distribuciones binomiales para los parmetros = 0,10 y n = 10, 25,
50 y 100. Al aumentar el nmero de pruebas, la distribucin binomial tiende a ser ms simtrica
y se aproxima progresivamente a una distribucin normal con la misma media n y varianza
n(1 ) que la distribucin binomial (Figura 3.6(d)). En general, puede probarse que si el
nmero de pruebas n es elevado y la probabilidad de xito no es excesivamente extrema, de
forma que n(1 ) 5, la distribucin binomial con parmetros n y se aproxima a una
distribucin normal con media n y varianza n(1 ).
Este resultado es un caso particular del llamado teorema central del lmite, que se presentar
ms adelante (vase Tema 4), y se utiliza para aproximar las probabilidades binomiales mediante
la distribucin normal. As, para una variable binomial X con parmetros n y que cumpla las
condiciones anteriores, la probabilidad P(k1 X k2) se aproxima mediante el rea bajo la curva
de la distribucin normal N(n, n(1 )) entre k1 1/2 y k2 + 1/2, donde k1 k2 son nmeros
enteros cualesquiera. Notar que, al utilizar la aproximacin normal, los lmites del intervalo se
amplan en 1/2 para incluir las probabilidades de obtener exactamente k1 o k2 xitos. Este ajuste
se conoce como correccin por continuidad y se deriva del hecho de aproximar una distribucin
binomial discreta mediante una distribucin normal continua.
34

Pastor-Barriuso R.

extrema, de forma que n(1 - ) 5, la distribucin binomial con parmetros n y se


Distribuciones de probabilidad continuas

aproxima a una distribucin normal con media n y varianza n(1 - ).


0,4

0,4 aqu]
[Figura 3.6 aproximadamente

0,3

0,3

Este
central del lmite, que se
P(X =resultado
k) 0,2 es un caso particular del llamado teorema
0,2
0,1
0,1
presentar ms
adelante (vase Tema 4), y se utiliza para
aproximar las probabilidades
0

binomiales mediante la distribucin normal. As, para una variable binomial X con
0

10

15

20

10

15

20

anteriores, la probabilidad P((b)


k1 X k2 )
parmetros n y que cumpla las condiciones
(a)
0,4

0,4

0,3

0,3

se aproxima mediante el rea bajo la curva de la distribucin normal N(n, n(1 - ))

k - 1/2 y k2 + 1/2, donde k1 k2 son nmeros enteros cualesquiera. Notar que, al


entre
P(X1= k)
0,2

0,2

0,1
0,1 se amplan en 1/2 para incluir
utilizar la aproximacin
normal, los lmites del intervalo
0

las probabilidades de obtener exactamente k1 o k2 xitos. Este ajuste se conoce como


0

10

15

20

10

correccin por continuidad y se deriva


del hecho de aproximar una distribucin
k
k
(c)

binomial discreta mediante una distribucin normal continua.

15

20

(d)

Figura 3.6 Distribuciones binomiales con parmetros = 0,10 y n = 10 (a), 25 (b), 50 (c) y 100 (d). En el panel d,
se representa adems la funcin de densidad de una distribucin normal con media n = 1000,10 = 10
Ejemplo
probabilidad
y varianza
n(1 3.13
) = La
1000,100,90
= 9. de obtener entre 12 y 14 xitos sobre un total de

100 pruebas con una probabilidad individual de xito del 0,10 se obtiene a partir
Ejemplo 3.13 La probabilidad de obtener entre 12 y 14 xitos sobre un total de 100
pruebas
con una binomial
probabilidad
obtiene a partir de la
X conindividual
parmetrosden xito
= 100 del
y 0,10
= 0,10secomo
de
la distribucin
distribucin binomial X con parmetros n = 100 y = 0,10 como

P(12 X 14) =

100
0,10 k (1 0,10)100 k
k =12 k
14

= 0,0988 + 0,0743 + 0,0513 = 0,2244,


cuyo clculo es bastante laborioso. Sin embargo, como n(1 ) = 1000,100,90 = 9 5,
una
razonable
a esta probabilidad
de la0,90
distribucin
n(1 - )a=partir
1000,10
cuyoaproximacin
clculo es bastante
laborioso.
Sin embargo,puede
comoobtenerse
normal Y con media n = 1000,10 = 10 y varianza n(1 ) = 9 mediante
= 9 5, una aproximacin razonable a esta probabilidad puede obtenerse a partir
11,5 10 Y 10 14,5 10
P(11,5 < Y < 14,5) = P
<
<

de la distribucin normal Y con media n =3 1000,103= 10 y varianza


3
n(1 - ) = 9
= P(0,5 < Z < 1,5) = (1,5) (0,5)
mediante
= 0,9332 0,6915 = 0,2417.
Esta probabilidad corresponde al rea sombreada en la Figura 3.6(d).

22

Esta probabilidad corresponde al rea sombreada en la Figura 3.6(d).

3.3.3 Aproximacin normal a la distribucin de Poisson

Pastor-Barriuso R.

La distribucin normal tambin puede emplearse como aproximacin a la distribucin

35

moderadamente elevado, tpicamente 10. As, para una variable aleatoria X que siga
Variables aleatorias y distribuciones deprobabilidad

a una distribucin de Poisson con parmetro moderadamente grande, la probabilidad

P
(k1 XAproximacin
k2) puede aproximarse
mediante
el readebajo
la curva de la distribucin
3.3.3
normal a la
distribucin
Poisson
La distribucin normal tambin puede emplearse como aproximacin a la distribucin de Poisson
normal N(, ) entre k1 - 1/2 y k2 + 1/2.
cuando el nmero esperado de casos es moderadamente grande. En la Figura 3.7 se representan las
distribuciones de Poisson con parmetros = 1, 2,5, 5 y 10, donde puede apreciarse que, al aumentar
el nmero esperado de casos, las
probabilidades
de Poisson tienden
[Figura
3.7 aproximadamente
aqu]a distribuirse de forma normal. En
trminos generales, una distribucin de Poisson con parmetro se aproxima a una distribucin
normal con media y varianza iguales a , cuando el nmero esperado de casos es moderadamente
elevado, tpicamente 10. As, para una variable aleatoria X que siga a una distribucin de Poisson
k2)largo
puededeaproximarse
con parmetro
moderadamente
la probabilidad
P(k1 X a lo
Ejemplo3.14
Si el nmerogrande,
de casos
de una enfermedad
un ao en mediante
el rea bajo la curva de la distribucin normal N(, ) entre k1 1/2 y k2 + 1/2.
una determinada poblacin sigue una distribucin de Poisson X de parmetro =
Ejemplo 3.14 Si el nmero de casos de una enfermedad a lo largo de un ao en una
determinada
poblacin
sigue
distribucin
Poisson
parmetro = 10, la
10,
la probabilidad
de tener
15 una
o ms
casos en undemismo
aoXesde
exactamente
probabilidad de tener 15 o ms casos en un mismo ao es exactamente
e 10 10 k
P(X 15) =
= 0,0835,
k!
k 15
que puede aproximarse mediante la distribucin normal Y ~ N(10, 10) como
que puede aproximarse mediante la distribucin normal Y ~ N(10, 10) como

23

Y 10 14,5 10

P(X 15) P(Y > 14,5) = P


>
10
10
= P(Z > 1,42) = 1 (1,42) = 1 0,9222 = 0,0778.
Esta aproximacin corresponde al rea sombreada bajo la curva normal en la Figura 3.7(d).
Esta aproximacin corresponde al rea sombreada bajo la curva normal en la
0,4

0,4

0,3

0,3

P(X = k) 0,2

0,2

Figura 3.7(d).

0,1
0,1
3.4 COMBINACIN
LINEAL DE VARIABLES ALEATORIAS
0

En este apartado se introducen algunas propiedades de la combinacin lineal de


0

10

15

20

10

15

20

(a)
(b) e
variables aleatorias (discretas o continuas)
que sern tiles para la estimacin
0,4

0,4

inferencia estadstica.
En particular, se pretende derivar
el valor esperado y la varianza
0,3
0,3
= k) 0,2
0,2ck son constantes arbitrarias y X1,
de laP(X
combinacin
lineal c1X1 + ... + ckXk, donde c1, ...,
0,1

0,1

..., Xk son variables aleatorias con esperanzas 1, ..., k y varianzas 12 , ..., k2 . Como el
valor esperado de la
aleatorias
0 suma 5de variables
10
15
20es igual a0la suma
5 de sus10respectivas
15
esperanzas, se tiene que

(c)

(d)

20

Figura 3.7 Distribucionesk de Poisson con


parmetros k = 1 (a), 2,5 (b),
5 (c) y 10 (d). En el panel d, se rek
de densidad
k de una distribucin
presenta adems la funcin
normal con media y varianza iguales a = 10.
36

Pastor-Barriuso R.

E c i X i = E (c i X i ) = c i E ( X i ) = c i i ,
i =1
i =1
i =1
i =1

ya que E(ciXi) = ciE(Xi). Es decir, la esperanza de una combinacin lineal de variables

k
k 2 2

2
2
ci i + 2 ci c j i j
=
c
E
(
X
)
+
2
c
c
E
(
X
X
)

N LINEAL DE VARIABLES ALEATORIAS


i
i
i j
i
j

variables aleatorias (discretas o continuas)


que sern1tiles
i =1
i < j k para la estimacin
1 i < j k
i =1 e

Combinacin lineal de variables aleatorias

introducen algunas
propiedades
de la combinacin
lineal
=
cde{E ( X derivar
) }el
+ valor
2 cesperado
i j }
inferencia
estadstica.
En particular,
se pretende
i c j {E ( X y
i Xlaj )varianza
i =1

2
i

2
i

2
i

1 i < j k

(discretas o continuas)
que sern tiles
para
la estimacin
2
+ c Xk,2edonde
c ,ALEATORIAS
..., ck son constantes arbitrarias y X1,
la combinacin
lineal
3.4de COMBINACIN
k c1X1 + 2...
c i i2+ 2 1
c i c j {E ( X i X j ) i j }.
k

LINEAL
DE= VARIABLES

var ci X i = E ci X i
i =1 c i i
1 i < j k
ca. En particular,
pretende
derivar
el
esperado
varianza
i =1 variables
i =1
se introducen
valor
algunas
iy=1la
1, ...,
Ense
este
apartado
propiedades
dek ylavarianzas
combinacin
lineal
variables
Xk son
aleatorias
con
esperanzas
12 , ...,
k2 . de
Como
el
...,
aleatorias (discretas o continuas)
que sern tiles para la estimacin
e
inferencia
estadstica.
k
k

En
2
2 2
+ ckXk, donde
c1, ...,As,
c
son
constantes
arbitrarias
y
X
,
lineal c1X1 + ... particular,
lac i2varianza
de
una
combinacin
lineal
no
depende
slo
de
la
varianza
especfica de

kderivar
1
X
se pretende
el
valor
esperado
y
la
varianza
de
la
combinacin
lineal
c
=
E
(
X
)
+
2
c
c
E
(
X
X
)

+
2
c
c

i j
ies igual
j
i
i de sus
i j i
j1 1 + ...
a
valor esperado de la suma de ivariables
aleatorias
la suma
respectivas
i
=
1
1

i
<
j

k
i
=
1
1

i
<
j

+ ckXk, donde c1, ..., ck son constantes arbitrarias y X1, ..., Xk son variables aleatorias con
2
k variable , ...,
aleatorias con esperanzas 11,, ..., cada
2tambin
el los
.. Comode
valor
esperado
de variables
sino
trminos
E(Xde
) - suma
ij, que
se conocen como
iXjla
kk y varianzas
2
2 1
2 k
esperanzas, se tiene
que
=
c
{
E
(
X
)

}
+
2
c
c
{
E
(
X
X
)

}
aleatorias es igual a la
suma
esperanzas,
quei j
i j sei tiene
i de sus
i respectivas
i
j
i =1
1 i < j k
a suma de variables aleatorias es igual
a la suma
de sus
covarianzas
entre
las respectivas
variables Xk i y Xj. En general,
la covarianza poblacional entre dos
k
k
k2 2 k
=
2 =
) iE
E c
( Xi i )j }=. c i i ,
cEi c(cj {i XE (i )X=i X
i ci X+i
jc
e que
x yi =1 y se define como
variables
i =1
1i <i =j 1 kX e Y con esperanzas
i =1 i =1 aleatorias
k
kk

ya que E(ciXi) = ciE(Xi). Es decir, la esperanza de una combinacin lineal de variables aleatorias
2
k
k
kk i) =lineal
ksus
k
yacombinacin
que E(ciX
ciuna
E(Xde
). Es
decir,
de
lineal
deespecfica
k
es
cov(
Xno
, Y2)depende
= Euna
{(Xcombinacin
-slo
x)(Yde- la
y)}
= E(XY
)variables
- xy, de
la
esperanzas.
icombinacin
As,
de
lineal
varianza
, la esperanza
E ci X i =
E (clai Xvarianza
)
=
c
E
(
X
)
=
c

var
ci iX i =i E
ci iX ii ci i

i
=11
i =1
i =1 A partir de
resultado,
= E(X2) 2, puede calcularse la varianza
ii=este

ii==11y recordando
i =1que var(X)

aleatorias
es
la
lineal
de
sus
esperanzas.
2combinacin
2
2
k variable
trminos
E(XiXentre
se conocen
como
cada
de
combinacin
lineal
variables
aleatorias
es una
relacin como
lineal
Si valores
altos (o bajos) de
j) -
ij, quevariables.
ktambin
k ambas
una
i k,ysino
demedida
k 2dedelos
la

2
2 2
var ci X i = E ci=X
c

X i )i + i2 ci c j E ( X i X j ) c2 i i 2+ 2 ci c j i j
i c i E (
E(Xi). Es decir, la esperanza
de variables
i =1 A partir
i =1 combinacin
=1lineal
de
este
calcularse
la
deuna
resultado,
recordando
2
i =1 k iy
1 i <kj k que 2var( X) = Ei(=X
1 ) - , puede
ser
k
X
tienden
a
asociarse
con
valores
altos
(o bajos)
depoblacional
Y1,i <laj kcovarianza

covarianzas
entre
las
variables
X
y
X
.
En
general,
la
covarianza
entre
dospositiva;
i
j
var kci X2i = Ek2
ci X i 2 2 ci i k 2 2

2
mbinacin lineal devarianza
sus esperanzas.
=i =1
E(=X
)c+
2E (
E
X
+como
2j ) ci i cj }j i j
X ic)i cj de
i(ivariables
}=1+i X2 j )
c j {cEi (Xi i X
i i=1{
de
caleatorias
unacicombinacin
lineal
i
i
mientras
que
si
valores
altos
de
una
variable
i =1
< jk
i =1 define como
1se
i <relacionan
j k
con valores bajos de la otra
X ei =k1Y con1iesperanzas
x1yi <j ykse
variables aleatorias
k

2
2
2
2 2
k
k X) = =

E(
X
)c2i2- E2( ,X
puede
calcularse la
resultado, y recordando que var(
i ) + 2 c i c j E ( X i X j ) c i i + 2 c i c j i j
2
2
2
c la
icovarianza
+ 2
c1i ci <cser
E ( negativa.
X X ) No
}i .
resulta
complicado
= ci variable,
{E=( X

jj{
i
jobstante,
i =1i )i
i =1j }
1 i < j k
i }+ 2
ick j {E i( X ji X j )

determinar el
i =1
1 i <1jik< j k
i =1
cov(
k X, Y) = E{(X - x)(Y - y)} = E(XY) - xy,
mbinacin lineal de variables aleatorias
como
k
grado
deci2relacin
a partir
de la magnitud de la covarianza, ya
=
{E ( X i2 )lineal
i2 }entre
+ 2 doscivariables
c {E ( X i X
j ) i j }
= c i2 i2 +
2
c
c
{
E
(
X i X j ) 1

}. j

i
j
i
j
i
=
1
i
<
j

k
As, la varianza
de una1combinacin
lineal no depende slo de la varianza especfica de
i =1 de la relacin
i < j k lineal entre ambas variables. Si valores altos (o bajos) de
y es una medida
k
que sta
depende
de
las
unidades de medida de las variables. Una medida alternativa del
2 2
2 = c i i + 2 c i c j {E ( X i X j ) i j }.
tambin de
los trminos E(XiXj) - ij, que se conocen como
cada variable i , sino
i =1 valores altos
1 i < j k (o bajos) de Y, la covarianza ser positiva;
tienden de
a asociarse
con
X e Ydees el coeficiente de
grado
de asociacin
entreslo
dosdevariables
aleatorias
As, laXvarianza
una combinacin
lineal nolineal
depende
la varianza
especfica
24
As, covarianzas
la varianza de
una
combinacin
lineal
no
depende
slo
de
la
varianza
especfica
de
entre las variables Xi y Xj. En general, la covarianza poblacional entre dos cada
2
mientras
si valores
altos
de
una variable
se
relacionan
bajos
de la otra
correlacin
poblacional
iXxy
, que
se
como
As, laique
varianza
de una
combinacin
lineal
no
depende
devalores
la varianza
especfica
de
, sino
tambin
de
los
trminos
E(X
sesecon
conocen
como
covarianzas
entre
sino
tambin
de
los
trminos
E(X
,define
queslo
conocen
como
cada variable
iX
j)j)-
ii
j, jque
covarianza
las variables
i y Xj. En general,
X e Y conlaesperanzas
x poblacional
y y se defineentre
comodos variables aleatorias X e Y
variablesXaleatorias
2
variable,
la
covarianza
ser
negativa.
No
obstante,
resulta
determinar
el
y

se
define
como
con
esperanzas

los trminos
E(XiXj) -poblacional
complicado
conocen
cada
variable
24
ij,Xque
x i y, sino
covarianzas
entre
las variables
Xitambin
y Xj. Ende
general,
la covarianza
doscomo
cov(
, Y )se entre
xy =
,
y)}
X, Ydos
) = Evariables
{(X x)(aYpartir
XY) xyx yde
, la covarianza, ya
cov(
grado de relacin lineal
entre
de=laE(magnitud
lasesperanzas
variables Xi xyyXj.yEn
general,como
la covarianza poblacional entre dos
e Y con
se define
variables covarianzas
aleatorias X entre
y es una medida de la relacin lineal entre ambas variables. Si valores altos (o bajos) de X
quevariables
depende
de
unidades
delas
medida
de lasvariables.
variables.
Una
medida
alternativa
del
ysta
es una
medida
delas
la
relacin
lineal
entre
Si
valores
(o
bajos)de
decorrelacin
altos
desviaciones
tpicas
X
e Y.positiva;
Elaltos
coeficiente
carece
donde
X
e xYycon
esperanzas
ambas
definede
como
aleatorias
tienden
a asociarse
con valores
(o bajos)
de
covarianza
ser
mientras
que si
y son
x yY,la
y se
cov(X, Y) = E{(X - x)(Y - y)} = E(XY) - xy,
valores altos de una variable se relacionan con valores bajos de la otra variable, la covarianza
X tienden
a asociarse
conentre
valores
altos
(o bajos)
de Y, la covarianza
ser
positiva; de
X etal
Y es
coeficiente
grado
de asociacin
lineal
dos
variables
aleatorias
ser
negativa.
No obstante,
resulta
complicado
determinar
deelrelacin
dos
xy = 1,entre
las variables
de unidades
y toma
valores entre
-1 y 1;eldegrado
forma
que si lineal
cov(X, Y) = E{(X - x)(Y - y)} = E(XY) - xy,
y es una
medidaa de
la relacin
lineal entre
ambas
variables.yaSique
valores
altos
(o bajos)
deunidades de
variables
partir
de
la
magnitud
de
la
covarianza,
sta
depende
de
las
mientras que
si valores altos
de una
variablecomo
se relacionan con valores bajos de la otra
xyuna
, que
se define
correlacin
medida
de laspoblacional
variables.
Una
medida
alternativa
del grado
de asociacin
entre dos
las variables
presentan una
presentan
relacin
lineal positiva
perfecta,
y si xy = -1,lineal
X tienden
a es
asociarse
con
valores
altos
(o
bajos)
de
Y
,
la
covarianza
ser
positiva;
yvariable,
una
medida
de
la
relacin
lineal
entre
ambas
variables.
Si
valores
altos
(o
bajos)
de
,
que
se
define
como
variables
aleatorias
X
e
Y
es
el
coeficiente
de
correlacin
poblacional

xy
la covarianza ser negativa. No obstante, resulta complicado determinar
el
25
cov(
X
,
Y
)
se
mientras que
si valores
altos
de
una
variable
relacionan
con
valores
bajos
de
la
otra
,
xy =
Xgrado
tienden
a
asociarse
con
valores
altos
(o
bajos)
de
Y
,
la
covarianza
ser
positiva;
de relacin lineal entre dos variables apartir
de la magnitud de la covarianza, ya
x

variable,
la
covarianza
ser
negativa.
No
complicado
determinar
el de lacarece
mientras
que si
valores
de obstante,
una
variable
relacionan
con
valores
bajos
otra
que
las altos
unidades
de medida
variables.
Una
medida
alternativa
del de
donde
xsta
y depende
desviaciones
tpicas
deresulta
Xdese
elas
Y.
El coeficiente
de correlacin
y son lasde
unidades
valores
entre 1 y 1;tpicas
de tal de
forma
sicoeficiente
xy = 1, las de
variables
presentan
una
xyytoma
lay son
las desviaciones
Xlaemagnitud
Yque
. El
correlacin
carece
donde
gradorelacin
de relacin
entre
dosser
variables
partir
devariables
la covarianza,
ya
variable,
covarianza
negativa.
Nolas
obstante,
resulta
complicado
determinar
el
X ede
Y es
el
coeficiente
de negativa
grado
delineal
asociacin
lineal
entre
aleatorias
1,
presentan
una
relacin
lineal
lineal
positiva
perfecta,
y si dos
xya=variables
perfecta. Cuando xy = 0, se dice que las variables estn incorrelacionadas. Notar que si dos
1,del
lasla
variables
de depende
unidades
yindependientes,
toma
valores
yde
1;las
dede
tal
forma
que
si xy = alternativa
que sta
las
unidades
medida
variables.
Una
del
grado
dede
relacin
lineal de
entre
dos
variables
aque
partir
la medida
magnitud
de
covarianza,
yauna
correlacin
poblacional
entre
, que
se
define
como
xy
variables
son
en
el-1sentido
el de
conocimiento
valor
que toma
es=el-1,coeficiente
de presentan
grado presentan
de asociacin
lineal
entre
dos
variables
aleatorias
que stauna
depende
de las
unidades
de perfecta,
medida deyXlas
medida
alternativa
delR.
lasUna
variables
una
relacin
lineal
positiva
sie Yvariables.
Pastor-Barriuso
cov( X , Y ) xy
xy =
,
x aleatorias
y
X e Y es el coeficiente de
grado
de asociacin
lineal
variables
correlacin
poblacional
xy, que
se entre
definedos
como
25

37

xy

implica
necesariamente
ya en
queellas
variables
correlacin
se discutirnindependencia,
en mayor detalle
Tema
10. podran presentar una

Variables aleatorias y distribuciones deprobabilidad

= 0. de
Este
y otros aspectos
coeficiente de
dependencia
node
lineal
cuando xy
La varianza
una aun
combinacin
lineal
variables
aleatoriassobre
quedaelentonces

correlacin
sepor
discutirn
mayor detalle
en elelTema
variable
no aporta
ningunaeninformacin
sobre
valor10.
de la otra variable, entonces estn
determinada
incorrelacionadas; pero que la incorrelacin no implica necesariamente independencia, ya que
La varianza
de una
combinacin
lineal de variables
aleatorias
queda entonces
las variables
podran
presentar
una dependencia
no lineal
aun cuando
xy = 0. Este y otros
k
k

2
2
aspectos sobre el coeficiente
correlacin
se discutirn en mayor detalle en el Tema 10.
ci X
var de
i = c i i + 2 c i c j cov( X i , X j )
determinada por
1 i < j k
i =1
i =1
La varianza de una combinacin
aleatorias
queda
E(X1 - X2) lineal
= 1k - de
2 variables
= 130 - 80
= 50 mm
Hg entonces determinada por
2 2
= k ci i + 2 ci c j i j ij ,
k

i =1 2 2
i< jk
ci2=i 130
+ 21-
c=i c50
X j)
var

j cov(
i ,varianza
E(X
-c iXX2)i ==
80variables,
mmXlaHg
1 correlacin
1 - entre
y, teniendo en cuenta
la
ambas
de la
1 i < j k
i =1
i =1
k

2
ij es
coeficiente
dedada
correlacin
y Xcj.cEn
el caso
de que las variables
donde
presin
delelen
pulso
vendra
por
= entre
c i2entre
+ 2Xi
y,
teniendo
cuenta
la correlacin
variables,
i ambas
i j i j la
ij , varianza de la
i =1

1 i < j k

sean
mutuamente
independientes
(bastara
la condicin menos restrictiva de que
2
presin
del pulso
vendra
dada2por
var(
X
1 - X2) = 1 + 2 - 21212
donde ij es el coeficiente de correlacin entre Xi y Xj. En el caso de que las variables sean
donde
ij esincorrelacionadas),
el coeficiente de(bastara
correlacin
entre
las que
variables
i y Xj. En el caso
estuvieran
la varianza
de laXcombinacin
linealdeesque de
mutuamente
independientes
la condicin
menos restrictiva
estuvieran
2
22
22
+ 10
10
X1 - X2) =de20
la1 combinacin
2 - 220
120,60es= 260 (mm Hg) ,
incorrelacionadas),var(
la varianza
1
2lineal
sean mutuamente independientes (bastara la condicin menos restrictiva de que
k
k 2 2
2
2
2
var
c
X
ci =

=
+=
10
-i 2mm
10
0,60

i20
i .260 (mm Hg) ,
para una incorrelacionadas),
desviacin tpica= 20
260
16,1
Hg.
estuvieran
la
varianza
de
la
combinacin
lineal
es
i =1
i =1
Ejemplo
3.15 Supongamos
que=kla
media
yk la desviacin tpica de la presin arterial
para
una desviacin
tpica 260
16,1
mm
para
Hg.
2 2
Lossistlica
resultados
anteriores
son
vlidos
cualquier
Nomm
obstante,
poblacin
1 =cvariable
130 mm aleatoria.
Hg y 1 = 20
Hg, y la media
X1 en una determinada
var
ci X i son
=
i i .
Ejemplo
3.15 Supongamos que
la
media
y
la
desviacin
tpica
de
la
presin
=
1
=
1
i
i

son

=
80
mm
Hg
y 2 = 10 mm
y la desviacin tpica
de
la
presin
arterial
diastlica
X
E(X1 - X2) = 1 - 2 = 130 - 80 = 502 mm Hg
2
X
,
...,
X
siguen
una
distribucin
normal,
puede
probarse
que
la
si las
variables
1 anteriores
kadems
Supongamos
que
elcoeficiente
de- correlacin
entre
arterial sistlica
Los Hg.
resultados
son
vlidos
para cualquier
aleatoria.
No obstante,
EX(X
-X
80variable
= 50son
mm
Hg la presin
2) =determinada
1 - 2 = 130
poblacin
arterial sistlica
1 1en una
1 = 130 mm Hg y 1 = 20
El valor
esperado de la presin del
y diastlica
de los sujetos
de esta
poblacin es
12 = 0,60.
y, teniendo
enc1cuenta
correlacin
entre
ambas
la varianza
de lala
X
+
...lala+diferencia
cuna
seguir
unavariables,
distribucin
normal
con
combinacin
lineal
kXk tambin
pulso,
definida
como
la presin
arterial
diastlica,
X1, ...,
X1kSupongamos
siguen
distribucin
normal,
puede sistlica
probarse
que
si
las variables
Ejemplo
3.15
queentre
la media
y la desviacin
tpica yde
lalapresinsera
mm Hg,en
y la
media
la desviacin
tpica
de la
presin arterial
diastlica
y, teniendo
cuenta
la ycorrelacin
entre
ambas
variables,
la varianza
de la X2 son 2
E
(
X
X
1 2 = 130 80 = 50 mm Hg
1 dada
2 ) =por
presin
del
pulso
vendra
media y varianza
descritas
anteriormente.
Este
resultado
se utilizar en
los temas
de
c1X1 + X...
+ ckXk tambin
seguir
una distribucin
normal
combinacin
lineal
determinada
poblacin
son 1 = 130
mmcon
Hg la
y 1 = 20
arterial
sistlica
1 en una
2 =la10dada
mmpor
Hg. Supongamos
quelaelvarianza
coeficiente
= 80del
mm
Hgcuenta
yvendra
presin
pulso
y, teniendo
en
correlacin
entre ambasadems
variables,
de de
la presin del
2
2
inferencia.
y,
teniendo
en
cuenta
la
correlacin
entre
ambas
variables,
la
varianza
de
la
vendra
dada
por
var(
X
X
)
=

media ypulso
varianza
descritas
anteriormente.
Este
resultado
se
utilizar
en
los
temas
de
1
1 de
2 12
1
2 tpica
mm Hg, y la media
y2 la desviacin
la presin arterial diastlica X2 son 2
correlacin entre la presin2 arterial
sistlica y diastlica de los sujetos de esta
2
var(Xvendra
1 X2) = 1 + 2 2 1 2 12
presin del pulso
dada 2por 2
inferencia.
+ 10
22010adultas
0,60
= 260
(mm
Hg)2, sigue
20 Hg.
2 - mujeres

adems
coeficiente
de como
=
80
mm
Hg
y
2 = 10==
Ejemplo
3.16
El
colesterol
HDL
las
deque
una
22010de
+ en
10Supongamos
0,60
= 260
(mm
Hg)2, definida
20
El2valor
esperado
la presin
delelpoblacin
pulso,
poblacin es 12 = 0,60.mm

var(
X1 -laX2presin
) =
12 arterial
+ 22 -sistlica
21
212ymmol/l
11,25
correlacin
desera
los sujetos
de1esta
con
media
=
y desviacin
tpica
=
una
distribucin
normal
1 HDL
para
una
desviacin
tpica
16,1
mm
Hg.
Ejemplo
3.16
Elentre
colesterol
en== las
mujeres
adultas
de
una
poblacin
sigue
la
diferencia
entre
la Xpresin
sistlica
ydiastlica
diastlica,
260arterial
16,1
mm
2 = 16,1
2
para
una
desviacin
260
Hg.
26
12
=hombres
0,60.
El
valor
esperado
de
la variable
presin
del
pulso,
definida
poblacin
+ 10para
-de
2mm
20
10
0,60
= 260
(mm
Hg)2distribucin
,tpica
20
0,35
mmol/l,
yesennormal
lostpica
adultos
dicha
poblacin
sigue
una
X1=con
media
1,25
mmol/l
y desviacin
1 =comosi las
una
distribucin
Los
resultados
anteriores
son
vlidos
cualquier
aleatoria.
No obstante,
1=
Los resultados
son vlidos para cualquier variable aleatoria. No obstante,
variables
X1, ..., Xanteriores
k siguen una distribucin normal, puede probarse que la combinacin lineal
la
diferencia
entre
la
arterial
y diastlica,
sera
X
con
media

=presin
1,10
mmol/l
ysistlica
desviacin
tpica
la2 =media
0,30
mmol/l.
As,
normal
2
2
X1 0,35
+
... mmol/l,
+ ckX
tambin
seguir
una
distribucin
normal
conaleatoria.
y varianza
c1Los
y en lostpica
hombres
adultos
de
dicha
poblacin
sigue
una No
distribucin
k anteriores
resultados
son vlidos
para
cualquier
variable
obstante, descritas
para
una
desviacin
260
=
16,1
mm
Hg.
X1, ...,resultado
Xk siguen
distribucin
normal,
probarse que la
si
las variables Este
anteriormente.
seuna
utilizar
en los temas
de puede
inferencia.
26
la
diferencia
del
colesterol
HDL
entre
las
mujeres
y
los
hombres
de esta
poblacin
X
con
media

=
1,10
mmol/l
y
desviacin
tpica

=
0,30
mmol/l.
As,
normal
2
2
2
si las variables X1, ..., Xk siguen una distribucin normal, puede probarse que la
c1XEl
...son
+ cvlidos
unavariable
distribucin
con
la sigue una
combinacin
lineal
1 +colesterol
kXk tambin
3.16
HDL
enseguir
las mujeres
adultas
de normal
una No
poblacin
LosEjemplo
resultados
anteriores
para
cualquier
aleatoria.
obstante,
se
distribuir
segn
una
normal
con
media
media
1 =las
1,25
mmol/l
y desviacin
tpica
poblacin
normal
X conHDL
ladistribucin
diferencia
entre
mujeres
los
hombresnormal
de
estacon
c1Xcolesterol
seguir
una ydistribucin
la0,35 mmol/l,
combinacin
linealdel
1 =
1 + ... 1+ ckX
k tambin
media
y
varianza
descritas
anteriormente.
Este
resultado
se
utilizar
en
los
temas
de2 con media
y
en
los
hombres
adultos
de
dicha
poblacin
sigue
una
distribucin
normal
si las variables X1, ..., Xk siguen una distribucin normal, puede probarse que la X
= 1,10 mmol/l
y(desviacin
=2 =1,25
0,30
As, mmol/l
la diferencia
del colesterol
HDL
distribuir
segn
una
media
mediase
y2varianza
descritas
anteriormente.
resultado
utilizar
en los temas
de
E
X
X2) = tpica
- 2Este
- mmol/l.
1,10 se
= 0,15
1 - normal
1con
inferencia.
entre
las
mujeres
y
los
hombres
de
esta
poblacin
se
distribuir
segn
una
normal
con
media
combinacin lineal c1X1 + ... + ckXk tambin seguir una distribucin normal con la
inferencia.
E(X1 X2 ) = 1 2 = 1,25 1,10 = 0,15 mmol/l
y varianza
media y varianza descritas anteriormente. Este resultado se utilizar en los temas de
Ejemplo
3.16 El colesterol HDL en las mujeres adultas de una poblacin sigue
y varianza
2
2
2 sigue
2
y varianza
Ejemplo
3.16
ElXcolesterol
en2las mujeres
adultas
de una poblacin
X2) = HDL
inferencia.
var(
1 + 2 = 0,35 + 0,30 = 0,213 (mmol/l) ,
X1 con
media 1 = 1,25 mmol/l y desviacin tpica 1 =
una distribucin 1normal

38

media
y desviacin tpica
1 =
una distribucin normal X1 con
2
2
1 = 21,25 mmol/l
var(
X2)hombres
= 12 + adultos
22 = 0,35
+ 0,30
= 0,213sigue
(mmol/l)
,
1 -los
0,35
mmol/l,
yElXencolesterol
dicha
poblacin
una
distribucin
enmmol/l,
las de
mujeres
adultas
de unapara
poblacin
sigue
oEjemplo
desviacin
0,213 HDL
= 0,46
ya que
los valores
distintos
Pastor-Barriuso
R. 3.16tpica
0,35 mmol/l, y en los hombres adultos de dicha poblacin sigue una distribucin
X con media
2X=1 1,10
mmol/l1y =desviacin
tpica
2 = 0,30 mmol/l.
normal
con
media
y desviacin
tpica 1As,
=
una
distribucin
normal
son2 independientes
y,
consecuencia,
mmol/l
= 0.valores
osujetos
desviacin
tpica
0,213
= en
0,46
mmol/l, 1,25
ya que
para distintos
12 los

y varianza
Referencias
2

var(X1 - X2) = + = 0,35 + 0,30 = 0,213 (mmol/l) ,


2
1

2
2

o desviacin tpica 0,213 = 0,46 mmol/l, ya


ya que
que los
los valores
valorespara
paradistintos
distintos sujetos son
independientes y, en consecuencia, 12 = 0.

sujetos son independientes y, en consecuencia, 12 = 0.


3.5REFERENCIAS

27
1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics, Volume
1, Second Edition. Upper Saddle River, NJ: Prentice Hall, 2001.
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press,
2002.
3. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.
4. Feller W. An Introduction to Probability Theory and Its Applications, Volume 1, Third
Edition. New York: John Wiley & Sons, 1968.
5. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,
2006.
6. Stuart A, Ord JK. Kendalls Advanced Theory of Statistics, Volume 1, Distribution Theory,
Sixth Edition. London: Edward Arnold, 1994.

Pastor-Barriuso R.

39

TEMA 4
PRINCIPIOS DE MUESTREO
Y ESTIMACIN
4.1INTRODUCCIN
Un primer paso en la realizacin de un estudio o proyecto de investigacin es definir la poblacin
de la cual se desea conocer una determinada caracterstica o parmetro. Ocasionalmente, resulta
factible obtener informacin para todos los elementos de la poblacin mediante registros o
censos. Sin embargo, en la mayora de los estudios no es posible obtener informacin de toda
la poblacin, por lo que debemos limitarnos a la recogida de datos en una pequea fraccin del
total o muestra.
La utilizacin de muestras presenta varias ventajas con respecto a la enumeracin completa
de la poblacin:
yy Coste reducido. Si los datos se obtienen de una pequea fraccin del total, los gastos se
reducen. Incluso si la obtencin de informacin en toda la poblacin es factible, suele ser
mucho ms eficiente la utilizacin de tcnicas de muestreo.
yy Mayor rapidez. Los datos pueden ser ms fcilmente recolectados y estudiados si se utiliza
una muestra que si se emplean todos los elementos de la poblacin. Por tanto, el uso de
tcnicas de muestreo es especialmente importante cuando se necesita la informacin con
carcter urgente.
yy Mayor flexibilidad y mayores posibilidades de estudio. La disponibilidad de registros
completos es limitada. Muy a menudo, la nica alternativa posible para la realizacin de
un estudio es la obtencin de datos por muestreo.
yy Mayor control de calidad del proceso de recogida de datos. Al recoger datos en un nmero
menor de efectivos, resulta ms fcil recoger un nmero mayor de variables por individuo,
as como tener un mejor control de la calidad del proceso de recogida de datos.
Si se dispone de informacin para todas las unidades de la poblacin, el parmetro poblacional
de inters quedar determinado con total precisin. Sin embargo, si se emplea nicamente una
fraccin del total, el parmetro poblacional desconocido ha de estimarse a partir de la muestra,
con el consiguiente error derivado tanto por el carcter parcial de la muestra como por su
posible falta de representatividad poblacional. La teora de muestreo persigue un doble
objetivo. Por un lado, estudia las tcnicas que permiten obtener muestras representativas de la
poblacin de forma eficiente. Por otro lado, la teora de muestreo indica cmo utilizar los
resultados del muestreo para estimar los parmetros poblacionales, conociendo a la vez el grado
de incertidumbre de las estimaciones. As, la teora de muestreo pretende dar respuesta a varias
preguntas de inters:
yy Cmo se eligen a los individuos que componen la muestra?
yy Cuntos individuos formarn parte de la muestra?
yy Cmo se cuantifican las diferencias existentes entre los resultados obtenidos en la muestra
y los que hubiramos obtenido si el estudio se hubiera llevado a cabo en toda la poblacin?
Pastor-Barriuso R.

41

Principios de muestreo y estimacin

Estas cuestiones estn estrechamente relacionadas entre s. As, por ejemplo, al aumentar el
tamao muestral aumenta la exactitud en las estimaciones. La determinacin del tamao
muestral se tratar ms adelante (vase Tema 9). En el presente tema, se discuten los principales
tipos de muestreo probabilstico, as como la estimacin en el muestreo aleatorio simple. Antes
de ello, es conveniente revisar la definicin de algunos conceptos que se utilizan de forma
repetida a lo largo del captulo:
yy Poblacin o universo muestral es la coleccin de elementos o unidades de anlisis
acerca de los cuales se desea informacin. Con frecuencia, no se puede obtener informacin
de toda la poblacin, sino tan slo de unidades que cumplen una serie de caractersticas
(criterios de inclusin/exclusin). La poblacin marco es aquella sobre la que es posible
obtener informacin. La muestra se obtiene de la poblacin marco, por lo que debe
recordarse que las conclusiones extradas de la muestra son generalizables a la poblacin
marco y no necesariamente a la poblacin de inicio o universo.
yy Dentro del proceso de seleccin de una muestra, la poblacin suele dividirse en unidades
de muestreo, que deben constituir una particin de toda la poblacin. Estas unidades de
muestreo pueden coincidir con las unidades de anlisis, pero tambin pueden estar
constituidas por un conjunto de distintas unidades de anlisis.
Ejemplo 4.1 Supongamos que se desea estudiar la capacidad funcional de una poblacin
de ancianos institucionalizados. Para ello, se dispone de un lista de residencias, algunas
de las cuales se seleccionan para el estudio. Dentro de cada residencia seleccionada, se
eligen a su vez algunos ancianos que formarn parte de la muestra definitiva. En tal caso,
la seleccin de la muestra se habra realizado en dos etapas: las residencias constituiran
las unidades de muestreo de primera etapa y los ancianos (unidades de anlisis) seran las
unidades de muestreo de segunda etapa.
yy Muestreo probabilstico es aquel en que todas las unidades de la poblacin tienen una
probabilidad conocida y no nula de ser seleccionadas para la muestra. El muestreo
probabilstico minimiza la probabilidad de sesgos (si el tamao muestral no es muy
limitado, la muestra ser muy probablemente representativa de la poblacin) y permite
cuantificar el error cometido en las estimaciones como consecuencia de la variabilidad
aleatoria. La teora del muestreo se basa fundamentalmente en el muestreo probabilstico,
ya que otros tipos de muestreo (de conveniencia, por cuotas) estn sujetos a una mayor
probabilidad de sesgos y es ms difcil extrapolar los resultados a la poblacin.
yy En el muestreo con reposicin, cada vez que se elige un nuevo elemento muestral se
dispone de toda la poblacin para realizar la seleccin, mientras que en el muestreo sin
reposicin los elementos que ya han aparecido en la muestra no estn disponibles para ser
elegidos de nuevo. En el muestreo con reposicin, por tanto, una unidad poblacional puede
aparecer ms de una vez en la muestra. En la prctica, el muestreo suele realizarse sin
reposicin. No obstante, si el tamao de la poblacin es muy grande con respecto al tamao
muestral, la probabilidad de que un elemento de la poblacin sea elegido ms de una vez
en la muestra es tan pequea que ambos tipos de muestreo son similares.
4.2 PRINCIPALES TIPOS DE MUESTREO PROBABILSTICO
En este apartado se describen brevemente los principales procedimientos probabilsticos de
seleccin de muestras, tales como los muestreos aleatorio simple, sistemtico, estratificado, por
42

Pastor-Barriuso R.

Principales tipos de muestreo probabilstico

conglomerados y polietpico. Un tratamiento ms extenso de estos procedimientos puede


encontrarse en los libros de muestreo referenciados al final del tema.
4.2.1 Muestreo aleatorio simple
El muestreo aleatorio simple es el ms sencillo y conocido de los distintos tipos de muestreo
probabilstico. Supongamos que se pretende seleccionar una muestra de tamao n a partir de
una poblacin de N unidades. Un muestreo aleatorio simple es aquel en el que cualquier
subconjunto de tamao n tiene la misma probabilidad de ser seleccionado. Puede probarse que
el muestreo aleatorio simple es un procedimiento equiprobabilstico; es decir, todas las unidades
de la poblacin tienen la misma probabilidad n/N de ser elegidas en la muestra.
Para la seleccin de una muestra aleatoria simple, se enumeran previamente las unidades del
universo o poblacin de 1 a N y a continuacin se seleccionan n nmeros distintos entre 1 y N
utilizando algn procedimiento aleatorio, tpicamente mediante una tabla de nmeros aleatorios
o un generador de nmeros aleatorios por ordenador.
yy Las tablas de nmeros aleatorios son tablas con los dgitos 0, 1, 2, ..., 9, donde cada dgito
tiene la misma probabilidad de ocurrir y el valor de un dgito concreto es independiente
del valor de cualquier otro dgito de la tabla. En la Tabla 4 del Apndice se facilitan 1000
dgitos aleatorios.
yy La mayora de los programas de anlisis estadstico contienen generadores de nmeros
aleatorios. Estos generadores producen grandes secuencias de dgitos pseudoaleatorios,
que satisfacen aproximadamente las mismas propiedades de aleatoriedad enunciadas
anteriormente.
Ejemplo 4.2 Supongamos que, en el ejemplo anterior, se dispone de una lista completa
de los N = 875 ancianos institucionalizados en dicha poblacin, de los cuales se desean
seleccionar n = 10. La seleccin de una muestra aleatoria simple de este tamao puede
realizarse a partir de la Tabla 4 del Apndice como sigue. Comenzando en cualquier lugar
de esta tabla y leyendo grupos de 3 dgitos en cualquier direccin, seleccionar los 10
primeros nmeros distintos entre 1 y 875. Por ejemplo, empezando en el primer dgito de
la tercera fila y de izquierda a derecha, estos nmeros son: 339, 117, 619, 68, 440, 788,
696, 716, 183 y 546. Notar que los nmeros 897 y 898 han sido descartados por ser
superiores a N = 875. La muestra aleatoria simple estara as constituida por aquellos
ancianos de la poblacin numerados previamente por estos 10 valores.
Puede probarse que, como el muestreo aleatorio simple es un procedimiento
equiprobabilstico, una media o una proporcin poblacional se estiman simplemente mediante
la media o proporcin muestral. La estimacin de parmetros poblacionales a partir de una
muestra aleatoria simple, as como la varianza o error de las estimaciones, se discutir en detalle
al final de este tema.
4.2.2 Muestreo sistemtico
En ocasiones, la numeracin consecutiva de las unidades de la poblacin y la posterior seleccin
de una muestra aleatoria simple resultan muy laboriosas. En tales circunstancias, un
procedimiento alternativo ms sencillo es el llamado muestreo sistemtico. Bajo este
procedimiento, no siempre es necesario numerar previamente los elementos de la poblacin,
sino que basta con disponer de alguna ordenacin explcita (por ejemplo, orden de archivo de
historias clnicas o visitas sucesivas de pacientes a una consulta mdica).
Pastor-Barriuso R.

43

Principios de muestreo y estimacin

Para la seleccin de una muestra sistemtica de tamao n de una poblacin de N unidades,


se elige aleatoriamente un nmero de arranque r entre 1 y k, donde k es la parte entera de N/n,
y a partir del elemento que ocupa el lugar r, se toman los restantes elementos en intervalos de
amplitud k hasta completar la muestra deseada. As, la muestra estar constituida por los
elementos ordenados en los lugares r, r + k, r + 2k, ..., r + (n 1)k. Como en general N no es
mltiplo de n, este mtodo de seleccin no es necesariamente equiprobabilstico (si N/n no es
un nmero entero, las unidades comprendidas entre los lugares nk + 1 y N nunca podrn formar
parte de la muestra). Una modificacin a este procedimiento, que garantiza la obtencin de una
muestra equiprobabilstica, consiste en seleccionar el nmero aleatorio de arranque r entre 1 y
N, y tomar cada k-sima unidad a partir de ah, continuando en el primer elemento al alcanzar
el final de la lista.
Ejemplo 4.3 Para seleccionar una muestra sistemtica de tamao n = 10 de la poblacin
de N = 875 ancianos institucionalizados, se calcula primero la amplitud del intervalo de
seleccin como la parte entera de N/n = 875/10 = 87,5; es decir, k = 87. Si se seleccionara
el nmero de arranque r entre 1 y 87, el ltimo anciano seleccionado ocupara en el lugar
r + (n 1)k = r + (10 1)87 = r + 783, que sera siempre inferior o igual a 870 (dado que
r 87). En consecuencia, los ancianos en los lugares 871 a 875 nunca podran formar
parte de la muestra. Para asegurar un muestreo equiprobabilstico, el nmero de arranque
se selecciona aleatoriamente entre 1 y 875. Suponiendo que este nmero de arranque fue
r = 427 y tomando intervalos de amplitud k = 87, la muestra sistemtica quedara integrada
por aquellos ancianos en los lugares 427, 514, 601, 688, 775, 862, 74, 161, 248 y 335.
En el muestreo sistemtico, la ordenacin de los elementos de la poblacin determinar las
posibles muestras. En consecuencia, este orden ha de estar exento de cualquier periodicidad
relacionada con las variables a estudio. As, por ejemplo, si para estimar el nivel de contaminacin
atmosfrica en una ciudad se toma una muestra sistemtica de das con k = 7, la muestra estar
formada por los mismos das de la semana y presentar un claro sesgo por falta de
representatividad. No obstante, estas periodicidades son muy infrecuentes en la prctica y
pueden solventarse con facilidad (en el ejemplo anterior, bastara con utilizar un intervalo de
seleccin distinto de 7). En general, si la ordenacin de las unidades de la poblacin es
esencialmente aleatoria, la estimacin de parmetros y sus correspondientes errores en un
muestreo sistemtico se realiza igual que en un muestreo aleatorio simple.
4.2.3 Muestreo estratificado
En los muestreos anteriores, las muestras se seleccionan por procedimientos puramente
aleatorios. As, si el tamao muestral es suficientemente grande, la muestra ser muy
probablemente representativa de la poblacin. Sin embargo, no existe una garanta absoluta de
que la muestra finalmente seleccionada sea representativa para cualquier variable de inters.
Cuando se desea asegurar la representatividad de determinados subgrupos o estratos de la
poblacin, la alternativa ms sencilla es seleccionar por separado distintas submuestras dentro
de cada estrato. Este procedimiento de seleccin se conoce como muestreo estratificado. Los
estratos han de definir subgrupos de poblacin que sean internamente homogneos con respecto
a la caracterstica o parmetro de inters y, por tanto, heterogneos entre s. En la prctica, los
estratos se definen en funcin de variables fciles de medir previamente y relevantes para el
tema objeto de estudio (por ejemplo, edad, sexo, raza o rea geogrfica de residencia). En
general, el nmero de estratos ha de ser reducido (rara vez resulta eficiente utilizar ms de 5
estratos) y el tamao por estrato no debe ser muy pequeo.
44

Pastor-Barriuso R.

respectivamente, cuya suma ser igual al tamao total n de la muestra. La seleccin


dentro de cada estrato suele realizarse por muestreo aleatorioPrincipales
simple otipos
sistemtico,
y el
de muestreo probabilstico
procedimiento se denomina entonces muestreo aleatorio estratificado.
Para
una muestraesestratificada
de tamaocmo
n, lasepoblacin
unidades se
Enlaelseleccin
muestreode
estratificado,
necesario determinar
distribuyedeelNtamao
divide en K estratos de tamaos N1, N2, ..., NK, cuya suma es igual a N. Los estratos son
mutuamente
excluyentes
exhaustivos,
de tal
formalaque
cada elemento
de la poblacin
muestral total
n entre losy distintos
estratos;
es decir,
asignacin
de los tamaos
pertenece a uno y slo a uno de los estratos. Una vez determinados estos estratos, se selecciona
...,asignacin
nK, respectivamente,
pormuestrales
separado una
de cada estrato de tamao n1, n2,de
en funcin cuya
del suma
n1, nmuestra
2, ..., nK. Aunque existen distintos tipos
ser igual al tamao total n de la muestra. La seleccin dentro de cada estrato suele realizarse
portamao
muestreo
aleatoriopor
simple
o sistemtico,
y el procedimiento
denomina
entonces muestreo
y varianza
estrato
(vase referencias
al final del se
tema),
nos limitaremos
aqu
aleatorio estratificado.
a laelasignacin
proporcional,
es el procedimiento
utilizado
con mayor
frecuencia.
En
muestreo estratificado,
esque
necesario
determinar cmo
se distribuye
el tamao
muestral
total n entre los distintos estratos; es decir, la asignacin de los tamaos muestrales n1, n2, ..., nK.
En la asignacin
proporcional,
muestra total
repartedel
entre
los estratos
de forma
Aunque
existen distintos
tipos delaasignacin
en se
funcin
tamao
y varianza
por estrato
(vase referencias al final del tema), nos limitaremos aqu a la asignacin proporcional, que es
proporcional alutilizado
tamao de
estrato
en la poblacin.
As, comoproporcional,
la proporcin la muestra
el procedimiento
concada
mayor
frecuencia.
En la asignacin
total se reparte entre los estratos de forma proporcional al tamao de cada estrato en la poblacin.
en cada estrato
es Nk/N,enel cada
tamao
muestral
k-simo
ser del estrato
/N, estrato
el tamao
muestral
As,poblacional
como la proporcin
poblacional
estrato
es Nkdel
k-simo ser
nk = n

Nk
.
N

Resulta inmediato probar que esta asignacin da lugar a una muestra equiprobabilstica.
Resulta inmediato probar que esta asignacin da lugar a una muestra equiprobabilstica.
Ejemplo 4.4 La capacidad funcional de los ancianos disminuye en gran medida con la
edad. Supongamos que, de los N = 875 ancianos institucionalizados, se sabe que el 60%
Ejemplo
los ancianos
disminuye
gran
medida
525) y elderestante
40% tienen
75 o en
ms
aos
(N2 = 350).
tienen
menos4.4
deLa
75capacidad
aos (N1 =funcional
Para simplificar la exposicin, supongamos adems que los ancianos menores de 75 aos
institucionalizados,
con la edad.aSupongamos
los N = 875
corresponden
los primerosque,
525denmeros
de ancianos
la lista. As,
de los n = 10seancianos
seleccionados por muestreo aleatorio simple en el Ejemplo 4.2, la mitad resultaron ser
sabe que
75 aos
(N1 = 525)aleatoria,
y el restante
40% tienen
75 aos
o
mayores
de el
7560%
aos.tienen
Esto menos
es, por de
simple
variabilidad
los mayores
de 75
estn ligeramente sobrerrepresentados en la muestra y, en consecuencia, la capacidad
ms aos
(N2 =obtenida
350). Para
la exposicin,
supongamos
adems que
los
funcional
media
de simplificar
esta muestra
podra infraestimar
la verdadera
capacidad
funcional de los ancianos institucionalizados. Para asegurar una mejor representatividad
ancianos
de 75
aos corresponden
los primeroscon
525asignacin
nmeros de
la lista.
muestral
pormenores
edad, podra
realizarse
un muestreoaestratificado
proporcional
a ambos estratos de edad. Es decir, de la muestra de tamao n = 10, seleccionaramos 6
muestreo
simple
en aos
el (n =
As, demenores
los n = 10
100,6
= 6) yaleatorio
4 mayores
de 75
ancianos
deancianos
75 aos seleccionados
(n1 = nN1/N = por
2
nN2/N = 100,4 = 4). Utilizando un muestreo aleatorio simple dentro de cada estrato, los
Ejemplo seleccionados
4.2, la mitad resultaron
mayores
75 493,
aos.24,
Esto402,
es, por
6 nmeros
entre 1 yser
525
fueron de
505,
371simple
y 265, y los 4
nmeros seleccionados entre 526 y 875 fueron 851, 820, 717 y 696. La muestra estratificada
variabilidad
aleatoria,
los mayores
deancianos
75 aos estn
ligeramentea dichos nmeros.
proporcional
estara
formada
por los 10
correspondientes
9
Cabe resear aqu dos caractersticas importantes del muestreo estratificado. Por un lado, la
asignacin proporcional es la nica que produce muestras equiprobabilsticas y, en consecuencia,
la media y proporcin poblacional se estiman mediante la media y la proporcin muestral. Para
cualquier otra asignacin, la estimacin de parmetros poblacionales requiere de la inclusin de
pesos para cada observacin muestral (tpicamente, el inverso de la probabilidad de seleccin).
Por otra parte, para un mismo tamao muestral, el muestreo estratificado facilita estimaciones
ligeramente ms precisas (con menor error) que el muestreo aleatorio simple. Este resultado es
debido a que, cuanto ms homogneos sean los estratos, ms precisas sern las estimaciones en
dichos estratos y esto redundar en una mayor precisin de las estimaciones para toda la
poblacin.
Pastor-Barriuso R.

45

Principios de muestreo y estimacin

4.2.4 Muestreo por conglomerados


La aplicacin de los diseos muestrales anteriores requiere de la enumeracin u ordenacin de
todos los elementos de la poblacin. Sin embargo, a menudo no se dispone de una lista completa
o, aun disponiendo de tal lista, resulta muy costoso obtener informacin de las unidades
muestreadas. Por ejemplo, si se seleccionara una muestra aleatoria simple de 1000 individuos
de una gran ciudad, los individuos seleccionados estaran muy dispersos y la recogida de
informacin sera extraordinariamente laboriosa. En tales circunstancias, una alternativa
consiste en clasificar a la poblacin en grupos o conglomerados, para as seleccionar una
muestra de estos conglomerados y despus tomar a todas o a una parte de las unidades incluidas
dentro de los conglomerados seleccionados. Este mtodo de seleccin se denomina muestreo
por conglomerados y presenta dos ventajas fundamentales:
yy Este muestreo es la nica alternativa posible cuando no se dispone de una lista con todas
las unidades de la poblacin. En el muestreo por conglomerados, nicamente es necesario
contar con listas de las unidades que integran los conglomerados seleccionados.
yy Aun cuando otras tcnicas de muestreo sean posibles, con frecuencia el muestreo por
conglomerados resulta ms econmico, ya que las unidades muestrales estn concentradas
en los conglomerados seleccionados.
Notar que, a diferencia de la estratificacin, donde interesa que los estratos sean lo ms
homogneos posible, los conglomerados deben ser heterogneos: en cada conglomerado debe
haber unidades representativas de toda la poblacin, de lo contrario se perdera informacin al
seleccionar nicamente algunos de ellos. El nmero de conglomerados es tpicamente elevado,
de los cuales suele seleccionarse un nmero relativamente pequeo para resolver el problema
de la dispersin muestral.
Supongamos que se pretende extraer una muestra de tamao n a partir de una poblacin de
N unidades agrupadas en M conglomerados de tamaos N1, N2, ..., NM. Entre los distintos
mtodos de seleccin por conglomerados, el muestreo por conglomerados con probabilidad
proporcional a su tamao resulta particularmente til en la prctica. Para llevar a cabo este
muestreo, se procede como sigue:
1. Ordenar arbitrariamente los conglomerados y calcular los tamaos acumulados. Estos
tamaos acumulados delimitarn, para cada conglomerado, un rango de valores de
amplitud igual a su tamao poblacional.
2. Si se pretende seleccionar m conglomerados, extraer una muestra sistemtica de tamao m
entre 1 y N. Los conglomerados seleccionados sern aquellos cuyo rango incluya alguno
de los valores muestreados.
3. Dentro de cada conglomerado seleccionado, obtener una muestra aleatoria simple o
sistemtica de tamao n/m.
Ejemplo 4.5 Con cualquiera de las tcnicas de muestreo utilizadas en los ejemplos
anteriores, la muestra incluira muy probablemente ancianos institucionalizados en
mltiples residencias, con el consiguiente inconveniente en la recogida de informacin.
Supongamos que los N = 875 ancianos institucionalizados se encuentran distribuidos en
M = 15 residencias con los tamaos especificados en la Tabla 4.1. Para optimizar el
trabajo de campo, se decide extraer la muestra de tamao n = 10 a partir de m = 2
residencias (conglomerados) seleccionadas con probabilidades proporcionales a sus
tamaos.
46

Pastor-Barriuso R.

Principales tipos de muestreo probabilstico

Tabla 4.1 Distribucin del nmero de ancianos institucionalizados por


residencia.
Residencia (i)

Tamao (Ni)

Tamao acumulado

Rango asignado

50
30
35
70
55
45
125
80
20
100
65
35
40
75
50

50
80
115
185
240
285
410
490
510
610
675
710
750
825
875

1 50
51 80
81 115
116 185
186 240
241 285
286 410
411 490
491 510
511 610
611 675
676 710
711 750
751 825
826 875

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

En primer lugar, se asigna a cada residencia un rango de valores de amplitud igual a su tamao
(Tabla 4.1). A continuacin, se extrae una muestra sistemtica de tamao 2 entre 1 y 875: si el
nmero de arranque result ser 316, los valores muestreados son 316 y 753 (ver apartado de
muestreo sistemtico). As, como el valor 316 est incluido dentro del rango asignado a la residencia
7 y el valor 753 en el rango de la residencia 14, resultan seleccionadas las residencias 7 y 14.
Para completar la muestra de n = 10 ancianos, se extraen finalmente muestras aleatorias
simples de tamao n/m = 10/2 = 5 de las residencias 7 y 14. De los 125 ancianos institucionalizados
en la residencia 7, se seleccionaron los nmeros 74, 23, 104, 111 y 57; y de los 75 ancianos de
la residencia 14, los nmeros 38, 51, 25, 34 y 41. En conclusin, la muestra total estar
formada por los ancianos listados en los lugares 74, 23, 104, 111 y 57 de la residencia nmero7,
ms aquellos que ocupan los lugares 38, 51, 25, 34 y 41 de la residencia nmero 14.
El muestreo por conglomerados con probabilidades proporcionales a sus tamaos facilita
muestras equiprobabilsticas, as la media y la proporcin poblacional pueden estimarse
mediante sus correspondientes funciones muestrales. En general, para un tamao muestral
constante, la precisin de las estimaciones en un muestreo por conglomerados es menor que en
un muestreo aleatorio simple. Las unidades de un mismo conglomerado suelen estar
correlacionadas y, en consecuencia, aportan menos informacin que los elementos seleccionados
de forma ms dispersa mediante un muestreo aleatorio simple.
4.2.5 Muestreo polietpico
Los diseos muestrales empleados en la prctica se realizan combinando las tcnicas descritas
anteriormente. En muchas situaciones, resulta ms apropiado obtener la muestra final en
diferentes etapas o pasos. En un muestreo polietpico, la poblacin se divide en grupos
exhaustivos y mutuamente excluyentes, que constituyen las llamadas unidades de primera
etapa; cada una de ellas se desagrega a su vez en subgrupos o unidades de segunda etapa, y as
sucesivamente, hasta llegar en una ltima etapa a los elementos o unidades de anlisis. La
seleccin de unidades en cada una de las etapas se realiza mediante una tcnica de muestreo
diferente y la muestra final ser la resultante de aplicar sucesivamente cada una de estas tcnicas.
Pastor-Barriuso R.

47

Principios de muestreo y estimacin

Ejemplo 4.6 En el ejemplo anterior se seleccionaron 2 de las 15 residencias y, dentro de


cada residencia seleccionada, se eligieron a su vez 5 ancianos para formar la muestra
definitiva. Este procedimiento de seleccin es, de hecho, un muestreo bietpico: las
residencias constituiran las unidades de muestreo de primera etapa y los ancianos seran
las unidades de muestreo de segunda etapa.
Una tcnica de muestreo en etapas que se emplea con cierta frecuencia es el muestreo
estratificado polietpico. Bajo esta tcnica, las unidades de primera etapa se clasifican en
distintos estratos y, dentro de cada estrato, se selecciona al menos una de sus unidades de
primera etapa. La muestra final resultar de aplicar sucesivas etapas de muestreo dentro de las
unidades de primera etapa seleccionadas en cada estrato. Este muestreo permite obtener una
mayor representatividad muestral al seleccionar unidades dentro de todos los estratos.
Ejemplo 4.7 Supongamos que, de las 15 residencias listadas en la Tabla 4.1, las
residencias 4, 7, 8, 10 y 14 son pblicas, con un total de 450 ancianos (51,4%), y las
restantes 10 residencias son privadas, con un total de 425 ancianos (48,6%). En el Ejemplo
4.5, las 2 residencias seleccionadas (7 y 14) fueron pblicas; es decir, la muestra final no
incluy a ningn anciano institucionalizado en residencias privadas. Para garantizar la
representatividad de los ancianos institucionalizados tanto en residencias pblicas como
privadas, bastara con seleccionar una residencia de cada uno de estos estratos. En la
Tabla 4.2, se muestran las 15 residencias reorganizadas segn su carcter pblico o
privado. Para las residencias pblicas, se escogi aleatoriamente el nmero 20 entre 1 y
450, resultando as seleccionada la residencia 4, cuyo rango incluye dicho nmero. Para
las residencias privadas, se extrajo aleatoriamente el nmero 326 entre 1 y 425, resultando
seleccionada la residencia 12. A continuacin, se procedera a escoger aleatoriamente 5
ancianos de estas 2 residencias. Notar que, como ambos estratos tienen aproximadamente
el mismo tamao, la muestra resultante sera equiprobabilstica.
Apuntar, por ltimo, que en la mayora de los muestreos polietpicos el error muestral es
sensiblemente superior al de un muestreo aleatorio simple, debido principalmente a la correlacin
entre los elementos que integran las unidades de primera etapa.
Tabla 4.2 Distribucin del nmero de ancianos institucionalizados en
residencias pblicas y privadas.
Residencia (i)
Pblica
4
7
8
10
14
Privada
1
2
3
5
6
9
11
12
13
15
48

Pastor-Barriuso R.

Tamao (Ni)

Tamao acumulado

Rango asignado

70
125
80
100
75

70
195
275
375
450

1 70
71 195
196 275
276 375
376 450

50
30
35
55
45
20
65
35
40
50

50
80
115
170
215
235
300
335
375
425

1 50
51 80
81 115
116 170
171 215
216 235
236 300
301 335
336 375
376 425

puede realizarse con mltiples propsitos, nos centraremos aqu en la estimacin de una
media y de una proporcin poblacional.

Estimacin en el muestreo aleatorio simple

4.3
ESTIMACIN
EN EL de
MUESTREO
4.3.1
Estimacin puntual
una media ALEATORIO
poblacional SIMPLE

Una
vez descritas
tcnicas de muestreo probabilstico, nos ocuparemos a
Supongamos
que las
x1, xprincipales
2, ..., xn son los valores obtenidos en una muestra de tamao n
continuacin de la estimacin de parmetros poblacionales. En adelante, se asume que la
muestra
se ha
obtenido
un muestreo
simple
a partir
de Un
una
poblacin de
parmetro
poblacional
se le denomina
estimador,
y al resultado
de aplicar
dicha
para
una
variable
con mediante
media
poblacional
y aleatorio
varianza
2 desconocidas.
estimador
tamao esencialmente infinito.
funcin
a una
determinada
llama muestral
estimacin.
cuando
muestreo
El clculo
valorpoblacional
exactomuestra
de
unesse
parmetro
poblacionalAn
requiere
delelconocimiento
del
lalemedia
natural
de
ladel
media
valor de la variable objeto de estudio para todos y cada uno de los elementos de la poblacin.
puede
con mltiples
propsitos,
centraremos
aqu en la no
estimacin
de una
Como
se realizarse
ha comentado
anteriormente,
en la nos
mayora
de las ocasiones
se dispone
de esta
n
1
1.2
MEDIDASsino
DE TENDENCIA
CENTRAL
informacin,
que se cuenta tan
slo con
una
muestra.
A
la
funcin
de
los
valores
de una
x = xi .
media
y
de
una
proporcin
poblacional.
1.2
MEDIDAS
DE
TENDENCIA
CENTRAL
n
muestra que permite hacerse una idea acerca del valor
del parmetro poblacional se le denomina
i =1
estimador,
y
al
resultado
de
aplicar
dicha
funcin
a una
muestra se le llama
Las medidas de tendencia central informan acerca de cul
es eldeterminada
valor ms representativo
estimacin.
Andecuando
el muestreo
puede
concul
mltiples
propsitos,
nos centraremos
4.3.1
Estimacin
puntual
de completamente
unainforman
mediarealizarse
poblacional
Las
medidas
tendencia
central
acerca
de
esuna
el valor
ms representativo
Esta
media
muestral
quedar
determinada
vez obtenida
la muestra,
aqu
en
la
estimacin
de
una
media
y
de
una
proporcin
poblacional.
de una determinada variable o, dicho de forma equivalente,
estimadores
indican
1.2estos
MEDIDAS
DE TENDENCIA
CENTRAL
x
,
x
,
...,
x
son
los
valores
obtenidos
en
una
muestra
de
tamao
n
Supongamos
que
de
unaeldeterminada
o,
1variable
2
n dicho de forma equivalente, estos estimadores indican
pero
valor de la estimacin
variar en funcin de la muestra seleccionada. As, la
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia
4.3.1 Estimacin puntual de una media poblacionalLas2medidas de tendencia central informan acerca de c
para una
variable
con media
poblacional
una
yobservados.
varianza
desconocidas.
Un estimador
alrededor
de qupuede
valor
se
agrupan
loscomo
datos
Las
medidas
de valor
tendencia
media
muestral
considerarse
variable aleatoria,
cuyo
depender
central
de
la
muestra
sirven
tanto
para
resumir
los
resultados
observados
como
para n para una
Supongamos que x1, x2, ..., xn son los valores obtenidosdeenuna
unadeterminada
muestra de variable
tamao
o, dicho de forma equival
central
de
sirven tanto
para
los resultados
para
es laresumir
media
muestral
natural
dela
lamuestra
media
poblacional
Unobservados
estimador
natural
de lanmedia
variable
con
media
poblacional
y varianza
2 desconocidas.
de
la muestra
finalmente
seleccionada
sobre
todas
las posibles
muestrascomo
de tamao
de
realizar
inferencias
los parmetros poblacionales correspondientes. A
poblacional
es laacerca
mediade
muestral
alrededor de qu valor se agrupan los datos observado
realizar inferencias acerca de los parmetros poblacionales
correspondientes. A
n
la poblacin
de referencia.
A la distribucin
de
los
valores
de x sobre todas las posibles
1.2 MEDIDAS DE
TENDENCIA
CENTRAL
1
continuacin se describen los principales estimadores
de
la
tendencia
de una
x = x i . central de la central
muestra sirven tanto para resumir los resu
n i =1
continuacin se describen los principales estimadores
de la tendencia central de una
muestral de x . Las razones
muestras central
del mismo
tamao
se lede
denomina
Las medidasvariable.
de tendencia
informan
acerca
cul es eldistribucin
valor ms representativo
Esta media muestral quedar completamente determinada
una
obtenidaacerca
la muestra,
el
realizarvez
inferencias
de lospero
parmetros
poblacion
variable.
valor
de
la
estimacin
variar
en
funcin
de
la
muestra
seleccionada.
As,
la
media
muestral
Esta
media
muestral
quedar
completamente
determinada
una
vez
obtenida
la
muestra,
tericas
queo,justifican
utilizacin
de la media
muestral como
estimador de la media
de una determinada
variable
dicho dela
forma
equivalente,
estos estimadores
indican
puede
considerarse
como una variable aleatoria, cuyo valor
dependersededescriben
la muestra
1.2.1
Media
aritmtica
continuacin
losfinalmente
principales estimadores
seleccionada
de
entre
todas
las
posibles
muestras
de
tamao
n
de
la
poblacin
de
referencia.
1.2.1
Media
aritmtica
pero
el
valor
de
la
estimacin
variar
en
funcin
de
la
muestra
seleccionada.
As,
la
frente
otros observados.
posibles estimadores,
se basan
en esta distribucin muestral. A
alrededor de qu poblacional,
valor se agrupan
losa datos
Las medidas
de tendencia
todascomo
las posibles
muestras
delde
mismo
distribucin
de los
valorespor
de x ,sobre
Lalamedia
aritmtica,
denotada
se define
la suma
de
los tamao se le
variable.cada uno
denomina
distribucin
muestral
de xcomo
., Las
razones
tericas
quede
justifican
lade
utilizacin
de la
La
media
aritmtica,
denotada
por
se define
como
laaleatoria,
suma
cada uno
los
media
muestral
puede
considerarse
una variable
cuyo
valor
depender
partir
de los
resultados
el valor
esperado
central de la muestraAsirven
tanto
para
resumirdel
los Apartado
resultados3.4,
observados
como parade la distribucin
media
muestral
como
estimador
de
la
media
poblacional,
frente
a
otros
posibles
estimadores,
se
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
1.2.1 Media aritmtica
basan
enmuestra
esta
distribucin
muestral.
de la
seleccionada
sobre
las posibles
muestrasSidedenotamos
tamao n de
valores
muestrales
dividida
por el nmero
de todas
observaciones
realizadas.
x finalmente
esparmetros
muestral
realizar inferencias
acerca de
de los
poblacionales correspondientes. A
por nAelpartir
tamao
muestral
y por
el valor observado
el sujeto
i-simo,
i = 1,muestral
..., n, de es
de los
resultados
delxiApartado
3.4, el valorpara
esperado
de la
distribucin
La media
aritmtica,
denotada por
x , se define como
x sobre
todas
la poblacin
de muestral
referencia.
A laxidistribucin
de los valores
por
n el tamao
y por
el valor observado
para el de
sujeto
i-simo,
i =las
1, posibles
..., n,
continuacin se describen los principales estimadores de nla tendencian central de una
la media vendra dada por
1
1
dividida por el nmero de observac
E ( x i ) =muestrales
;
E( x ) = E x i = valores
lamuestras
media vendra
dadatamao
por se le denomina
distribucin
muestral de x . Las razones
del mismo
n
n
i
i
=
1
=
1

variable.
n el estn
tamao
muestralalrededor
y por xi el
x +variable
x 2 + ... +aleatoria
xpor
1 n
n
es tericas
decir, lasque
medias
muestrales
centradas
devalor
su observado pa
justifican
laxutilizacin
muestral
como
estimador
de
la
media
.
= decualquier
x i n=de 1la media
... + x n
x1 +n x 2 +equivalente,
1
nxo,=i =de
1dicho
verdadera
poblacional
las medias
muestrales
1.2.1 Media aritmtica
es decir, media
las medias
muestrales
cualquier
variable aleatoria
estn
centradas
alrededorno
. vendra
= forma
x i de

la
media
dada
por
n
n
1
sobreestiman
nifrente
infraestiman
la media
poblacional.
En trminosmuestral.
estadsticos,
poblacional,
a otros sistemticamente
posiblesi =estimadores,
se basan
en esta distribucin
es
un
estimador
centrado
o
insesgado
de
.
La
conveniencia
de utilizar
seLa
dice
entonces
que
La media aritmtica,
denotada
por
x
,
se
define
como
la
suma
de
cada
uno
de
los
demedia
su verdadera
mediadepoblacional
o, dicho
deutilizada
forma equivalente,
las medias muestrales
es la medida
tendencia central
ms
y de ms fcil
estimadores
insesgados
parece
clara
ya que,
en
contrario,
del parmetro
x + x 2 + ...
1 n
A partir
de
resultados
del Apartado
3.4,caso
el valor
esperado
de
la fcil
distribucin
La
media
eslos
la medida
de tendencia
central
ms
utilizada
ylas
deestimaciones
ms
=
x
xi = 1

poblacional
estaran
sistemticamente
sesgadas
respecto
a
su
verdadero
valor.
Otras
medidas
valores muestrales
dividida
por
el
nmero
de
observaciones
realizadas.
Si
denotamos
n i =1
n
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
muestrales
de
tendencia
central,
como
la
mediana
o
la
media
geomtrica,
son
en
general
x
es
muestral
16
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
estimadores
sesgados
de
la
media
poblacional.
por n el tamao
muestral
y
por
x
el
valor
observado
para
el
sujeto
i-simo,
i
=
1,
...,
n,
i
principal limitacin es que est muy influenciada por los valores extremos y, en este
La media es la medida de tendencia central ms uti
principal limitacin es que est muy influenciada
por
los valores extremos y, en este
n
n
1
1

la media vendra
porno ser
Supongamos
estudio
constituye toda la
Ejemplo
4.8
) que
=laEtendencia
x i control
= del
E (la
x i )distribucin.
= EURAMIC
;
E( xde
el grupo
caso,dada
puede
un fiel
reflejo
central
de

interpretacin.
Corresponde
al centro de gravedad d
n
n
i =1
i =1

poblacin
o
universo
a
estudio,
cuya
media
poblacional
del
colesterol
HDL
es
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin. = 1,09 mmol/l.
x + x 2 + ... + x n
1 n
principal
limitacin
es que est
.
=
x
x iy=en 1los sucesivos
Ejemplo
1.4
En
este
ejemplos
sobre
estimadores
muestrales,
se muy influenciada por l

es decir, las medias


n i =1 muestrales den cualquier variable aleatoria estn centradas alrededor
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
caso,
no ser un
fielPastor-Barriuso
reflejo
centra
R. tendencia
49
utilizarn
los valores
colesterolo,HDL
lospuede
10 primeros
sujetos
del de la
de su verdadera
media del
poblacional
dichoobtenidos
de formaen
equivalente,
las medias
muestrales
utilizarn
los valores
delms
colesterol
HDL
La media es la medida
de tendencia
central
utilizada
y deobtenidos
ms fcilen los 10 primeros sujetos del
estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
Ejemplo 1.4 En este y en los sucesivos ejemplos

realizar
inferencias
acerca
de los parmetros
se describen
los principales
estimadores
de
la tendencia
central de poblac
una
realizar continuacin
inferencias acerca
de los parmetros
poblacionales
correspondientes.
A
variable.
continuacin
se describen
Principios de muestreo
y estimacin

continuacin
principales
los principales estimadores
dese
la describen
tendencia los
central
de una estimador

variable.
variable.
1.2.1 Media aritmtica
A partir de esta poblacin, se obtienen 1000 muestras aleatorias simples de tamao n = 10
aritmtica
colesterol
HDL.
El histograma
y, en cada1.2.1
una Media
deLa
ellas,
se calcula
la media
muestral
media
aritmtica,
denotada
por 1.2.1
x ,del
seMedia
define como
la suma
de cada uno de los
aritmtica
de estas medias muestrales se representa en la Figura 4.1(a), que constituye una
Lapuede
media
aritmtica,
denotada
x Si
, sedenotamos
define com
., Como
apreciarse,
los
valores
de los
aproximacin
a lavalores
distribucin
muestral
de xpor
La media
aritmtica,
denotada
por
seeldefine
como
la suma de
cada
unopor
muestrales
dividida
nmero
de
observaciones
realizadas.
difieren entre las distintas muestras, pero su distribucin conjunta est centrada alrededor
valores
muestrales
dividida
por
el nmero
de la verdadera
poblacional
por
= 1,09
mmol/l
(lnea
vertical
en realizadas.
trazo
por n el
tamao
muestral
por xi elde
valor
observado
para
eldiscontinuo).
sujeto
i-simo,
i =de1,observ
..., n,
valoresmedia
muestrales
dividida
elynmero
observaciones
Si denotamos
En las Figuras 4.1(b) y (c) se presentan las distribuciones muestrales de la mediana y la
por
n el tamao
muestral
y presentan
por xii el
valor
observado
media geomtrica
para
estas
mismas
Ambas
distribuciones
media
vendra
dada
por n el la
tamao
muestral
y muestras.
porpor
xi el valor
observado
para elmuestrales
sujeto i-simo,
= 1,
..., n,
un claro sesgo respecto a la media poblacional, tendiendo a infraestimar su verdadero
la media vendra dada por
valor de 1,09
mmol/l.
la media
vendra dada por
x + x + ... + x n
1 n
. prctica, se
x=
x i = 1 ya2 que, en la
Notar que el inters de este ejemplo es meramente
acadmico
n i =1
n
x + x2 +
desconoce la verdadera media poblacional1y nse dispone
1 n
+ ... nica
+ x n muestra.
x + de
x 2 una
x = xi = 1
.
x = xi = 1
n i =1
n
n
n
La media es la medida dei =1tendencia central ms utilizada y de ms fcil
25

es la yde
medida
defcil
tendencia
centralSums u
interpretacin.
Corresponde
al centro
demedia
gravedad
datos
de la muestra.
La media
es la medida
de tendencia
centralLa
ms
utilizada
delos
ms
20

15
interpretacin.
Corresponde
alextremos
centro
principal
limitacin es
estde
muy
influenciada
los valores
y,gravedad
en este
interpretacin.
Corresponde
al que
centro
gravedad
de lospor
datos
de la muestra.
Sude
10

esde
que
est muy
po
5 caso,
puede no
ser un
reflejo
deprincipal
la tendencia
la distribucin.
principal
limitacin
es que
estfiel
muy
influenciada
porlimitacin
loscentral
valores
extremos
y, eninfluenciada
este
0

Frecuencia relativa (%) en muestras de tamao 10

caso, puede
un fiel reflejo de la tendencia cen
caso, puede no ser un fiel reflejo de la tendencia
centralno
deser
la distribucin.
0,7 Ejemplo
0,8
0,9
1,3 ejemplos
1,4
1,5
1.4 En 1este y1,1
en los1,2
sucesivos
sobre estimadores muestrales, s
(a) Media muestral del colesterol HDL (mmol/l)

Ejemplo
1.4estimadores
En este
y en
los
sucesivos
losyvalores
del colesterol
HDL sobre
obtenidos
en los
10muestrales,
primeros
sujetos
de
Ejemploutilizarn
1.4 En este
en los sucesivos
ejemplos
se ejemp
25

utilizarn
del colesterol
HDL
estudio
European
Study onHDL
Antioxidants,
Myocardial
Infarction
and Cancer
of
utilizarn
los valores
del colesterol
obtenidos
enloslosvalores
10 primeros
sujetos
del obte

20

15estudio
10

5the

estudio
European
Study
Antioxidants,
My
the Breast Study
(EURAMIC),
un estudio
multicntrico
de casos
controles
European
on Antioxidants,
Myocardial
Infarction
andyonCancer
of realizado

the Breast
(EURAMIC),
un realizado
estudio
entre(EURAMIC),
1991 y 1992 un
en estudio
ocho pases
Europeos
e Israel
para
evaluar
el efectomulticn
de los
Breast
multicntrico
de
casos
y controles

1991
y 1992
en ocho
pases
e
entre 1991 y 1992 en ocho pases Europeosentre
e Israel
para
evaluar
el efecto
de Europeos
los
0,7

0,8

0,9

1,1

1,2

1,3

1,4

1,5

(b) Mediana del colesterol HDL (mmol/l)

25
20
15
10
5
0
0,7

0,8

0,9

1,1

1,2

1,3

1,4

1,5

(c) Media geomtrica del colesterol HDL (mmol/l)


Figura 4.1 Distribucin muestral de la media aritmtica (a), la mediana (b) y la media
Figura 4.1geomtrica (c) del
colesterol HDL en 1000 muestras aleatorias simples de tamao n = 10 obtenidas a partir del grupo control
del estudio EURAMIC. La lnea vertical en trazo discontinuo corresponde a la media poblacional = 1,09
mmol/l de colesterol HDL.
50

Pastor-Barriuso R.

centralestndar
de la muestra
para resumir los resultados observados como para
4.3.2 Error
de la sirven
media tanto
muestral
realizar
inferencias
acerca
los parmetros
poblacionales
correspondientes.
A simple
Dado que
la media
muestral
es unde
estimador
insesgado
de la media
poblacional,
todas
Estimacin
en el muestreo aleatorio

continuacin
se describen
los principales
estimadores
central de una
las posibles
medias muestrales
estarn
distribuidas
alrededor de
de la
la tendencia
media poblacional.
[Figura 4.2 aproximadamente aqu]
4.3.2 Error
estndar de la media muestral
variable.
No obstante,
queda por determinar el grado de variabilidad o dispersin de estas medias
aproximadamente
aqu]
Dado que la media muestral es un estimador insesgado de la[Figura
media4.2
poblacional,
todas las
Aun
cuando
en
la
prctica
carece
de
sentido
tomar
repetidas

.
La
dispersin
de
las
medias
muestrales
x
de
tamao
n
muestrales
alrededor
de
posibles medias
muestrales
estarn distribuidas alrededor de la media poblacional. No obstante, muestras, las
1.2.1 Media
aritmtica
queda por determinar el grado de variabilidad o dispersin de estas medias muestrales alrededor
xcada
pueden
utilizarse
para
cuantifica
propiedades
laseen
distribucin
muestral
de
Aun
cuando
la prctica
carece
tomar
repetidas
muestras,
las
determinada
pormedias
la varianza
depor
su de
distribucin
muestral,
quede
es
igual
apor
tamao
n vendr
determinada
lade
varianza
de vendr
. La dispersin
de las
muestrales
x ,de
define
como
la suma
desentido
uno
los
La
media aritmtica,
denotada
de su distribucin muestral, que es igual a
utilizarse
para
cuantifi
propiedades
la distribucin
de x pueden
cometido
la de
estimacin
a partirmuestral
de una
nica
muestra
de tamao
n. La
desvi
valores muestrales dividida
por en
el nmero
de observaciones
realizadas.
Si denotamos
1 n 1 n
2 ,
var( x ) = var x i = 2 var( x i ) =
nde
n observado
1.2 MEDIDAS DE TENDENCIA
x esnica
estndar
la
distribucin
muestral
cometido
envalor
a partir
desujeto
una
muestra
n. La des
ix=1 el
i =1
n de
la estimacin
por n el tamaoCENTRAL
muestral
y por
para el
i-simo,
i = 1,de
...,tamao
n,
i
[Figura 4.2 aproximadamente
aqu] DE TENDENCIA CENTRAL
1.2 MEDIDAS
dado que los distintos valores de la muestra son independientes (vase Apartado 3.4). Puede
estndar
la es
distribucin
muestral
de x es
la que
media
vendra
dadadepor
Las medidas
de
tendencia
informan
acerca
de de
cul
valorser
ms
representativo
sea la
observarse
la
variabilidad
laslamedias
muestrales
tanto
mayor Apartado
cuanto mayor
dado
que
loscentral
distintos
valores
de
muestra
sonelindependientes
(vase
3.4).
x
)
=tendencia
var( x ) =
,
SE(
2
Las
medidas
de
central
de
la
variable
a
estudio.
Por
otra
parte,
esta
variabilidad
disminuye
varianza
poblacional

Aun cuando en la prctica carece de sentido tomar repetidas muestras, las


n informan acerca de c
de una determinada
dicho
forma
estos
estimadores
las
conforme
aumentao, el
tamao
n de equivalente,
la muestra;
es
decir,
aumentar
el tamao
Puede variable
observarse
que
lade
variabilidad
de1lasn medias
ser
tanto
mayormuestral,
cuanto
+ xal
x1 muestrales
xindican
2 + ... +SE(
n x) =
var( x ) =o, dicho
, de forma equival
.
=
=
x
x
de
una
determinada
variable

i
medias
de
las
distintas
muestras
estarn
ms
prximas
a
la
verdadera
media
poblacional.
para
cuantificar
el
error
propiedades de la distribucin muestral nde x pueden utilizarse
n
n de la distancia de las distintas medias muestrale
1.2 MEDIDAS
DE
TENDENCIA
CENTRAL
i =1valor promedio
facilita
alrededor de qu
valor
datosque
observados.
medidas
de tendencia
2 deun
laLas
variable
a estudio.
Por otra parte, esta
mayor
seaselaagrupan
varianzalospoblacional
alrededor
de medias
qu
se
agrupan HDL
los datos observado
cometido
en4.9
la estimacin
a partir
de una
de tamao
n. valor
Ladel
desviacin
En las Figuras
4.2(a),
(b)nica
y (c)muestra
se presentan
las
colesterol
Ejemplo
xmedias
) se conoce
c
tamao
n
respecto
de
la
medida
poblacional.
Esta
cantidad
que
facilita
un
valor
promedio
de
la
distancia
de
las
distintas
muestra
central de la muestra
sirven
tanto
para
resumir
los
resultados
observados
como
para
Las es
medidas
de tendencia
central
informan
acerca
esrespectivamente,
el
valor msSE(
representativo
La disminuye
media
la
medida
de
tendencia
central
de
fcil
variabilidad
conforme
aumenta
el tamao
nms
la10,
muestra;
es ms
decir,
al
en 1000
muestras
aleatorias
simples
de
tamao
nde= utilizada
25 de
yy cul
100,
central de
laEn
muestra
para resumir los resu
x aproximadamente
esestudio EURAMIC.
estndar
de laadistribucin
obtenidas
partir de losmuestral
controles
del
estas sirven
grficastanto
se puede
[Figurade4.2
aqu]
x ) de
se incertid
conoce
tamao
n
respecto
de
la
medida
poblacional.
Esta
cantidad
error
estndar
de
la
media
muestral
y
permite
cuantificar
el SE(
grado
realizar inferencias
acerca
de
los
parmetros
poblacionales
correspondientes.
A
una
determinada
variable
o,dedicho
de forma
equivalente,
estos
estimadores
indican
interpretacin.
Corresponde
al
centro
gravedad
de las
los
datos
dems
la
muestra.
Su
aumentar
el tamao
muestral,
las medias
las
distintas
muestras
estarn
prximas
apreciar
que,deindependientemente
deldetamao
muestral,
medias
muestrales
estn
realizar
inferencias
acercaalde
los parmetros
poblacion
centradas alrededor de la media poblacional de 1,09
mmol/l.
Sin embargo,
aumentar
el

error
estndar
de
la
media
muestral
y
permite
cuantificar
el
grado
la
estimacin
de
una
media
a
partir
de
una
muestra
de
tamao
n.
continuacin se
describen
los
principales
estimadores
de
la
tendencia
central
de
una
alrededor
deesqu
valor
se
agrupan
los
Las
deeste
tendencia de incer
principal
limitacin
que
est
influenciada
los
valores
extremos
y, en
xde
)muy
=sentido
var(
xtomar
)substancial
= datos
,porobservados.
SE(
Aun
cuando
en
lase
prctica
carece
repetidas
muestras,
lasmedidas
a latamao
verdadera
media
poblacional.
muestral,
observa
una
disminucin
de la
variabilidad
de las
medias
n con unse
continuacin
describen
principales estimadores
muestrales. As, por ejemplo, la proporcin de muestras
nivel
medio los
de colesterol
En
la
prctica,
para
poder
calcular
el
error
estndar,
estamao
necesario
obtener
la
estimacin
de
una
media
a
partir
de
una
muestra
de
variable.
central
de un
la
muestra
sirven
para
los
resultados
comon.para
caso,
puede
no
ser
fielmuestral
reflejo
de
central
de
lapara
distribucin.
x tendencia
pueden
para
cuantificar
error
propiedades
de1,03
la distribucin
de latanto
HDL
entre
y 1,15
mmol/l
es del
48,7%
para
n utilizarse
=resumir
10, 69,1%
n = 25observados
y el
95,4%
para
Enpromedio
las Figuras
4.2(a),
(b) y de
(c)las
se variable.
presentanmedias
las medias
del colesterol
=Ejemplo
100. un 4.9
quenfacilita
valor
de En
la distancia
distintas
muestrales
de es
la
prctica,
para
poder
calcular
el
error
estndar,
obtener
2 denecesario
la variable
a estu
previamente
una
estimacin
de
la
varianza
poblacional
realizar
inferencias
acerca
de
los
parmetros
poblacionales
correspondientes.
A
cometido
en
la
estimacin
a
partir
de
una
nica
muestra
de
tamao
n.
La
desviacin
1.2.1 Media aritmtica
Ejemplo
1.4 En este
y en los
sucesivos
ejemplos
estimadores
muestrales, se
HDL
en
aleatorias
simples
decantidad
tamao
nSE(
=sobre
10,
25
ylas
100,
Aun
cuando
en1000
la prctica
carece
de sentido
tomar
repetidas
muestras,
propiedades
de la
1.2.1 Media
x )aritmtica
se
conoce
como
tamao
n respecto
demuestras
la medida
poblacional.
Esta
2 poblacional
de la variable 2a e
previamente
una
estimacin
de
la
varianza
poblacional
que
este
parmetro
es
tpicamente
desconocido.
La
varianza
continuacin
se
describen
los
principales
estimadores
de
la
tendencia
central
x
es
estndar
de
la
distribucin
muestral
de
utilizarse
para
cuantificar
error
cometido en la estimacin a de una pu
distribucin
muestralpor
de x ,pueden
La media aritmtica,
denotada
se define
como la
suma
de cada el
uno
de los
utilizarn los
valores adel
colesterol
HDL obtenidos
en losEURAMIC.
10 primerosEn
sujetos del
1.2 MEDIDAS
DEnica
TENDENCIA
respectivamente,
obtenidas
de los controles
del
partir
de una
de CENTRAL
tamao
n.partir
La
estndar
de
laaritmtica,
distribucin
muestralpor
de
La media
denotada
error
estndarmuestra
de la media
muestral
y desviacin
permite
cuantificar
el estudio
grado
de incertidumbre
enx ,esse define como2
que
este
parmetro
es
tpicamente
desconocido.
La
varianza
poblacional
variable.
estimarse
a
partir
de
la
propia
muestra
mediante
la
varianza
muestral
valores muestrales dividida por el nmero de observaciones realizadas.
Si denotamos

estudio se
European
Study
on
Antioxidants,
Myocardial
Infarction
and Cancer
of
grficas
puede
independientemente
tamao
muestral,
x )que,
= de
var(
) =el
, ms
SE(
valores
muestrales
dividida
por ellasnmero de observac
Las medidas
deestas
tendencia
informan
acerca
culxes
valor
representativo
la estimacin
de central
una media
a apreciar
partir
de
una
muestra
de
tamao
n.del
n
estimarse
a partir
de lai-simo,
propia muestra
mediante la varianza muestral
por n el tamao muestral y por
xi elMedia
valor observado
para
el sujeto
i 2= 1, ...,
1.2.1
aritmtica
1 n, ny controles
2 realizado
the
Breast
(EURAMIC),
unalrededor
estudio multicntrico
de
casos
medias
muestrales
estn
centradas
de
la
media
poblacional
1,09
s
=
(de
x i y
x )tamao

pores
n necesario
elmedias
tamao
muestral
por
x. i el valor
facilita
un
valor para
promedio
de
la distancia
las estos
distintas
muestrales
de
n observado pa
de una que
determinada
variable
o, dicho
forma
equivalente,
estimadores
indican
En la prctica,
poderde
calcular
el errordeestndar,
obtener
n 1 i =1
n
la media vendra
como
de lade los
respecto
de por
la medida
poblacional.
cantidadde
SE(
quedada
facilita
un valor
promedio
deEsta
la distancia
lasx )distintas
medias
muestrales
La media
aritmtica,
denotada
por
, se conoce
define
como
la1error
sumaestndar
de de
cada2 uno
2
entre
1991
y 1992
en ocho pases
Europeos
e2Israel
para
evaluar
el
efecto
de los
mmol/l.
Sin
embargo,
al
aumentar
el tamao
muestral,
se
observa
una
s
=
(
x

x
)
.

i
la
media
vendra
dada
por
alrededor
de
qu
valor
se
agrupan
los
datos
observados.
Las
medidas
de
tendencia
media
muestral
y
permite
cuantificar
el
grado
de
incertidumbre
en
la
estimacin
de
una
media
dado
previamente una estimacin de la varianza poblacional de la variable
n 1ai =estudio,
Puede
probarsepor
que
lanmero
varianza
muestral
es un 1estimador
de la varia
a partir
de una
muestra
tamao
n.poblacional.
x ) se conoce
como insesgado
tamao
n respecto
dedenlamuestrales
medida
Esta
cantidad
SE(
valores
dividida
el
de
observaciones
realizadas.
Si denotamos
+ xla2 variabilidad
+ ... + x n
x1de
1
disminucin
substancial
de
las
medias
muestrales.
As,
por
2
central de que
la muestra
sirven
tanto
para
resumir
los
resultados
observados
como
para
. La varianza
= espoder
xpara
x i =calculardesconocido.
5x + x + ...
n
puede 1 una
parmetro
tpicamente
poblacional

En laeste
prctica,
el
error estndar,
es necesario
obtener
2 previamente
1 las
2la var
nnlael
nprobarse
i=
1 tamao
sobre
todas
sobre
todas
poblacional;
espor
decir,
el
valor
esperado
ses
Puede
que
la
varianza
muestral
un
estimador
insesgado
de posib
=
=
x
x
por
muestral
y
x
el
valor
observado
para
el
sujeto
i-simo,
i
=
error
estndar
de
media
muestral
cuantificar
el
grado
de
incertidumbre
en
2y permite
i

i 1, ..., n,
la variable
amedio
estudio,
dado
que este
parmetro
es
estimacin
de la varianza
poblacional
de con
ejemplo,
la
proporcin
de
muestras
un
nivel
de
colesterol
HDL
entre
n
n
i =1
realizar inferencias
acerca
parmetros
poblacionales
2
estimarse desconocido.
a partirde
delos
la propia
muestra
mediante
lacorrespondientes.
varianza
muestralA
de la propia
tpicamente
La varianza
poblacional
2
2
2 puede estimarse a partir
sobre todas
sobre
pos
poblacional;
es) decir,
el tamao
valor
esperado
dela
s media
=
El
error
estndar
de
muestral
se todas
estimalas
enton
es
E(smuestra
la
media
vendra
dada
por
de
media
amuestras
partir
una
de
n.
La media
eslalaestimacin
medida
tendencia
central
msdeutilizada
de .69,1%
ms
fcil
muestra
mediante
launa
varianza
y de
1,15
mmol/l
esmuestral
del estimadores
48,7%
para nde=yla
10,
para
n = 25
y 95,4% para n =
continuacin se1,03
describen
los
principales
tendencia
central
de
una
La media es la medida de tendencia central ms uti
n 2
2
1es
2
2El
)
=

.
error
estndar
de la media muestral se estima ento
muestras
E(s
En
la
prctica,
para
poder
calcular
el
error
estndar,
necesario
obtener
s/ ns . As,
una
muestra
interpretacin. Corresponde
al centro de gravedad
los
datos
= de
( x iseleccionada
nde
x ) laes
. muestra.
vez
... + x n concreta, la media muestral x fa
x1 +una
x 2 +Su
100.
n 1 i =x1 = 1 interpretacin.
variable.
.
xi =
Corresponde
al centro de gravedad d
n i =1 2 de la variable
n
a
estudio,
dado
previamente
una
estimacin
de
la
varianza
poblacional
x
s/ estimacin
n por
. As,
vez seleccionada
una
muestra
concreta,
la de
media
muestral
principal limitacin
es que que
est la
muy
influenciada
valores
extremos
y, en
una
insesgada
de la media
poblacional
ypoblacional;
el error
dicha
estimaci
Puede probarse
varianza
muestral
eslos
ununa
estimador
insesgado
deeste
la
varianza
2
2
2
principal
limitacin
es
que
est
muy
influenciada
por
l
1.2.1 Media
aritmtica
es decir,
elprobarse
valor esperado
de s sobre
todas las
muestras
es E(s de
) =la varianza
. 2El error estndar
Puede
que la varianza
muestral
es posibles
un estimador
insesgado
18
ypuede
este
parmetro
esmedia
tpicamente
desconocido.
La
caso, puededenoque
un fiel
reflejoLa
de
la
tendencia
central
detendencia
la
distribucin.
una
estimacin
de
media
poblacional
y elmuestra
error
es
la medida
de
central
msseleccionada
utilizada
deuna
ms
fcil de dicha estima
As,
unalapoblacional
vez
laser
media
muestral
se
estima
entonces
como
n ..varianza
determinado
por
s/insesgada
2
caso,
puede
no
ser
un
fiel
reflejo
deylaeltendencia centra
La media
aritmtica,
denotada
por
x ,facilitar
seesperado
defineuna
como
sumatodas
de
cada
uno
de
insesgada
de
la los
media
poblacional
concreta,
la media
muestral
sobre
todas
las posibles
poblacional;
es decir,
el valor
deestimacin
s lasobre
estimarse
partir
de la vendr
propia muestra
mediante
muestralde los datos de la muestra. Su
interpretacin.
Corresponde
al centro
error
de dichaa estimacin
determinado
por
n .. de gravedad
s/la varianza
Ejemplo
1.4
En
este
y
en
los
sucesivos
ejemplos
sobre
estimadores
muestrales,
se
2
2
valores muestrales
nmero
de observaciones
realizadas.
el. El
error estndar
de la media
muestralSi
sedenotamos
estima entonces como
muestras dividida
es E(s ) =por
Ejemplo
1.4
En
este y extremos
en los sucesivos
ejemplos
principal limitacin es que est
muy influenciada por los valores
y, en este
n
1
2
2
utilizarn
los valores dely colesterol
HDLobservado
en (los
10x )primeros
sujetos
sobtenidos
=
xeli sujeto
. i-simo,
por
n el tamao
porseleccionada
xi el valor
para
i = 1,del
..., n,
Pastor-Barriuso R. 51

x facilitar
s/ n . muestral
As, una vez
una muestra
concreta,
la utilizarn
media muestral
n

1
los de
valores
del colesterol HDL obtenid
i
=
1
caso, puede no ser un fiel reflejo de la tendencia central
la distribucin.
European
laestudio
media vendra
dadaStudy
por on Antioxidants, Myocardial Infarction and Cancer of
una estimacin insesgada de la media poblacional y el error
de dicha
estimacin
vendr
estudio
European
Study
on Antioxidants, Myoc
Puede probarse que la varianza muestral es un estimador insesgado
de la varianza

Principios de muestreo y estimacin

30
20
10
0
0,8

0,9

1,1

1,2

1,3

1,4

(a) Media del colesterol HDL (mmol/l) en muestras de tamao 10

Frecuencia relativa (%)

30
20
10
0
0,8

0,9

1,1

1,2

1,3

1,4

(b) Media del colesterol HDL (mmol/l) en muestras de tamao 25


30
20
10
0
0,8 de los
0,9controles
1 del estudio
1,1
1,2
1,3
1,4
Ejemplo 4.10 A partir
EURAMIC,
se ha obtenido
una

(c) Media del colesterol HDL (mmol/l) en muestras de tamao 100

Ejemplo
4.10 A partir
de de
lostamao
controles
se ha obtenido
una
muestra aleatoria
simple
n =del
10,estudio
cuyos EURAMIC,
valores de colesterol
HDL son

Figura
4.2
Figura 4.2 Distribucin muestral de la media del colesterol HDL en 1000 muestras
aleatorias
simples de
tamaomuestra
n = 10 (a),
25
(b)
y
100
(c)
obtenidas
a
partir
del
grupo
control
del
estudio
EURAMIC.
La
lnea veraleatoria
simple
de
tamao
n
=
10,
cuyos
valores
de
colesterol
HDL
son
1,32, 1,74,corresponde
0,82, 0,92, a1,46,
1,10,
0,88, 0,97
0,63mmol/l
mmol/l.
La mediaHDL.
tical en 1,45,
trazo discontinuo
la media
poblacional
=y 1,09
de colesterol

52

1,45,
1,32,es1,74, 0,82, 0,92, 1,46, 1,10, 0,88, 0,97 y 0,63 mmol/l. La media
muestral
Ejemplo 4.10 A partir de los controles del estudio EURAMIC, se ha obtenido una
muestra
simple de tamao n = 10, cuyos valores de colesterol HDL son 1,45,
muestralaleatoria
es
10
+ 1,32
+ ...
+ 0,63
1,45
1,32, 1,74, 0,82, 0,92,11,46,
1,10,
0,88,
0,97
y 0,63
mmol/l. La media muestral es
x = xi =
= 1,13 mmol/l
10 10i =1
10
1
1,45 + 1,32 + ... + 0,63
x = xi =
= 1,13 mmol/l
10 i =1
10
y la varianza muestral
y la varianza muestral
y la varianza muestral
1 n
s2 =
( xi x ) 2
n 1 in=1
1
2
s 2 = (1,45
x i )2 x+)...
1(,13
+ (0,63 1,13) 2

1
n
i =1
=
= 0,12 (mmol/l) 2 .
9
(1,45 1,13) 2 + ... + (0,63 1,13) 2
=
= 0,12 (mmol/l) 2 .
9
Por tanto, la estimacin puntual de la media poblacional del colesterol HDL es x
Pastor-Barriuso R.
Por
tanto,
la estimacin
dees
la media poblacional del colesterol HDL es x
= 1,13
mmol/l
y su errorpuntual
estndar

(1,45 1,13) 2 +alrededor


... + (0,63 de
1,qu
13) 2valor se agrupan 2los datos observados. Las medidas d
=
= 0,12 (mmol/l) .
variable.
9 como para
muestra sirven tanto para resumir los resultados observados
Estimacin
en
el muestreo
aleatorio
central de laDE
muestra
sirven
tanto
para
resumir
los simple
resultados observad
1.2 MEDIDAS
TENDENCIA
CENTRAL
ncias acerca de los parmetros
A 1.2.1
Por tanto,poblacionales
la estimacin correspondientes.
puntual de la media
poblacional
colesterol HDL es x
Mediadel
aritmtica
realizar inferencias acerca de los parmetros poblacionales correspond
Las medidas de tendencia central informan acerca de cul es el valor ms r
e describen los principales
estimadores
la tendencia
central
de La
unamedia aritmtica,
Por
tanto,
la estimacin
puntual
la media
poblacional
del colesterol
HDLpor
es x ,=se1,13
denotada
define como la su
= 1,13
mmol/l
y sude
error
estndardees
continuacin
describen los principales estimadores de la tendencia
mmol/l y su error estndar esde una determinadasevariable
o, dicho de forma equivalente, estos estimador
valores muestrales dividida por el nmero de observacione
s
0,35
SE( xalrededor
) = variable.
= de qu=valor
0,11 se
mmol/l.
agrupan los datos observados. Las medidas de ten
n
10
1.2
MEDIDAS
DE
TENDENCIA
CENTRAL
por n el tamao muestral y por xi el valor observado para e
ritmtica

Frecuencia absoluta

1.2.1
Media
aritmtica
Notar que, en este ejemplo ilustrativo,
error
de sirven
la estimacin
muestral
es los
exactamente
central
de el
la
muestra
tanto para
resumir
resultados observados co
la
media
vendra
dada
por
mtica,
xNotar
,se
como
la
suma
de
cada
uno
de
los
define
=que,
1,13

1,09
=
0,04
mmol/l.
En
la
prctica,
sin
embargo,
el
error
exacto
no puede
Lasdenotada
medidas por
de tendencia
central
informan
acerca
de
cul
es
el
valor
ms
representativo
en este ejemplo ilustrativo, el error de la estimacin muestral es
Lay,inferencias
media
aritmtica,
denotada
por
sepoblacionales
define
como la
suma de cada
estimacin
calcularse ya que es desconocido
en consecuencia,
SE( x ), como
realizar
acercase
deemplea
los parmetros
correspondiente
ralesdedividida
por el nmero
de
observaciones
realizadas.
Si
denotamos
del
error
promedio
que
cabra
esperar
en
similares
circunstancias
(esto
es,
en
todas
las
una determinada
variable
o,
dicho
de
forma
equivalente,
estos
estimadores
indican
n
exactamente x - = 1,13 - 1,09 = 0,04 mmol/l. En la prctica, sin embargo, el1
x1 + x 2 + ... + x n
x =de observaciones
xde
valores
muestrales
por
nmero
realizadas
posibles muestras del mismocontinuacin
tamao
obtenidas
de la dividida
poblacin
deelreferencia).
se describen
los principales
estimadores
la tendencia
centr

i =
n i =1
n
valor
observado
para
el
sujeto
i-simo,
i
=
1,
...,
n,
o muestral
y por
xi elvalor
alrededor
de qu
se
agrupan
los
datos
observados.
Las
medidas
de
tendencia
error exacto no puede calcularse ya que es desconocido y, en consecuencia, se
por n el tamao muestral y por xi el valor observado para el sujeto i-s
variable.
Teorema
central
del
lmite los resultados observados como para
ra dada
porde la4.3.3
central
muestra
sirven
tanto
para
resumir
La media
es la medida
que cabra
esperar de
en tendencia central ms utilizad
emplea SE( x ) como estimacin del error promedio
la media vendra dada por
En los apartados anteriores se ha probado
paraaritmtica
cualquier variable aleatoria, el valor esperado y
1.2.1 que,
Media
realizar inferencias
los
parmetros
poblacionales
correspondientes.
A respectivamente.
interpretacin.
Corresponde
al tamao
centro
de ha
gravedad de los
n acerca de
similares
circunstancias
(esto
es,
en
todas
las
posibles
del mismo
x 2 + ... + x n de las medias muestrales
No se
la varianza
dex1la+distribucin
son muestras
y 2/n,
1
. global de la distribucin muestral de . Retomando
= x i sin
= embargo, el aspecto
xanalizado,
n
+ ejemplo
... + xde
x 2la+suma
La media aritmtica, denotada por x , 1se define xcomo
1 el
n cada uno
ndescriben
n
i =1
continuacin
se
los
principales
estimadores
de
la
tendencia
central
de
una
. por los v
=
=
x
x
principal
limitacin
es
que
est
muy
influenciada

i
obtenidas
de
la
poblacin
de
referencia).
de la distribucin muestral de las medias de colesterol HDL (Figura 4.2), puede
observarse
que
la
n i =1
n
forma de esta distribucin tiende a valores
aproximarse
a una dividida
distribucin
conforme
aumenta el realizadas. Si d
muestrales
por normal
el nmero
de observaciones
caso,
puede
no
ser
un
fiel
reflejo
de la tendencia central de
s la variable.
medida de tendencia
central
ms
utilizada
y
de
ms
fcil
tamao muestral. Esta caracterstica puede resultar intuitivamente lgica, ya que la distribucin
mediamuestral
esun
la aspecto
medida
de
tendencia
central
ms
utilizada
de ms
subyacente
del colesterol
HDL
en lapor
poblacin
presenta
normal
n el La
tamao
y poraproximadamente
xi el
valor observado
para(ver
el sujetoyi-simo,
4.3.3 Teorema
central del
lmite
Corresponde
al
centro
de
gravedad
de
los
datos
de
la
muestra.
Su
1.2 del Tema 1). Dado que muchas de las variables utilizadas en la prctica no presentan una
1.2.1 MediaFigura
aritmtica
Ejemplo 1.4alEn
este yde
engravedad
los sucesivoslos
ejemplos
sob
interpretacin.
datos de
la
distribucin
poblacional
normal,
cabra
preguntarse
siCorresponde
esta
a la normalidad
la
la media
vendra
por tendencia
En los apartados
anteriores
se ha probado
que,
para dada
cualquier
variable centro
aleatoria,
el valor de de
acin
es
que
est
muy
influenciada
por
los
valores
extremos
y,
en
este
para cualquier
tipo
de uno
variable
aleatoria.
La media aritmtica,
denotada
define como
la suma de
cada
de los
distribucin
muestralpor
de x ,sesemantiene
utilizarn
los
valores
obtenidos
e
principal
limitacin
es
que
est
muy influenciada
porHDL
los valores
extre
2 del colesterol
esperado y la varianza de la distribucin de las medias muestrales son
n y /n,
+
+
...
+
x
x
x
1
1
2
n
o servalores
un fiel muestrales
reflejo deEjemplo
ladividida
tendencia
ladedistribucin.
porcentral
elEn
nmero
observaciones
Si denotamos
.
xde=los
x i = de
4.11
la de
Figura
4.3 se muestra realizadas.
la distribucin
niveles
b-caroteno
en
estudio
European
Study
on
Antioxidants,
Myocardia
n
n
caso,
puede
no
ser
un
fiel
reflejo
de
la
tendencia
central
=
i
1
tejido adiposo
control
estudioelEURAMIC,
que de
presenta
una distribucin de la distribuc
respectivamente.
Noen
se el
hagrupo
analizado,
sindel
embargo,
aspecto global
la distribucin
por n el tamao muestral
y por xiasimtrica
el valor observado
para elde
sujeto
i-simo,
i =Las
1, ...,
n,
marcadamente
con una media
= 0,37
Figuras
4.4(a),
y (c)multicntrico de
the mg/g.
Breast
(EURAMIC),
un (b)
estudio
1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
20
La media
es la medida
tendencia
msejemplos
utilizadasobre
y de ms
fcil
Ejemplo
1.4 Endeeste
y en loscentral
sucesivos
estimado
la media vendra dada por
250
entre 1991 y 1992 en ocho pases Europeos e Israel p
n los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
interpretacin.
Corresponde
al centro
de gravedad
de los datos
utilizarn los valores
del colesterol
HDL obtenidos
en de
losla10mue
pri
n
+ x nCancer of
xInfarction
1
European Study on Antioxidants,
Myocardial
1 + x 2 + ...and
200 x = x i =
.
principal
limitacin
es que estStudy
muy on
influenciada
por Myocardial
los valores extremos
estudio European
Antioxidants,
Infarction
n i =1
n
st (EURAMIC), un estudio multicntrico de casos y controles realizado
caso, puedethe
noBreast
ser un fiel
reflejo de launtendencia
central de la distribucin.
(EURAMIC),
estudio multicntrico
de casos y co
150de tendencia central ms utilizada y de ms fcil
La
media
es
la
medida
91 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar
1.4 En
y en losSu
sucesivos ejemplos sobre estimadores m
interpretacin. Corresponde al centro de gravedadEjemplo
de los datos
de este
la muestra.
100
5
utilizarn
los extremos
valores del
principal limitacin es que est muy influenciada por
los valores
y, colesterol
en este HDL obtenidos en los 10 primero

estudio
European
Study on Antioxidants, Myocardial Infarction and
caso, puede no ser un fiel50reflejo de la tendencia central
de la
distribucin.

the Breast (EURAMIC), un estudio multicntrico de casos y control


Ejemplo 1.4 En este0y en los sucesivos ejemplos sobre estimadores muestrales, se
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el ef
utilizarn los valores del colesterol
en los 10
sujetos1,6
del 1,8
0
0,2 HDL
0,4 obtenidos
0,6
0,8
1 primeros
1,2
1,4
2
-caroteno (g/g)
estudio European Study on Antioxidants, Myocardial
Infarction and Cancer of
Figura 4.3

Figura 4.3 Distribucin de frecuencias del nivel de -caroteno en el grupo control del estudio EURAMIC.

the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado


entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los

Pastor-Barriuso R.

53

Principios de muestreo y estimacin

30
20
10
0
0,1

(a)

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

Media de -caroteno (g/g) en muestras de tamao 10

Frecuencia relativa (%)

30
20
10
0
0,1

(b)

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

Media de -caroteno (g/g) en muestras de tamao 25

30
20
10
0
0,1

(c)

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

Media de -caroteno (g/g) en muestras de tamao 100


Figura 4.4

Figura 4.4 Distribucin muestral de la media de -caroteno en 1000 muestras aleatorias simples de tamao
n = 10 (a), 25 (b) y 100 (c) obtenidas a partir del grupo control del estudio EURAMIC. La lnea vertical en
trazo discontinuo corresponde a la media poblacional = 0,37 g/g de -caroteno.

representan las medias de b-caroteno en 1000 muestras aleatorias simples de tamao n =


10, 25 y 100, respectivamente, obtenidas a partir de los controles del estudio EURAMIC.
En estas grficas puede observarse, de forma emprica, las siguientes propiedades:
Ausencia de sesgo: para cualquier tamao muestral, el promedio de las medias
muestrales es similar a la media poblacional.
Disminucin del error estndar: al aumentar el tamao muestral, disminuye la
variabilidad en la distribucin de las medias.
Aproximacin a la distribucin normal: al aumentar el tamao muestral, la distribucin
de las medias se aproxima a una distribucin normal centrada en la media poblacional.
En los ejemplos anteriores, se ha comprobado de forma emprica que, independientemente de
la forma de la variable aleatoria en la poblacin, la distribucin de las medias muestrales tiende a
54

Pastor-Barriuso R.

estadstica, conocido como teorema central del lmite, formaliza esta intuicin: para
Las medidas de tendencia central informan acerca de cu
estadstica, conocido como teorema central del lmite, formaliza esta intuicin: para
2, la
distribucin
de
las medias
cualquier variable aleatoria X con media y varianza
Estimacin en
el muestreo
de una
determinada
variable
o,aleatorio
dicho simple
de forma equivalen
cualquier variable aleatoria X con media y varianza 2, la distribucin de las medias
en muestras aleatorias simples de tamao n se aproxima,
al aumentar
el tamao
alrededor
de qu valor
se agrupan los datos observados. L
en muestras aleatorias simples de tamao
n
se
aproxima,
al
aumentar
el tamao
~
x N(1,09, 0,00086).
2 tamao de la muestra. Uno de
seguir
una distribucin
normal,normal
particularmente
aumenta el
y varianza
es decir,
al aumentar
muestral,
a una distribucin
con mediacuando
central
de la/n;
muestra
sirven
tantoformaliza
para resumir los resulta
losmuestral,
principales
resultados
en
estadstica,
conocido
como
teorema
central
del
lmite,
es decir,
al
aumentar
a una distribucin normal con media y varianza 2/n;
2
, la distribucin
de las
esta
paraejemplo,
cualquier
aleatoria
X con
media dey colesterol
varianza HDL
As, por
la variable
probabilidad
de que
la media
endeuna
n, intuicin:
realizar
inferencias
acerca
los muestral,
parmetros poblacional
medias
en
muestras
aleatorias
simples
de
tamao
n
se
aproxima,
al
aumentar
el
tamao
n,
decir,
al yaumentar
n, puede
a una distribucin
normal
conn media
y varianza
2/n; es
muestra de
tamao
= 100 est
comprendida
entre
1,03
1,15 mmol/l
2 continuacin se describen los principales estimadores de

~ N ,
x
n 2,
~
calcularse como
,
x N , variable.
n

~ significa distribuirse
1,09
x 1,09 aritmtica
1,15As,
1As,
,09
1,03
aun
aun
dondeelel smbolo
smbolo P(1,03

donde
significa
distribuirse
aproximadamente
como.
cuando la
1.2.1
= P aproximadamente
Mediacomo.

x 1,15)
cuando
~
aproximadamente
como.
As,
aun
donde el smbolo
significa
0,029
0,029
0,029
distribucin
de una variable
en ladistribuirse
poblacin diste
mucho de
ser normal,
el teorema
central del
cuando
la distribucin
de unalavariable
en la poblacin
disteLa
mucho
de
ser
normal,
el
teorema
lmite
permite utilizar
distribucin
normal como
aproximacin
a
la
distribucin
de x ,siseeldefine como la s
media aritmtica, denotada por
la distribucin
variable en lagrande.
poblacin
diste
de muestral
ser normal,
el teorema
tamao
muestral de
es una
suficientemente
Aunque
tamao
necesario
variar en
= P(-2,05

Z elmucho
2,05)
centralde
dellalmite
permite
la distribucin
normal
como
aproximacin
a
la
funcin
variable
objetoutilizar
de estudio,
esta aproximacin
ser
razonablemente
precisa
valores muestrales dividida por el siempre
nmero de observacion
del lmitea permite
utilizar la distribucin normal como aproximacin a la
quecentral
n sea superior
50.
= 2 (2,05) - 1 = 0,9596.
grande. muestral
Aunque ely tamao
distribucin de x si el tamao muestral es suficientemente
por n el tamao
por xi el valor observado para
~
N(1,09,
0,00086). HDL
x siLa
el tamao
es suficientemente
grande.
Aunque
el tamao
distribucin
media ymuestral
la xvarianza
del colesterol
en los
controles
del estudio
Ejemplo de
4.12
2 la variablelaobjeto
2
En
el
Ejemplo
4.9
se
comprob
empricamente
que
la
proporcin
de
muestras
muestral
necesario
variar
en
funcin
de
de
estudio,
esta
media. vendra
dada por
Por el teorema
central delde
lmite,
EURAMIC son = 1,09 mmol/l y = 0,086 (mmol/l)
muestral
necesario
variar
en
funcin
de
la
variable
objeto
de
estudio,
esta
laAs,
distribucin
de
las
medias
en
muestras
de
tamao
n
=
100
ser
aproximadamente
por ejemplo, la probabilidad de que la media de colesterol HDL en una
2
2
tamao
nmedia
= razonablemente
100 con
un nivel
medio
de colesterol
entre 1,03
y 1,15(mmol/l)
mmol/ln es
aproximacin
ser
precisa
siempre
sea superior
a 50.
/n =nHDL
0,086/100
= 0,00086
,
normal
con
= 1,09
mmol/l
y varianza
que
x1 + x 2 + ... + x
1
aproximacin
ser
razonablemente
precisa
siempre
que
n
sea
superior
a
50.
=
x
muestra de tamao n = 100 est ~
comprendida entre 1,03 y 1,15 mmol/l puede n x i =
n
del 95,4%, que coincide casi
con el resultado obtenido bajo la i =1
x perfectamente
N(1,09, 0,00086).
Ejemplo 4.12 La media y la varianza del colesterol HDL en los controles del
calcularse
como la probabilidad de que la media de colesterol HDL en una muestra de
As,
por ejemplo,
Ejemplo
4.12 La
media y la varianza del colesterol HDL en los controles del
aproximacin
normal.
As, pornejemplo,
la probabilidad
que1,03
la media
demmol/l
colesterol
en una
La
media
es
laHDL
medida
de tendencia
tamao
= 100 est
comprendida de
entre
y 1,15
puede
calcularse
como central ms utiliza
estudio EURAMIC son = 1,09 mmol/l y 2 = 0,086 (mmol/l)2. Por el teorema
2
2
entre
=x0,086
Por el teorema
estudio EURAMIC son = 1,09 mmol/l
1,03 1y,09
1,03
1,09y(mmol/l)
1,15
1.,09
muestra
de
tamao
n
=
100
est
comprendida
1,15
mmol/l
interpretacin.
Corresponde
al centro de gravedad de l

1,15)
=
P(1,03

puede
Como
se
mostrar
en
los
siguientes
temas,
el
teorema
central
del
lmite
central del lmite, la distribucin de
medias en0muestras
de
tamaoconstituye
n = 100 la
0,029
,029
0,029
las
central del
lmite, la distribucin de las medias
en muestras
de tamao
nest
= 100
como
principal
limitacin
es quetanto
muy influenciada por los
2

=
P(
2,05

2,05)
basecalcularse
fundamental
del
proceso
de
inferencia
estadstica,
dado
que
posibilita
ser aproximadamente normal con media = 1,09 mmol/l y varianza /n =la
2
1,09
mmol/l
yser
varianza
reflejo
/n = de la tendencia central d
ser aproximadamente normal
con
media1 ==
=
2
(2,05)
0,9596.
caso,
puede
no
un
fiel
2 1,como
construccin
de
intervalos
de
confianza
el
contraste
de
hiptesis
acerca
de la
,P 03 1,09 x 1,09 1,15 1,09
0,086/100P(1,03
= 0,00086
(mmol/l)
x

1,15)
=

2
En0,086/100
el Ejemplo= 4.9
se comprob
proporcin
de muestras
de tamao
, 0,029 que0,la
0,00086
(mmol/l)empricamente
029
0,029

. medio de colesterol HDL entre 1,03


media
n = poblacional
100 con un nivel
y
1,15
mmol/l
es
del
95,4%,
que ejemplos so
Ejemplo 1.4 En este y en los sucesivos
coincide
casi perfectamente
con el
resultado obtenido
la aproximacin
normal.
En el Ejemplo
4.9 se comprob
empricamente
que labajo
proporcin
de muestras
de
= P(-2,05
Z 2,05)
22
utilizarn los valores del colesterol
HDL obtenidos
4.3.4 Estimacin de una proporcin poblacional
Como
se mostrar
losunsiguientes
temas,
el teorema
central
lmite
constituye
la22base
tamao
n = 100en
con
nivel medio
de colesterol
HDL
entredel
1,03
y 1,15
mmol/l es
= 2estadstica,
(2,05) - 1dado
= 0,9596.
fundamental
del que
proceso
de inferencia
que
posibilita
tanto la
construccin
de
estudio
European
on Antioxidants,
Myocard
Supongamos
el inters
del estudio
se centra en estimar
la proporcin
Study
de
intervalos
de
confianza
como
el
contraste
de
hiptesis
acerca
de
la
media
poblacional
.
del 95,4%, que coincide casi perfectamente con el resultado obtenido bajo la
En el Ejemplo
4.9 sede
comprob
empricamente
que
la
proporcin
decaracterstica.
muestras de
thedeterminada
Breast (EURAMIC),
un En
estudio multicntrico
individuos
o elementos
la poblacin
que cumplen
una
aproximacin normal.
4.3.4 tamao
Estimacin
decon
unaun
proporcin
poblacional
n = 100
nivel
medio
colesterol
HDL
entre
1,03
yel1,15
es Europeos e Israel
entre
1991
y 1992
enmmol/l
ocho
tal caso, resulta
conveniente
definir
unade
variable
aleatoria
X
que
toma
valor
1 en pases
los
Supongamos que el inters del estudio se centra en estimar la proporcin de individuos o
Como
se mostrar
en los siguientes
temas, el teorema
central del
lmite constituye
la
del 95,4%,
que
coincide
casi
perfectamente
resultado
obtenido
bajo
lacaso,
individuos
presentan
dicha
caracterstica
y con
0 enelquienes
no la
presentan.
media
elementos
de que
la poblacin
que
cumplen
una determinada
caracterstica.
En
talLa
resulta
conveniente definir una variable aleatoria X que toma el valor 1 en los individuos que presentan
base fundamental
del
proceso de inferencia estadstica, dado que posibilita tanto la
aproximacin
normal.
poblacional
de esta
aleatoria
es La media poblacional de esta variable
dicha
caracterstica
y variable
0 en quienes
no discreta
la presentan.
aleatoria discreta es
construccin de intervalos de confianza como el contraste de hiptesis acerca de la
1
Como se mostrar en los siguientes temas,
el teorema central del lmite constituye la
= k P( X = k ) =
media poblacional .
k =0
base fundamental del proceso de inferencia estadstica, dado que posibilita tanto la
23
4.3.4 Estimacin
de una proporcin
construccin
de intervalos
de confianzapoblacional
como el contraste de hiptesis acerca dePastor-Barriuso
la
R.
Supongamos
que el.inters del estudio se centra en estimar la proporcin de
media
poblacional

55

Si se selecciona una muestra aleatoria simple de tamao n, en la cual k individuos


1

)
n - k individuos no la
presentan la caractersticade=inters
(k (xi =) 1)P(yXlos= krestantes

Principios de muestreo y estimacin

k =0

de la proporcin
poblacional es la proporcin
presentan (xi = 0), el estimador natural
2
2
yLa
su varianza
varianza muestral de p=viene

determinada
por

(1
--)/n;

(1

)
+
(1

(1
). as, al aumentar el
su varianza

La varianza muestral de p viene determinada por (1 - )/n; as, al aumentar el


muestral
1
tamao muestral, las proporciones
muestrales estarn ms prximas a la verdadera
2
Si se selecciona una muestra
n, en la cual k individuos
2 = aleatoria
(
k
)simple
P( X =dek tamao
)

tamao muestral, las proporciones


muestrales
estarn
ms prximas a la verdadera
n
k =0
k 1
proporcin poblacional.
=x.
p =(xi == 1)
x i2 restantes
y los
n - k individuos no la
presentan la caracterstica de inters
2
proporcin poblacional.= (1 n) + n(1 i=1 ) = (1 ).
Al aumentar el tamao muestral, la distribucin de las proporciones muestrales
elmuestra
estimador
naturalsimple
de la proporcin
la proporcin
presentan
(xi = 0),
Si
se
selecciona
una
aleatoria
de tamao poblacional
n, en la cual es
k individuos
presentan
Al aumentar el tamao muestral, la distribucin de las proporciones muestrales
A
partir
de
esta
notacin,
es
evidente
que
una
proporcin
muestral
es
un
caso
la caracterstica
de inters
y aleatoria
los restantes
n de
k tamao
individuos
nolalacual
presentan
(xi = 0), el
tiende
aproximarse
amuestra
una
distribucin
normal.
Esta
aproximacin
es
i = 1)
Si se aselecciona
una(x
simple
n, en
k individuos
muestral
estimador
natural
de
la
proporcin
poblacional
es
la
proporcin
muestral
tiende
aproximarse
a una distribucin
normal.
Esta aproximacin
es
particular
de auna
media muestral
para una variable
dicotmica
con la codificacin
arriba

(1

5.
suficientemente
precisa
si
n
presentan la caracterstica de inters (xi = 1) y los restantes n - k individuos no la
n
p(1=lmite
-k)=1puede
5. x i aplicarse
suficientemente
precisa
si ndel
indicada.
As, el teorema
central
a la forma particular de esta
1 = x . poblacional
es la proporcin
presentan (xi = 0), el estimador natural
n denlai =proporcin
Ejemplo 4.13 En las Figuras 4.5(a), (b) y (c) se presentan las proporciones de
variable X para obtener el siguiente resultado: la distribucin muestral de una
muestral
Ejemplo
4.13 Enes
lasevidente
Figurasque
4.5(a),
y (c) se presentan
lasun
proporciones
de de una
A partir
de
esta notacin,
una(b)
proporcin
muestral es
caso particular
A partir deactuales
esta notacin,
es muestras
evidente que
una proporcin
es
caso
fumadores
en 1000
aleatorias
simples demuestral
tamao
n =un10,
25 yel teorema
media
muestral
para
una
variable
dicotmica
con
la
codificacin
arriba
indicada.
As,
proporcin p se aproxima, al aumentar el tamao muestral, a una distribucin normal
fumadores
actuales
en 1000
muestras
aleatorias
simples
de tamao
n = 10,el25siguiente
y
central del
lmite puede
aplicarse
a la forma
particular
de esta
variable
X para obtener
n
1 grupo
k variable
particular
de una media muestral
para
una
dicotmica
con
la codificacin
arriba
100, respectivamente,
obtenidas
apuna
partir
del
control
del
estudio
EURAMIC,
resultado:
la
distribucin
muestral
de
proporcin
p
se
aproxima,
al
aumentar
el
tamao
=
=
=
.
x
x
i

con media y varianza (1 - )/n,


n
n
=
1
i
respectivamente,
obtenidas
a partir
grupo control
del estudio EURAMIC,
muestral,100,
a una
distribucin normal
con media
ydel
varianza
(1 )/n,
indicada.
As,
el teorema
del lmite
puede
a la forma
particular
= 0,37. Para
cualquier
tamaoden esta
donde la
proporcin
decentral
fumadores
actuales
es aplicarse

(1 es
)= 0,37. Para
una
proporcin
cualquier
la
de fumadores
~ N actuales
Adonde
partir
deproporcin
esta notacin,
es evidente
que
muestral
es una
un tamao
caso n

,
.

variable
X
para
obtener
el
siguiente
resultado:
la
distribucin
muestral
de
de la muestra, las proporciones muestrales estn
distribuidas
alrededor
de
la
n

de
la
muestra,
las
proporciones
muestrales
estn
distribuidas
alrededor
de la arriba
particular pdeseuna
media
muestral
una
variable
dicotmica
con
la codificacin
aproxima,
al aumentar
tamao
an,una
distribucin
normal
En proporcin
consecuencia,
pueden
extraerse
laspara
siguientes
propiedades
una
proporcin
muestral:
proporcin poblacional
(ausencia
de el
sesgo).
Almuestral,
aumentarde
la distribucin
En
consecuencia,
pueden extraerse
las siguientes
propiedades
una
proporcin
yyindicada.
La
proporcin
muestral
pcentral
es
undel
estimador
insesgado
de laa de
proporcin
poblacional
; es
(ausencia
de sesgo).
Al
aumentar
la distribucin
As,
elpoblacional
teorema
lmite
puede
aplicarse
lan,forma
particular
de esta

y
varianza

(1

)/n,
con
media
muestral
de=la.proporcin de fumadores actuales presenta una menor variabilidad
decir,
E(p)
muestral:
muestral
deobtener
la proporcin
de fumadores
presenta
una
variabilidad
X para
el psiguiente
resultado:actuales
lapor
distribucin
de una
yyvariable
La varianza
muestral
de
viene
determinada
(1
)/n;muestral
as, menor
al aumentar
el tamao

y se aproxima a una distribucin normal


centrada
en
la
proporcin
poblacional
(
1

~
muestral,
las proporciones muestrales
ms .prximas
a la verdadera
proporcin
La proporcin muestral p es pun
insesgado
de la proporcin
poblacional
estimador
N estarn
,

y se aproxima
a una distribucin
centrada
poblacional
proporcin
p se aproxima,
al aumentarnormal
el
una distribucin
normal
n muestral,
poblacional.
tamao
en la aproporcin
= 0,37.

; es decir, E(p)
= muestral,
.
yy Al aumentar
tamao
la distribucin de las proporciones muestrales tiende a
= 0,37. yelvarianza
(1 - )/n,
con media
aproximarse
a
una
distribucin
normal.
Esta aproximacin
es una
suficientemente
En consecuencia, pueden extraerse las siguientes
propiedades de
proporcin precisa si
n(1 ) 5.
[Figura 4.5 ~aproximadamente
(1 ) aqu]
muestral:
p N ,
.
4.5(a),
las proporciones de fumadores
Ejemplo 4.13 En las Figuras
[Figura
4.5(b)
aproximadamente
aqu]
n presentan
y (c) se

actuales
en 1000 muestras
simples deinsesgado
tamao nde
= 10,
25 y 100, respectivamente,
La proporcin
muestralaleatorias
p es un estimador
la proporcin
poblacional
A partir
de las
propiedades
anteriores
seestudio
deduceEURAMIC,
que, para una
muestra
aleatoriadedefumadores
obtenidas
a partir
del grupo
control del
donde
la proporcin
En
pueden
extraerse
las siguientes
propiedades
demuestra
una proporcin
A consecuencia,
partir
delas
propiedades
anteriores
se deduce
que, paralasuna
aleatoria
de 24
actuales
= 0,37.
Para
tamao
n de la muestra,
proporciones
muestrales
estn
; es es
decir,
E(p)
= .cualquier
tamaodistribuidas
n, la proporcin
muestral
p
es
un
estimador
insesgado
de
la
proporcin
alrededor de la proporcin poblacional (ausencia de sesgo). Al aumentar n, la
muestral:
tamao
n, la proporcin
muestral
p es un
de la proporcin
distribucin
muestral de
la proporcin
deestimador
fumadoresinsesgado
actuales presenta
una menor variabilidad

y
su
error
estndar
viene
determinado
por
la
raz
cuadrada
de la varianza
poblacional
y se aproxima a una distribucin normal centrada en la proporcin poblacional
= 0,37.

La
proporcin
muestral
p
es
un
estimador
insesgado
de
la
proporcin
poblacional
poblacional y su error estndar viene determinado por la raz cuadrada de la varianza
muestral
dede
p, las propiedades anteriores se deduce que, para una muestra aleatoria de tamao n,
A partir
esmuestral
decir, E(p)
muestral;de
p,
la proporcin
p es=un.estimador insesgado de la proporcin poblacional y su error
estndar viene determinado por la raz cuadrada de la
varianza
muestral de p,
)
(1
24
,
SE(p) = var( p) =
n (1 )
,
SE( p) = var( p) =
n
que
que puede
puede estimarse
estimarse aa partir
partir de la propia muestra mediante p (1 p ) / n ..
que puede estimarse a partir de la propia muestra mediante p (1 p ) / n .
56

Pastor-Barriuso R.

25 24
25

Estimacin en el muestreo aleatorio simple

30
20
10
0
0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

(a) Proporcin de fumadores actuales en muestras de tamao 10

Frecuencia relativa (%)

30
20
10
0
0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

(b) Proporcin de fumadores actuales en muestras de tamao 25


30
20
10
0
0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

(c) Proporcin de fumadores actuales en muestras de tamao 100

Ejemplo 4.14 A partir de una muestra aleatoria simple de n = 100 controles del

Figura 4.5
Figura 4.5 Distribucin muestral de la proporcin de fumadores actuales en 1000
muestras aleatorias
simples de tamao n = 10 (a), 25 (b) y 100 (c) obtenidas a partir del grupo control del estudio EURAMIC. La
Ejemplo
4.14 discontinuo
A partir
una muestra
simple
de n =de
100
controles
del = 0,37.
estudioenEURAMIC,
sede
obtuvieron
k a=laaleatoria
35
fumadores
actuales.
La
estimacin
lnea vertical
trazo
corresponde
proporcin
poblacional
fumadores
actuales

estudio
se obtuvieron
k = 35
fumadores
puntual EURAMIC,
de la proporcin
de fumadores
actuales
es actuales. La estimacin
Ejemplo 4.14 A partir de una muestra aleatoria simple de n = 100 controles del estudio
EURAMIC,
se obtuvieron
k = 35 fumadores
puntual
de la proporcin
de fumadores
actuales esactuales. La estimacin puntual de la
k 35
proporcin de fumadores actuales
= 0,35,
p =es =
n 100
k 35
p= =
= 0,35,
n 100
y su error estndar es
y su error estndar es
y su error estndar es
p (1 p)
0,35(1 0,35)
SE(p) =
= 0,05,
=
n
100
0,35(1 0,35)
p (1 p)
(p) =promedio que=cabra esperar entre
= todas
0,05, las posibles muestras de
que corresponde alSE
error
100
n
tamao
100 de laalpoblacin
a estudio.
que
corresponde
error promedio
que cabra esperar entre todas las posibles

que
corresponde
al error
que cabra
esperar entre todas las posibles
muestras
de tamao
100 promedio
de la poblacin
a estudio.
Pastor-Barriuso R.

muestras de tamao 100 de la poblacin a estudio.


En este apartado se ha discutido la estimacin puntual de una proporcin poblacional

57

Principios de muestreo y estimacin

En este apartado se ha discutido la estimacin puntual de una proporcin poblacional y su


correspondiente error estndar. No obstante, no se ha hecho un uso prctico de la aproximacin
normal a la distribucin muestral de p. Esta aproximacin se retomar ms adelante para obtener
intervalos de confianza y pruebas de hiptesis sobre la proporcin poblacional (vase Tema 7).
4.4 REFERENCIAS
1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole, 2001.
3. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & Sons, 1977.
4. Kish L. Survey Sampling. New York: John Wiley & Sons, 1995.
5. Lehmann EL, Casella G. Theory of Point Estimation, Second Edition. New York: Springer
Verlag, 1998.
6. Levy PS, Lemeshow S. Sampling of Populations: Methods and Applications, Third
Edition. New York: John Wiley & Sons, 1999.
7. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
8. Serfling RJ. Approximation Theorems of Mathematical Statistics. New York: John Wiley
& Sons, 1980.
9. Silva LC. Diseo Razonado de Muestras y Captacin de Datos para la Investigacin
Sanitaria. Madrid: Daz de Santos, 2000.
10. Stuart A, Ord JK. Kendalls Advanced Theory of Statistics, Volume 1, Distribution Theory,
Sixth Edition. London: Edward Arnold, 1994.

58

Pastor-Barriuso R.

TEMA 5
INFERENCIA ESTADSTICA
5.1INTRODUCCIN
La teora del muestreo aporta diversos mtodos formales para seleccionar muestras a partir de
una determinada poblacin. La informacin obtenida de dichas muestras puede resumirse
utilizando tcnicas de estadstica descriptiva. Sin embargo, cuando se trabaja con una muestra,
rara vez nos interesa la muestra como tal, sino que sta interesa por su capacidad para aportar
informacin con respecto a otros sujetos o a otras situaciones.
En los estudios descriptivos, el inters radica en seleccionar una muestra representativa de la
poblacin de referencia, o dicho ms concretamente, la muestra ha de presentar el mismo grado
de diversidad que la poblacin respecto al parmetro o caracterstica objeto de estudio. Las
tcnicas de muestreo probabilstico descritas en el tema anterior facilitan muestras que sern
muy probablemente representativas de la poblacin si el tamao muestral es suficientemente
grande. De esta forma, los resultados de la muestra podrn inferirse a toda poblacin con un
grado razonable de certidumbre.
Ejemplo 5.1 En las Encuestas Nacionales de Salud, se obtiene informacin de una muestra
representativa a nivel provincial o nacional. Esta muestra interesa por la informacin que
aporta sobre toda la poblacin. En este caso, la representatividad de la muestra es determinante
para la validez de las conclusiones derivadas del proceso inferencial.
En los estudios epidemiolgicos analticos, los resultados son interesantes porque pueden
aplicarse a situaciones de salud semejantes. En este caso, el objetivo principal del diseo es asegurar
la comparabilidad o semejanza de los grupos de estudio, ms que la representatividad poblacional
de la muestra. En los ensayos clnicos randomizados, los sujetos se asignan a los distintos grupos
de tratamiento mediante algn mecanismo aleatorio (por ejemplo, mediante un muestreo aleatorio
simple). As, si el tamao muestral es grande, las caractersticas basales de los sujetos asignados a
los distintos grupos sern muy similares. En consecuencia, las diferencias observadas entre estos
grupos a lo largo del seguimiento podrn atribuirse al tratamiento objeto de estudio.
Ejemplo 5.2 El primer ensayo clnico publicado sobre el papel de la aspirina en la
prevencin primaria de enfermedades cardiovasculares se realiz en mdicos americanos
participantes en el Physicians Health Study, seleccionados adems por otras
caractersticas de salud. En este caso, los sujetos a estudio no son representativos de la
poblacin a la que se aplicarn posteriormente los resultados (poblacin general de
hombres adultos a riesgo de padecer un primer evento cardiovascular), pero en cambio se
garantiz la comparabilidad de las personas que tomaban aspirina y quienes no la tomaban
mediante la asignacin aleatoria del tratamiento y el uso de la tcnica del doble ciego
(tanto el investigador como el paciente desconocan el tratamiento asignado).
La estadstica inferencial aporta las tcnicas necesarias para extraer conclusiones sobre el
valor poblacional de un determinado parmetro a partir de la evaluacin de una nica muestra.
Pastor-Barriuso R.

59

Inferencia estadstica

Como se discuti en el tema anterior, las conclusiones derivadas de este proceso inferencial
siempre estarn sujetas a error como consecuencia de la variabilidad aleatoria inherente al
propio procedimiento de seleccin muestral. Por ello, resulta necesario disponer no slo de una
estimacin puntual, sino tambin de un intervalo de confianza, que facilite un rango de valores
verosmiles para el parmetro poblacional, as como de una prueba de significacin estadstica,
que permita determinar el grado de compatibilidad de los datos muestrales con una hiptesis
predeterminada. En este tema, se revisan los fundamentos y la interpretacin de las tcnicas
estadsticas de inferencia: la estimacin puntual, el intervalo de confianza y el contraste de
hiptesis. Para simplificar la exposicin, se asume que la muestra se obtiene por muestreo
aleatorio simple y que la poblacin de referencia es de tamao muy superior a la muestra.
5.2 ESTIMACIN PUNTUAL

Una forma natural de estimar muchos parmetros poblacionales consiste en utilizar el estadstico
muestral correspondiente. As, la media muestral es un estimador
puntualDE
de laTENDENCIA
media poblacional
1.2 MEDIDAS
CENTRAL
yprincipales
la proporcin
de
casos
de
una
enfermedad
en
la
muestra
es
un
estimador
puntual
de
la
1.2ha
MEDIDAS
DEunTENDENCIA
CENTRAL
propiedades estadsticas que
de satisfacer
buen estimador
muestral
probabilidad de tener la enfermedad en la poblacin. No obstante, para un determinado
Las estimadores
medidas de tendencia
central
informan acerca de c
parmetro
poblacional,
pueden contemplarse distintos
alternativos.
Algunos
cabe destacar
las siguientes:
Las
medidas
de
tendencia
central
informan
acerca
de
estimadores de la media poblacional distintos de la media muestral podran ser, por ejemplo,cul
la es el valor m
de unadedeterminada
variable
o,
dicho de forma equival
mediana,
la media
50%Un
central
de laes
muestra
o la si
media
valores
mximo
y mnimo.
Ausencia
de del
sesgo.
estimador
insesgado
suvariable
valorlos
medio
sobre
todas
las
de
una
determinada
o,
dicho
de
forma
equivalente,
En este apartado se presentan algunos criterios estadsticos que justifican la eleccin de un estos estima
alrededor de qu valor se agrupan los datos observados
determinado
a otras
posibles alternativas.
posiblesestimador
muestrasfrente
de tamao
n coincide
parmetro
La observados. Las medidas de
alrededorcon
deelqu
valor se poblacional.
agrupan los datos
Los mritos de un estimador no se juzgan por la central
estimacin
en una
muestra
de la resultante
muestra sirven
tanto
para resumir los resu
insesgadez
de
un
estimador
es
una
propiedad
deseable
ya
que
sus
estimaciones
no
concreta, sino por la distribucin de todos
losde
posibles
valores
o estimaciones
a que pueda
dar
central
la muestra
sirven
tanto para resumir
los resultados
observado
lugar; esto es, por las propiedades de su distribucin muestral.
Entre
las
principales
propiedades
realizar inferencias acerca de los parmetros poblacion
diferirn
delbuen
parmetro
poblacional.
estadsticas
quesistemticamente
ha de satisfacer un
estimador
muestral
cabede
destacar
las siguientes:
realizar
inferencias
acerca
los parmetros
poblacionales correspondi
se sobre
describen
yy Ausencia de sesgo. Un estimador es insesgado si continuacin
su valor medio
todaslos
lasprincipales
posibles estimadores d
continuacin
se
describen
los
principales
estimadores
de la tendencia ce
muestras
de Como
tamaosenprob
coincide
parmetro
poblacional.
La insesgadez
Ejemplo 5.3
en el con
temaelanterior,
la media
y la proporcin
muestralde un
variable. no diferirn sistemticamente
estimador es una propiedad deseable ya que sus estimaciones
variable.
del
poblacional.
sonparmetro
estimadores
insesgados de la media y la proporcin poblacional,
1.2.1 Media aritmtica
Ejemplo
5.3 Como
en1.2.1
el= tema
la la
media
y la proporcin
muestral son
aritmtica
respectivamente,
E( x se
) =prob
y E(p)
Media
. Sinanterior,
embargo,
varianza
muestral definida
estimadores insesgados de la media y la proporcin
respectivamente,
E( x ), =se define como l
La poblacional,
media aritmtica,
denotada por
2
2
por
y E(p)
la varianza
muestral
definida
por S(x
), /n
es
un estimador
La
media
aritmtica,
denotada
por
seque
define
como la suma de cada u
i x ya
(xi -= x.) Sin
/n esembargo,
un estimador
sesgado
de
la varianza
poblacional,
valores muestrales dividida por el nmero de observac
sesgado de la varianza poblacional, ya que
valores muestrales dividida por el nmero de observaciones realizadas.
2
n
n
n
n el2 tamao
1 por
1
1 n 2
1 muestral
y por xi el valor observado pa
2
2
E ( x i x ) = E por
E ( x i )ypor
E x el
xi x = nmuestral

xi observado para el sujeto i-sim


i =1
n i =1

n i =1 n el tamao
ni i =1valor
la media vendra dada por
n

1 n la media
1
Edada
( x i2 )por
= E ( x i2 ) vendra
+ 2 E ( x i ) E ( x j )
2
n i =1
n i =1
1 i < j n

x + x 2 + ...
1 n
=
x
xi = 1
n
n

+ xn
x + x 2 n+ ...
2
n 1
1
n
i =1
= 2 E ( x i2 ) 2 E ( x i ) E ( xxj =) x i = 1
.
n i =1
n
n i =1
n 1i < j n

n 1 2
n 1 La
n 1
( + 2 )
2 =media es2la
; medida de tendencia central ms util
n
n tendencia central ms utilizada y de ms f
La media es nla medida de
interpretacin. Corresponde al centro de gravedad de
interpretacin. Corresponde al centro de gravedad de los datos de la m
es decir, este estadstico tiende a infraestimar la varianza poblacional 2 por un
principal limitacin es que est muy influenciada por l
Pastor-Barriuso R.
principal limitacin es que est muy influenciada por los valores extrem
factor de (n 1)/n. Notar que este sesgo ser tanto mayor cuanto menor sea el
caso, puede no ser un fiel reflejo de la tendencia centra
caso, puede no ser un fiel reflejo de la tendencia central de la distribuci
tamao muestral. En consecuencia, es preferible utilizar la varianza muestral
=

60

es decir, este estadstico tiende a infraestimar la varianza poblacional por un


forma, seque
tendr
una mayor
confianza en
que
laloestimacin
resultante
de la
tambin
las distintas
estimaciones
difieran
menos se
posible
de dicho
continuacin
describen
los
principales estimadores de la t
factor de (n 1)/n. Notar que este sesgo ser tanto mayor cuanto menor sea el
Estimacin puntual
DE
TENDENCIA
CENTRAL
muestra finalmente
estar
prxima
al parmetro
parmetro,
es decir, seleccionada
que1.2
la MEDIDAS
varianza
muestral
del estimador
seapoblacional.
mnima. DePor
esta
variable.
tamao muestral. En consecuencia, es preferible utilizar la varianza muestral
ello, entre
los distintos
estimadores
insesgados
un determinado
parmetro,
es es el valor ms represe
forma,
se tendr
una mayor
confianza
que la de
estimacin
resultante
de2 lade cul
Las
medidas
deen
tendencia
central
informan
acerca
2
es decir, por
estesestadstico
la varianza
poblacional
por un factor
de
1.2.1
Media
aritmtica
= (xi - xtiende
)2/(n a1)infraestimar
como estimador
insesgado
de la varianza
definida
(n

1)/n.
Notar
que
este
sesgo
ser
tanto
mayor
cuanto
menor
sea
el
tamao
muestral.
En
conveniente
seleccionar
que
presente
una menor
varianza
(o, de
forma
muestra
finalmente
seleccionada
estar
prxima
al parmetro
poblacional.
Por 2 estos estimadores ind
deaquel
una
determinada
variable
dicho
de
forma
consecuencia, es preferible
utilizar
la varianza
muestral
definida
por
s2 =equivalente,
S(x
1) como la sum
La
mediao,aritmtica,
denotada
por
se define
i x ), /(n
poblacional,
como
estimador
insesgado
de
la
varianza
poblacional,
equivalente,
menor alrededor
error
estndar).
general,
puede
demostrase
que, si laesLas medidas de tendenc
ello,
entre losun
distintos
estimadores
un
determinado
parmetro,
de insesgados
quEn
valor
sedeagrupan
los
datos
observados.
valores
muestrales
dividida
por el nmero de observaciones
1 n
2
2
2
x. y la
varianza
muestral observados como p
distribucin seleccionar
poblacional
subyacente
es normal,
la
E(s
) = que
E lapresente
x )media
para
=varianza
conveniente
aquel
(o,
de los
forma
( xuna
i menor
central
de
muestra
sirven
tanto
resumir
muestral
y porresultados
xi el valor observado para el s
n 1 i =1 por n el tamao

los estimadores
insesgados
delos
yparmetros
2 con menor
equivalente,
un menor error
estndar).
En
general,
puede
demostrase
que,varianza.
si la
s2 son respectivamente
realizar
inferencias
acerca
de
poblacionales
correspondientes.
A
la media
vendra
dada por
yy Mnima varianza. Adems de la insesgadez
de un
estimador,
que
garantiza que
las
estimaciones
estarn centradas
alrededor
del parmetro
poblacional,
interesa
tambin que
x y la
varianza
muestral
distribucin
subyacente
es normal,
media
con
De la mismapoblacional
forma, la continuacin
proporcin
muestral
p eslaellos
estimador
insesgado
de
describen
principales
estimadores
de la que
tendencia
central de
las distintas estimaciones
difieran lo se
menos
posible de
dicho parmetro;
es decir,
la
x1 + x 2 + ... + x n
1 n
varianza
muestral del estimador sea mnima. De esta forma, se2 tendr una mayor
confianza
.
=
x4i =
2
son respectivamente
los estimadores insesgados de y con menor xvarianza.
smenor
error estndar. variable.
n
n
i =1
en que la estimacin resultante de la muestra finalmente seleccionada est prxima
al
parmetro poblacional. Por ello, entre los distintos estimadores insesgados de un
De la misma forma, la proporcin muestral p es el estimador insesgado de con
determinado
es conveniente
seleccionar
aquel
quelapresente
una
menor
1.2.1
Media aritmtica
La media
medida
de es
tendencia
central ms utilizada
Ejemplo 5.4parmetro,
Para cualquier
distribucin
poblacional,
la es
media
muestral
un varianza
(o, de forma equivalente, un menor error estndar). En general, puede demostrarse que, si
menor error estndar.
la define
varianza
s2 son
laestimador
distribucin
poblacional
subyacente
es normal,
media
denotada
por
x ,yse
como
la suma
de cada uno
interpretacin.
Corresponde
al muestral
centro
de
gravedad
dede
loslos
d
insesgado
deLa
la media
media aritmtica,
poblacional
y sulaerror
estndar
es
2
respectivamente los estimadores insesgados de y con menor varianza. De la misma
valores
dividida
por
nmero
observaciones
realizadas.por
Silos
denota
forma,
la proporcin
muestral
pmuestrales
es el estimador
insesgado
de muestral
con
menor
principal
limitacin
es de
que
est
muy estndar.
influenciada
val
Ejemplo
5.4 Para cualquier
distribucin
poblacional,
laelmedia
es error
un

.
SE( x ) =
valor
observado
para
sujeto i-simo,
= 1,
por
n
el
tamao
muestral
por xla
n
i el
Ejemplo
5.4
Para
cualquier
distribucin
poblacional,
media
es un
caso,
no
ser
unmuestral
fiel reflejo
deestimador
laeltendencia
centrali de
la
estimador insesgado de la media poblacional y suypuede
error
estndar
es
insesgado de la media poblacional y su error estndar es
la media vendra dada por
En el caso de que la distribucin subyacente sea normal, puede probarse que la
SE( x ) =
. Ejemplo 1.4 En este y en los sucesivos ejemplos sobre
n la media1poblacional
n
x +yxque
mediana tambin es un estimador insesgado de
su+ x n
2 + ...
utilizarn
losx ivalores
colesterol
. HDL obtenidos en
= 1 del
x=
En el caso de que la distribucin subyacente sea normal,n puede
probarse nque la mediana
i =1
error
estndar
es
aproximadamente
En
el caso
la distribucin
subyacente
sea normal,
puedey probarse
que la
tambin
esde
unque
estimador
insesgado
de la media
poblacional
que Study
su error
es Myocardial
estudio
European
on estndar
Antioxidants,
aproximadamente
La media
es la medida
tendencia
centralyms
y de ms fcil
mediana tambin es un estimador
insesgado
de lade
media
poblacional
que utilizada
su
Breast (EURAMIC), un estudio multicntrico de c
the
SE(mediana) 1,25
.
interpretacin. Corresponde nal centro de gravedad de los datos de la muestra. S
error estndar es aproximadamente
entre 1991 y 1992 en ocho pases Europeos e Israel par
As, aunque ambos estimadores son insesgados, el error estndar de la mediana es un 25%
principal
es que
est muy
influenciada
porestimaciones
los valores extremos y, en
mayor que el de la media
muestrallimitacin
y, por tanto,
la mediana
tender
a facilitar

.
1,25
menos precisas que la media SE(mediana)
muestral.
caso, puede no ser un fiel reflejo
de la tendencia central de la distribucin.
n

yy Consistencia. Las propiedades de insesgadez y mnima varianza se refieren a la


distribucin muestral del estimador para un tamao n fijo de la muestra. La consistencia,
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestr
sin embargo, hace referencia al comportamiento del estimador al aumentar n. Se dice
5 que
un estimador es consistente si,utilizarn
al aumentar
tamaodel
decolesterol
la muestra,
la probabilidad
que
loselvalores
HDL
obtenidos endelos
10 primeros suje
el estimador difiera del verdadero parmetro poblacional se reduce progresivamente. La
consistencia es, por tanto, un requerimiento
bsico
paraon
unAntioxidants,
buen estimador
ya que bastar
estudio European
Study
Myocardial
Infarction and Canc
con aumentar el tamao muestral para obtener estimaciones arbitrariamente prximas
al
5
verdadero parmetro. Por supuesto,
la media,
la varianza
y la proporcin
muestral
son y controles rea
the Breast
(EURAMIC),
un estudio
multicntrico
de casos
estimadores consistentes de sus respectivos parmetros poblacionales.

entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto d
Ejemplo 5.5 En el Ejemplo 4.9 se evalu empricamente el comportamiento de la media
muestral de colesterol HDL en muestras de tamao n = 10, 25 y 100 obtenidas a partir
delos controles del estudio EURAMIC, donde la media poblacional del colesterol HDL
Pastor-Barriuso R.

61

Inferencia estadstica

es = 1,09 mmol/l. La proporcin de muestras con niveles medios de colesterol HDL


prximos a = 1,09 mmol/l, pongamos por ejemplo entre 1,03 y 1,15 mmol/l, aument
de un 48,7% para n = 10 a un 69,1% para n = 25 y a un 95,4% para n = 100. Este resultado
corrobora empricamente la consistencia de la media muestral como estimador de la
media poblacional: la probabilidad de obtener estimaciones prximas al verdadero nivel
medio aumenta progresivamente conforme aumenta el tamao muestral.
En los problemas de estimacin ms simples, como es el caso de una media o una proporcin
poblacional, se dispone de un estimador natural que cumple las propiedades descritas
anteriormente. En otros problemas ms complejos, como por ejemplo en la estimacin de
parmetros en modelos de regresin, la eleccin de un estimador razonable no es tan directa. En
general, existen diversos mtodos formales para obtener estimadores con buenas propiedades
estadsticas, entre los que destacan el mtodo de mxima verosimilitud, el mtodo de mnimos
cuadrados y el mtodo de los momentos. Los mtodos de mnimos cuadrados y mxima
verosimilitud se presentarn en el contexto particular de los modelos de regresin lineal (Temas
10 y 11) y logstica (Tema 12), respectivamente. No obstante, los principios generales de estos
procesos de estimacin y la evaluacin de los estimadores resultantes pueden consultarse en los
textos de estadstica matemtica referenciados al final del tema.

TENDENCIA CENTRAL

5.3 ESTIMACIN POR INTERVALO


dencia central informan acerca de cul es el valor ms representativo
Como ya se ha comentado previamente, las estimaciones puntuales obtenidas a partir de una muestra
diferirn
del equivalente,
parmetro poblacional
y, en consecuencia,
variable o, dicho
de forma
estos estimadores
indican quedar un margen de incertidumbre que se
expresa en trminos del error estndar del estimador. As, resulta natural la pretensin de disponer de
unadatos
medida
del parmetro
poblacional
que incorpore tanto la estimacin puntual como su error
or se agrupan los
observados.
Las
5.3.1
Distribucin
t demedidas
Studentde tendencia
estndar. Esta medida es el intervalo de confianza, que facilita un rango de valores dentro del cual se
encontrar
ellos
verdadero
del
conde
unconfianza
cierto grado
confianza.
a sirven tanto para
resumir
resultados
comopoblacional
para
5.3.1
Distribucin
tvalor
deobservados
Student
El
mtodo
ms
extendido
paraparmetro
el clculo
de intervalos
se de
basa
en las En este
apartado se describe detenidamente el procedimiento para la construccin de un intervalo de
confianza
para
lade
media
poblacional.
principios
bsicos del
clculo
e interpretacin
delmite
intervalos
acerca de los parmetros
poblacionales
correspondientes.
Adel
El
mtodo
ms
extendido
para muestral
elLos
clculo
de estimador.
intervalos
de
confianza
secentral
basa endel
las
propiedades
la distribucin
Por
el teorema
de confianza para otros parmetros son similares y se discutirn en los siguientes temas.
criben los principales
estimadores
dedistribucin
la
tendencia
centralaleatoria
de
propiedades
la
muestral
deluna
estimador.
Porelyteorema
varianzacentral
2, la del lmite
sabemos
que,depara
cualquier
variable
con media

5.3.1Distribucin t de Student
2,media
la
sabemos
que,depara
variable aleatoria
con media y varianza
x es aproximadamente
normal con
y
distribucin
las cualquier
medias muestrales
El mtodo ms extendido para el clculo de intervalos de confianza se basa en las propiedades
es aproximadamente
consabemos
media que,
y para
desimuestral
las
de distribucin
la
distribucin
delmuestrales
estimador.
Por
el teorema central
del
tica
2/n
el medias
tamao
muestral
esxsuficientemente
grande;normal
es lmite
decir,
varianza
2
cualquier variable aleatoria con media y varianza , la distribucin de las medias muestrales
2
, denotada por x es
, varianza
seaproximadamente
definecomo
decon
cada
uno es
de
los
normal
media
ysuficientemente
varianza 2/n si elgrande;
tamaoes
muestral
/n silaelsuma
tamao
muestral
decir, es suficientemente
2

~ N ,
grande; es decir,

ividida por el nmero de observaciones realizadas. Si denotamos


n2

~ N ,
x
n, n
estral y por xi el valor observado para el sujeto i-simo, i = 1, ...,

o, de forma equivalente, aplicando la estandarizacin de una distribucin normal


o, de forma equivalente, aplicando la estandarizacin de una distribucin normal
da por
o, de forma equivalente, aplicando la estandarizacin de una distribucin normal
x ~
N (0, 1) .

x1 + x 2 + ... + x n
1 n
.
x = xi =
x
n ~
N (0, 1) .
n i =1
n

n
Esta cantidad estandarizada depende de dos parmetros desconocidos: la media
edida de tendencia central ms utilizada y de ms fcil
62 Pastor-Barriuso
R.
Esta
cantidad
depende
de dos
media
poblacional
,estandarizada
que es el parmetro
objeto
deparmetros
inferencia, desconocidos:
y la desviacinlatpica
esponde al centro de gravedad de los datos de la muestra. Su

poblacional
denecesario
inferencia,
y laconocer
desviacin
tpica
,, que
que es
es el
unparmetro
parmetroobjeto
auxiliar
para
el error
estndar en
poblacional
es que est muy influenciada por los valores extremos y, en este

s probabilidad en los extremos (Figura 5.1). Los grados de libertad de


la estimacin de . Parece entonces lgico sustituir en la expresin anterior el valor

Estimacin por intervalo


t de Student determinan su dispersin: al aumentar los grados de
desconocido de por la desviacin tpica muestral s. Sin embargo, como s es un
uye la variabilidad y la distribucint de Student se aproxima a una
a sude
vez
unparmetros
error de muestreo,
el estadstico
( x,-que
de que conlleva
Estaestimador
cantidad estandarizada
depende
dos
desconocidos:
la media resultante
poblacional
mal estandarizada.
menor
seade
el inferencia,
tamao muestral
mayor ser
es elCuanto
parmetro
objeto
y la n,
desviacin
tpica poblacional , que es un parmetro
auxiliar
para conocer
el error
estndar en
la estimacin
de .
entonces
lgico
)/(s/necesario
n ) presentar
una mayor
imprecisin.
Puede
probarse que
la Parece
distribucin
de este
t
de
sustituir en la expresin anterior el valor desconocido de por la desviacin tpica muestral s.
Sinestadstico
embargo, ya
como
sLa
esnormal,
un estimador
deStudent
que aproximadamente
conlleva
a su vez una
un
error
dealrededor
muestreo,deel0 y de aspecto
no ser
sino tque
seguir
distribucin
distribucin
de
es una distribucin
simtrica
una mayo estadstico resultante (x )/(s/ n ) presentar una mayor imprecisin. Puede probarse que la
distribucin
de este
ya
normal,
sino que
seguir por
aproximadamente
una
conocida como
tparecido
deestadstico
Student
con
nno
- distribucin
1ser
grados
de libertad
y denotada
tn-1,
al de
una
normal
estandarizada,
aunque
menos apuntada
en el
como
t de Student
con n 1 grados de libertad y denotada por tn1,
ral es grande,s distribucin
facilitar unconocida
estimacin
precisa
de
centro y con ms probabilidad
x ~ en los extremos (Figura 5.1). Los grados de libertad de
t n 1 .
icho estadstico ser aproximadamente normal. En la Tabla 5del
s
una distribucin t de Student
n determinan su dispersin: al aumentar los grados de
entan los percentiles de la distribucint de Student para distintos
disminuye
la variabilidad
y la alrededor
distribucin
Student
separecido
aproxima a una
La distribucin tlibertad,
de Student
es una distribucin
simtrica
det0dey de
aspecto
ad.
al de una distribucin normal estandarizada, aunque menos apuntada en el centro y con ms
normal
estandarizada.
sea el tamao
n, mayor ser
probabilidad en los distribucin
extremos (Figura
5.1).
Los grados de Cuanto
libertad menor
de una distribucin
t demuestral
Student
determinan su dispersin: al aumentar los grados de libertad, disminuye la variabilidad y la
[Figura
5.1 aproximadamente
aqu]
distribucin
t de Student se aproxima
a una distribucin normal estandarizada. Cuanto menor8sea t de
el tamao muestral n, mayor ser el error de la desviacin tpica muestral s y, en consecuencia,
la distribucin t de Student
Student otorgar
otorgar una
unamayor
mayo dispersin al estadstico (x )/(s/ n ). Por el
contrario,
si
el
tamao
muestral
es
grande,
s facilitar
6 De la Tabla 5 del Apndice se obtiene que el percentil 97,5
en unauna estimacin precisa de , de tal forma
que la distribucinelde
dichomuestral
estadstico
ser aproximadamente
normal. En
la Tabla
tamao
es grande,
s facilitar un estimacin
precisa
de 5 del
Apndice
se
presentan
los
percentiles
de
la
distribucin
t
de
Student
para
distintos
grados de
n t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente
libertad.
distribucin de dicho estadstico ser aproximadamente normal. En la Tabla 5 del
303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de
Ejemplo 5.6Apndice
De la Tabla
5 del Apndice
se obtiene
que el percentil
97,5 en
unadistintos
se presentan
los percentiles
de la distribucin
t de Student
para
t decoincide
Studentcon
conel2,correspondiente
5, 10 y 30 grados de libertad es respectivamente t2;0,975 =
nes simtricas en 0, eldistribucin
percentil 2,5
4,303, t5;0,975 grados
= 2,571,
t
=
2,228 y t30;0,975 = 2,042. Por tratarse de distribuciones
de libertad.
10;0,975
simtricas
0, el=percentil
2,5 coincide
con
el correspondiente percentil 97,5 con signo
-4,303, t5;0,025
= -2,571,
t10;0,025
7,5 con signo opuesto;
es decir, en
t2;0,025
opuesto; es decir, t2;0,025 = 4,303, t5;0,025 = 2,571, t10;0,025 = 2,228 y t30;0,025 = 2,042. Por
5.1 con
aproximadamente
aqu] de libertad
tanto, elel95%
central dedelaladistribucin
t [Figura
de Student
2, 5, 10 y 30 grados
=
-2,042.
Por
95%
tdistribucin
30;0,025
simtricatanto,
alrededor
de central
0 y de aspectodistribucint de
est comprendido entre 4,303, 2,571, 2,228 y 2,042, respectivamente. As, puede
observarse
que
la comprendido
dispersin
la distribucin
nl estandarizada,
2, 5, 10 y 30 grados
demenos
libertad
est
4,303, t de Student disminuye al aumentar los
aunque
apuntada
en el deentre
grados de libertad, aproximndose a una distribucin normal estandarizada (95% de los
Ejemplo 5.6 De la Tabla 5 del Apndice se obtiene que el percentil 97,5 en una
valores
entreAs,
de1,96,
Ejemplo
228 y 2,042,
respectivamente.
puede
observarse
que la
extremos
(Figura
5.1).
Los grados
libertad
de 3.11).
distribucin t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente
de
t
de
Student
disminuye
al aumentar
losmedia
gradospoblacional
de
an la
sudistribucin
dispersin:
al
aumentar
los
grados
de
5.3.2 Intervalo de confianza
para una
t2;0,975 = 4,303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de
a distribucint de
Student
una
A partir
de se
losaproxima
resultadosa anteriores
puede construirse un intervalo de confianza para la media
poblacional. En general, la
estimacin
intervaloenlleva
de
distribucionespor
simtricas
0, elasociada
percentiluna
2,5probabilidad
coincide conoelnivel
correspondiente
uanto menor sea
el tamaodenotada
muestral
n,en
mayor
ser porcentuales por 100(1 )%, que indica la cobertura del
confianza,
trminos
parmetro poblacional. Aunque
en97,5
la prctica
se utilizan
exclusivamente
los intervalos
t5;0,025 = de
-2,571, t10;0,025
percentil
con signo
opuesto;
es decir,
t2;0,025 = -4,303,
9 casi
t de nos referiremos aqu de forma genrica al intervalo de confianza
confianza al 95% ( = 0,05),
= -2,042. la
Por
tanto, el 95%
distribucin
t de
= -2,228
y t30;0,025Utilizando
al 100(1 )% para la media
poblacional.
aproximacin
t decentral
Studentdeallaestadstico
(x )/(s/ n ), se sigue que hay una probabilidad 1 de que dicho estadstico est
Student con 2, 5, 10 y 30 grados de libertad est comprendido entre 4,303,
ar un estimacin precisa de
2,571, 2,228 y 2,042, respectivamente. As, puede observarse que la
aproximadamente normal. En la Tabla 5 del
dispersin de la distribucin t de Student disminuye al aumentar los grados de
de la distribucint de Student para distintos
Pastor-Barriuso R. 63

libertad, aproximndose a una distribucin normal estandarizada (95% de los


Inferencia estadstica
valores

entre 1,96, Ejemplo 3.11).

libertad, aproximndose a una distribucin normal estandarizada (95% de los


5.3.2 Intervalo de confianza para una media
f(x) poblacional
valores entre 1,96, Ejemplo 3.11).
A partir de los resultados anteriores puede construirse un intervalo de confianza para la

N(0, 1)
t
media
poblacional.
En general,para
la estimacin
por
intervalo lleva asociada una 30
5.3.2 Intervalo
de confianza
una media
poblacional
t10
t5
nivel de confianza
, denotada
en trminos
por 100(1
- )%,
probabilidad
A partir de loso resultados
anteriores
puede construirse
un porcentuales
intervalo de confianza
la
t2 para

que indica
la cobertura
del parmetro
poblacional.
Aunque lleva
en la asociada
prctica se
utilizan casi
media
poblacional.
En general,
la estimacin
por intervalo
una
nos referiremos
aqu
exclusivamente
los intervalos
de confianza
95%
( = 0,05),
de confianza
, denotadaalen
trminos
porcentuales
por 100(1
- de
)%,
probabilidad
o nivel

)% para
poblacional.
forma
genrica
al intervalo
de confianza
al 100(1 - Aunque
que
indica
la cobertura
del parmetro
poblacional.
enlalamedia
prctica
se utilizan casi
nos nreferiremos
de
exclusivamente
los intervalos
deStudent
confianza
al 95% ( (=x0,05),
- )/(s/
), se sigue aqu
que hay
Utilizando
la aproximacin
t de
al estadstico
)% para la media
forma
genrica al1intervalo
de dicho
confianza
al 100(1
- comprendido
estadstico
est
entrepoblacional.
los percentiles
una
probabilidad
- de que

/2 y 1 - /2
una distribucin
t de Student
con n 1( xgrados
de libertad,
denotados
- )/(s/
n ), se sigue
que hay
Utilizando
la de
aproximacin
t de Student
al estadstico
-3

-2

-1

y tn-1,1esto es,x est comprendido entre los percentiles


respectivamente
/2;estadstico
dicho
una
probabilidadpor
1 - tn-1,de/2que
Figura 5.1 Funcin de densidad
de la distribucin
t de Student con
2, 5, 10 y 30 grados de libertad,
funFiguray 5.1
1.2 MEDIDAS
DE TENDENCIA
CENTRAL
cin de densidad normal estandarizada.
/2 y 1 - /2 de una distribucin
t de Student con n 1 grados de libertad, denotados

x central informan
Las medidas
de
tendencia
acerca de cul es el valor ms representativ
P t 1/2
< t una
, / 2 y<1 /2 de
n 1,1
/ 2 = 1 .t de Student con n 1 grados
comprendido
entre los
distribucin
;
esto
es,
respectivamente
porpercentiles
tn-1,/2 y tnn-1,1/2 s
; esto es,

de libertad, denotados respectivamente


por tn1,/2
n y tn1,1/2
de forma equivalente, estos estimadores indican

de
una
determinada
variable
o,
dicho
a distribucin simtrica alrededor de 0 y de aspecto

los datos
el
alrededor
de qu valor
selaagrupan
observados. Las medidas de tendencia
x en
al estandarizada, aunque
menos se
apuntada
en
Este resultado
representa
grficamente
Figura
Por
=1
.la simetra de la
P t n 1, / 2 <
< t n 1,1 / 2 5.2.
s

central
de
la
muestra
sirven
tanto
para
resumirpuede
los resultados
observados como para
n
anterior

extremos (Figuradistribucin
5.1). Los grados
de libertad
t de Student,
tn-1,de
=
-t
y
la
expresin
rescribirse
/2
n-1,1-/2

Estecomo
selos
representa
grficamente
la Figura
5.2.parmetros
Por la simetra
de la distribucin
t de
realizar
inferenciasenacerca
de los
poblacionales
correspondientes.
A
nan su dispersin:
alresultado
aumentar
grados
de
Este
resultado
se
representa
grficamente
en
la
Figura
5.2.
Por
la
simetra
de
la
Student, tn1,/2 = tn1,1/2 y la expresin anterior puede rescribirse como
continuacin
se describen los principales estimadores de la tendencia central de una
la distribucint de Student se aproxima
a una
distribucin t de Student, tn-1,/2 = -tn-1,1-/2 y la expresin anterior puede rescribirse

x
Cuanto menor sea el tamao muestral
n, variable.
mayor
P ser
t n 1,1 / 2 <
< t n 1,1 / 2 = 1 .
como
s

t de Media aritmtica
s
s
1.2.1
=1 .
P x t n 1,1 / 2
< < x + t n 1,1 / 2
n de la desigualdad por el error
Para despejar la media poblacional,
se nmultiplica cada trmino

x muestral
despejar
media
se< multiplica
trmino
desigualdad
n )y alacontinuacin
)/(s/
(x Para
estndar
media
resultando
que la sumapor
La poblacional,
media
denotada
se
de el
cada uno de los
1 define
de. lacomo
P tse
< t n cada
naritmtica,
1resta
,1 / 2 la
1,por
1 / 2 x,,=
s

n- )% para la
media
muestrales
viene
As, elestndar
intervalo de confianza
(IC) al
y a continuacin
s 100(1
s depoblacional
xobservaciones
sedividida
resta
la por
media
muestral
, resultando
que
el nmero
realizadas. Si denotamos
ar un estimacinerror
precisa de s/ nPvalores
x t n 1,1 / 2
= 1 .
< < x + t n 1,1 / 2
n
n

determinado
pormedia
por5poblacional,
ndel
el tamao se
muestral
y porcada
xi eltrmino
valor observado
para el sujeto
i-simo, i = 1, ..., n,
despejar
multiplica
de la desigualdad
por el10
aproximadamentePara
normal.
En la Tabla
As, el intervalo de confianza (IC) al 100(1 )% para la media poblacional viene determinado por
intervalo dedistintos
confianzavendra
(IC) al 100(1por
- )% spara la media poblacional viene
de la distribucinAs,
t de el
Student
error
estndarpara
s/ n lay media
a continuacindada
se resta la media
muestral x , resultando que
x t n 1,1 / 2
,
n
determinado por
10
x + x 2 + ... + x n
1 n
.
x = xi = 1
n i =1 del intervalo)
n como de su
64 Pastor-Barriuso
R.
que depende
tanto de la estimacin puntual x (valor
s central
,
x t n 1,1 / 2
.1 aproximadamente aqu]
n
error estndar s/ n . La media es la medida de tendencia central ms utilizada y de ms fcil

Estimacin por intervalo

tn-1

1.2 MEDIDAS DE TENDENCIA CENTRAL


La distribucin tLas
de Student
distribucin
0 y es
deelaspecto
medidasesdeuna
tendencia
centralsimtrica
informanalrededor
acerca dedecul
valor ms representativo
1-
parecido al de una de
distribucin
normal variable
estandarizada,
menos
apuntadaestos
en elestimadores indican
una determinada
o, dichoaunque
de forma
equivalente,

a distribucin simtrica alrededor de 0 y de aspecto


centro y con ms probabilidad
losvalor
extremos
(Figura
grados deLas
libertad
de de tendencia
alrededor deen
qu
se agrupan
los5.1).
datosLos
observados.
medidas

al estandarizada, aunque menos apuntada en el


una distribucin t de
Student
su dispersin:
alresumir
aumentar
grados de
central
de determinan
la muestra sirven
tanto para
loslos
resultados
observados como para
/2
/2

extremos (Figura 5.1). Los grados de libertad de


libertad, disminuyerealizar
la variabilidad
y
la
distribucin
t
de
Student
se
aproxima
a
una
inferencias acerca de los parmetros poblacionales correspondientes. A
0
tn-1,/2grados de
tn-1,1-/2
nan su dispersin: al aumentar los
distribucin normalcontinuacin
estandarizada.
Cuanto menor
seax el
tamao
muestral
n,
mayor
ser central de una
se describen
los principales
estimadores
de
la
tendencia

s
la distribucint de Student se aproxima a una
n
t de
variable.
Figura 5.2
uanto menor sea el tamao muestral
n, mayor ser
Figura 5.2una
Distribucin
Student otorgar
mayo muestral del estadstico (x )/(s/ n ).
1.2.1 Media aritmtica
t de
el tamao
muestral
es media
grande,
s la
facilitar
un estimacin
decomo
que
depende
tanto
de
estimacin
puntual
(valor
central
dellaintervalo)
como
dedesulos
error
La
aritmtica,
denotada
por x ,precisa
se define
suma de cada
uno
DIDAS DE TENDENCIA CENTRAL
estndar
(x )/(s/ n .)
1.2 de
MEDIDAS
DE TENDENCIA
CENTRALnormal. En la Tabla 5 del
distribucin
dicho
estadstico
ser aproximadamente
valores
muestrales
dividida
por el nmero
observaciones
realizadas. Sieldenotamos
Los lmites
del intervalo
estn
determinados
por datosdemuestrales
y, en consecuencia,
intervalo
didas
deestimacin
tendencia central
acerca de cul es el valor ms representativo

ar un
precisainforman
de
de
confianza
variar
en
funcin
de
la
muestra
seleccionada.
El
principio
fundamental
de
la
estimacin
ApndiceLas
se presentan
percentiles
de la informan
distribucin
t de Student
para
distintos
medidas
central
acerca
de
cul es
elpara
valor
representativo
por de
nloseltendencia
tamao muestral
y por xi el
valor
observado
el ms
sujeto
i-simo, i = 1, ..., n,
por intervalo radica en que, de todas las posibles
muestras del mismo tamao de la poblacin de
determinada
variablenormal.
o, dichoEn
delaforma
equivalente,
estos estimadores indican
aproximadamente
delintervalos
el 100(1
Tabla
)% de5 los
resultantes incluir el parmetro poblacional. As, aunque
grados dereferencia,
libertad.
de
una determinada
variable
o, dicho
la media vendra
dada
por de forma equivalente, estos estimadores indican
no es posible saber si efectivamente un intervalo concreto incluye o no el parmetro desconocido, se
ordedelaqu
valor se agrupan
los datos
observados.
Las medidas de tendencia
distribucin
t deuna
Student
paradel
distintos
tendr
confianza
100(1 )% en que el nico intervalo disponible est entre aquellos que
l estudio EURAMIC.
En cada
unavalor
de las
alrededor
de qu
se agrupan los datos observados.
Las medidas de tendencia
n
+ un
x n intervalo hace referencia a
contienen dicho parmetro.
En
otras
palabras,1el nivel
dexconfianza
[Figura
5.1
aproximadamente
aqu]
1 + x 2 + ...de
de la muestra sirven tanto para resumir los resultados observados
para
.
=
x = x i como
la frecuencia con la cual el mtodo producenintervalos
certeros
y no a la probabilidad de que el
n observados
mo
i =1 los resultados
central de la muestra sirven tanto para resumir
como para
intervalo obtenido en una muestra concreta incluya el parmetro poblacional.
inferencias acerca de los parmetros poblacionales correspondientes. A
obtenidas
a partir
de los
controles
del estudio
EURAMIC.
En cada una de
realizar
inferencias
acerca
de
los
parmetros
poblacionales
correspondientes.
A las
.1
aqu]
Ejemplo
5.6
De La
la5.7
Tabla
5
del
Apndice
se
obtiene
que
el
percentil
97,5
en
una
s aproximadamente
s Ejemplo
media
es
la
medida
de
tendencia
central
ms
utilizada
y
de
ms
fcil
En la Figura
se presentan
los IC
al 95% para la media poblacional
del
= xsedescriben
2,262 los, principales estimadores
acin
de 5.3
la tendencia
central
de una
10
10
colesterol
HDL
en
100
muestras
aleatorias
de
tamao
n
=
10
obtenidas
a
partir
de
los
muestras,
el
IC
al
95%
se
calcul
como
continuacin
se describen
los5,principales
estimadores
de laestendencia
central
de
una
distribucin
tinterpretacin.
de Student
conCorresponde
2,
10 y 30algrados
dede
libertad
respectivamente
centro
gravedad
de
los
datos
de
la
muestra.
Su
controles del estudio EURAMIC. En cada una de las muestras, el IC al 95% se calcul como
.
Apndice
que tpicas
el percentil
97,5 en
una = 2,228 sy t
variable.
s medias ysedesviaciones
muestrales.
t5;0,975
=limitacin
2,571,
t10;0,975
= 2,042.sPor tratarse de
tobtiene
2;0,975 = 4,303,
principal
es
muy30;0,975
x que
t 9;0est
=influenciada
x 2,262 por, los valores extremos y, en este
, 975
edia aritmtica
10
10
5, 10 y 30 grados
de libertad
es respectivamente
simtricas
en 0,
2,5 de
coincide
con el central
correspondiente
x 1.2.1
= 1,20
y scaso,
= aritmtica
0,30,
de tal
tra se obtuvodistribuciones
puede
no
serelunpercentil
fiel reflejo
la tendencia
de la distribucin.
Media
donde
s son
las correspondientes
medias
desviaciones
a aritmtica, denotada
por x y, se
define
como la suma de
cada yuno
de los tpicas muestrales. As, por ejemplo,
= 2,228
y t30;0,975
= 2,042.
Por
tratarse
de
x
donde
y
s
son
las
correspondientes
medias
y
tpicas
muestrales.
=
-4,303,
=de
-2,571,
testimacin
percentil
97,5
con
signo
opuesto;
es
decir,
t
2;0,025
10;0,025
a0;0,975
media poblacional
de
colesterol
HDL
en la aritmtica,
primera muestra
se obtuvo
1,20
y s =como
0,30,desviaciones
de
tal
forma
que
launo
La media
denotada
por x =
, se
define
lat5;0,025
suma
cada
de los puntual de la
Ejemplo
1.4
En esteHDL
yrealizadas.
enresult
los sucesivos
ejemplos
sobre
estimadores
muestrales, se
muestrales
dividida
por
el
nmero
de
observaciones
Si
denotamos
media
poblacional
de
colesterol
ser
1,20
mmol/l
y
su
IC
al
95%
1,20 2,2620,30/
el percentil 2,5
coincide
con
el
correspondiente
= -2,042.
Por
tanto,
elmuestra
95%
central
de puede
la xdistribucin
= -2,228
y10
tmuestrales
=afirmarse
1,20 y tsde
= 0,30,
de tal
As,
por
ejemplo,
en
la
primera
se
obtuvo
30;0,025
= (0,99;
1,41);
es
decir,
a partir
de esta
muestra
con
confianza
del 95%
valores
dividida
por
el
nmero
de
observaciones
realizadas.
Siuna
denotamos
(0,99;
1,41);
es
% 1,20 2,2620,30/
utilizarn
los
valores
del
colesterol
HDL
obtenidos
en
los
10
primeros sujetos del
quexilaelmedia
poblacional
del colesterol
HDL
se encuentra
entre
0,99 y 1,41 mmol/l.
tamao
muestral
y
por
valor
observado
para
el
sujeto
i-simo,
i
=
1,
...,
n,
= -4,303,
-2,571,
t10;0,025
o; es decir, t2;0,025
5;0,025
forma
que
puntual
de la
media
poblacional
de colesterol
Student
2, t5,
10lay=estimacin
30
grados
de
libertad
est
comprendido
entre
4,303, HDL
porconfianza
ncon
el tamao
afirmarse con una
del muestral
95% queylapor xi el valor observado para el sujeto i-simo, i = 1, ..., n,
estudio
European
Study
on
Antioxidants,
Myocardial
InfarctionPastor-Barriuso
and Cancer
R. of65
a tanto,
vendraeldada
por
95%
central
de
la
distribucin
t
de
2,571,
0,99
2,228
2,042,
respectivamente.
As, puede
result
ser
1,20
1,20 observarse
2,2620,30/que
10la= (0,99; 1,41); es
la media
vendra
dadammol/l
por y su IC al 95%
L se encuentra
entre
y y1,41
mmol/l.
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
n
+ ...Student
x1+4,303,
x 2t de
s de libertaddispersin
est comprendido
entre
+ x n disminuye al aumentar los grados de
de1la distribucin

Inferencia estadstica

En este ejemplo ilustrativo, donde se conoce el verdadero valor de la media poblacional


= 1,09 mmol/l, puede comprobarse empricamente el significado del nivel de confianza
al 95%: 94 de los 100 intervalos calculados contienen efectivamente la media poblacional,
mientras que los 6 restantes no la contienen. Un IC particular puede o no incluir el
parmetro y, por tanto, carece de sentido decir que hay una probabilidad del 95% de que
se encuentre dentro de un intervalo concreto.
La estimacin por intervalo facilita un rango de valores verosmiles o compatibles con la
media poblacional , cuya amplitud depende de:
yy El nivel de confianza 100(1 )%. Cuanto mayor sea la confianza deseada para un
intervalo, mayor ser la amplitud del mismo.

0,6

0,8

1,2

1,4

1,6

Nivel medio de colesterol HDL (mmol/l)


Figura 5.3

Figura 5.3 Estimaciones puntuales (crculos) e intervalos de confianza al 95% (lneas horizontales) para
la media poblacional del colesterol HDL en 100 muestras aleatorias de tamao n = 10 obtenidas a partir de
los controles del estudio EURAMIC. La lnea vertical en trazo discontinuo corresponde al verdadero nivel
medio = 1,09 mmol/l de colesterol HDL.
66

Pastor-Barriuso R.

El error estndar de la estimacin SE( x ) = s/ n . Cuanto mayor sea el error de la


esto es, la media
poblacional del colesterol HDL se encuentra entre 0,89 y 1,51
MEDIDAS DE TENDENCIA
CENTRAL
se calculara
como

Contraste
de hiptesis
estimacin,
ser del
la amplitud
del intervalo.
Es decir,eslams
amplitud
deque
un el
mmol/l
con unamayor
confianza
99%. Notar
que este intervalo
amplio
medidas de tendenciaEjemplo
central informan
cul
el valor
msanterior,
representativo
5.8 En la acerca
primerademuestra
ejemplo
s es del
0,30 el IC al 99% ( = 0,01)
x t 9;0aporta
= 1medida
= (0,89;
1,51);
,20 3,250
intervalo de confianza
una
de la precisin
de la
estimacin.
, 995
correspondiente
intervalo
al
95%
(0,99;
1,41).
10
10
na determinada variable
o,
dicho
de
forma
equivalente,
estos
estimadores
indican
se
calculara
Ejemplo
5.8como
En la primera muestra del ejemplo anterior, el IC al 99% ( = 0,01) se
calculara como
Ejemplo
En observados.
una
muestraLas
aleatoria
de tamao
n =encuentra
100 de los
controles
del
dedor de qu valor se agrupan
datos
medidas
de tendencia
esto
es,los
la5.9
media
poblacional
colesterol
se
entre
1,51
El error estndar de la estimacin
x ) = s/ 0HDL
n,30
. Cuanto
mayor sea
el 0,89
erroryde
la
s delSE(
x t 9;0,995
= 1,20 3,250
= (0,89; 1,51);
10
x =10del
1,09
yobservados
s = 0,31,que
resultando
un IC al
para la que
media
EURAMIC
se obtuvo
ral de la muestra sirven mmol/l
tanto para resumir
los resultados
como
para
una
confianza
99%.
estedecir,
intervalo
es 95%
ms de
amplio
el
estimacin,con
mayor
ser
la amplitud
del Notar
intervalo. Es
la amplitud
un
esto es, la media poblacional del colesterol HDL se encuentra entre 0,89 y 1,51 mmol/l
poblacional
depoblacional
izar inferencias acerca
decorrespondiente
los la
parmetros
poblacionales
correspondientes.
Ams amplio
intervalo
al
95%
(0,99;
1,41).
esto
es,
media
del
colesterol
HDL
se es
encuentra
0,89
y 1,51
con
una
confianza
del
99%.
Notar
que
este de
intervalo
que
el correspondiente
intervalo
de
confianza
aporta
una
medida
la precisin
de la entre
estimacin.
intervalo al 95% (0,99; 1,41).
tinuacin se describenmmol/l
los principales
estimadores
con una confianza
delde
99%.
Notar quecentral
este0,intervalo
3de1 una es ms amplio que el
sla tendencia
1,09x ) 1=,9s/84 n =
latla
= (1,03;
1,15).
99estimacin
;0,
97x
5
Ejemplo
El error
estimacin
SE(
mayor
sea
error
de la
yy El
error
estndar
dede
Cuanto
mayor
seael del
el
error
de la
5.9estndar
En una
muestra
aleatoria
=. Cuanto
100
de los
controles
100 de tamao n 10
able.
estimacin,
mayor
ser la amplitud
del intervalo.
correspondiente
intervalo
al 95% (0,99;
1,41). Es decir, la amplitud de un intervalo de
confianza
aporta
una medida
de
la
de la estimacin.
estimacin,
mayor
ser
amplitud
del intervalo.
Esun
decir,
amplitud
demedia
un
x = la1,09
y sprecisin
= 0,31,
resultando
IC alla95%
para la
EURAMIC
se obtuvo
As,
a
partir
de
esta
muestra
de
mayor
tamao,
se
concluye
que
la
media
1 Media aritmtica
intervalo
deEn
confianza
aporta
una
precisin
de
estimacin.
El
error
estndar
de
lamuestra
estimacin
SE(medida
xde
) =tamao
s/denla. nCuanto
mayor
sea
el error
la
Ejemplo
5.9de
una
aleatoria
= 100 de
loslacontroles
del de
EURAMIC
poblacional
poblacional
del
colesterol
HDL
se
encuentra
entre
1,03
y
1,15
mmol/l
con
un
y s =como
0,31,laresultando
un IC
al de
95%
se obtuvo
media aritmtica, denotada
por x ,=se1,09
define
suma de cada
uno
lospara la media poblacional de
estimacin, mayor ser la amplitud del intervalo. Es decir, la amplitud de un
s Este
0,31 n = ms
5.9 En
muestra
aleatoria
de tamao
100 de
los controles
nivelelde
confianza
del
95%.
es
preciso
que los del
ores muestrales dividida Ejemplo
por
nmero
Simucho
denotamos
x de
una
t observaciones
= 1realizadas.
= (1,03;
1,15).
,intervalo
09 1,984
99; 0 , 975
10
intervalo de confianza aporta100
una medida de la precisin de la estimacin.
intervalos
representados
en
laelFigura
para
muestras
tamao
= 10.la media
x
=
1,09
y s = 5.3
0,31,
resultando
unde
al 95%n para
EURAMIC
se
obtuvo
sujeto
i-simo,
i = 1, ...,
n,IC
n el tamao muestral y por xi el valor observado para
As, a partir de esta muestra de mayor tamao, se concluye que la media poblacional del
As, a partir
de esta
muestra de
mayor
tamao,
se concluye
la media
colesterol
HDL
se
encuentra
1,03de
y 1,15
mmol/l
con de
unque
nivel
de confianza
poblacional
5.9
Ende
una
muestra entre
aleatoria
tamao
n = 100
los
controles
del del 95%.
media vendra dada porEjemplo
Este
intervalo
mucho
ms preciso
quedelos
Figurapara
5.3 para
Como
se ver es
ms
adelante,
el clculo
losintervalos
intervalosrepresentados
de confianzaen
eslasimilar
poblacional
del
colesterol
HDL se encuentra entre 1,03 y 1,15 mmol/l con un
muestras
de
tamao
n
=
10.
al 95% para la media
EURAMICn se obtuvo x = 1,09 ys s = 0,31, resultando
0,31unalIC100(1
+ general,
... + el
x1xEn
xt 99
x nintervalo
1
todos los parmetros.
de
confianza
- )% para un
2 ;+
=

=
(1,03;
1,15).
1
,
09
1,984
0
,
975
.
= confianza
x de
x i = del 95%. Este intervalo

nivel
es
mucho
ms
preciso
que los
10
100
Como
se ver
n i =1ms
poblacional
de adelante,nel clculo de los intervalos de confianza es similar para todos
poblacional
se construye
como
los determinado
parmetros. parmetro
En general,
el intervalo
de confianza
al 100(1 )% para un determinado
intervalos
representados
en
la
Figura
5.3
para
muestras
de tamao n = 10.
parmetro
poblacional
seesta
construye
como
As,
a
partir
de
muestra
de
mayor
tamao,
se
concluye
que la media
La media es la medida de tendencia central ms utilizada
y de ms fcil
s
0,31
x t 99;0,975 estimador
= 1,09

=
(1,03;
1,15).
1,984
puntual x1/2 SE,
10
100
poblacional
del
colesterol
HDL
se
encuentra
entrede
1,03
y 1,15 mmol/l
conpara
un
Como
se
ver
ms
adelante,
el
clculo
de
los
confianza
es similar
rpretacin. Corresponde al centro de gravedad de los datos
deintervalos
la muestra.
Su
donde x1/2 denota el percentil 1 /2 de la distribucin muestral del estimador.
13
nivel
de confianza
delpor
95%.
Este
intervalo
essemucho
msque
preciso
que
As,
a partir
de esta
muestra
de
mayor
tamao,
concluye
media
)%
paralos
un
losest
parmetros.
En general,
el
de
confianza
al este
100(1
- la
cipal limitacintodos
es que
muy
influenciada
losintervalo
valores
extremos
y, en
5.4 CONTRASTE DE HIPTESIS
intervalos
representados
en se
la
Figura
5.3como
para
de tamao
= 10.
colesterol
HDL
seconstruye
encuentra
entremuestras
1,03 y 1,15
mmol/lncon
un
determinado
parmetro
poblacional
o, puede no ser un
fielpoblacional
reflejo
de ladel
tendencia
central
de
la
distribucin.
En ocasiones, el inters de la investigacin se centra no tanto en estimar un parmetro desconocido,
sino en
dilucidar
si dichodelparmetro
compatible
con unms
valor
predeterminado.
A partir de
nivel
de confianza
95%. Esteesintervalo
es mucho
preciso
que los
estimador
puntual
lgico,
x1/2 SE,
Como
se
ver
ms
adelante,
el
clculo
de
los
intervalos
de
confianza
es
similar
para
conocimientos
previos
o
mediante
un
razonamiento
se
pueden
elaborar
hiptesis
o
conjeturas
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
sobre intervalos
el fenmeno
o parmetroen
objeto
de estudio
(pormuestras
ejemplo,deestablecer
de que la
representados
la Figura
5.3 para
tamao nla= hiptesis
10.

)%
para
un
todos
los
parmetros.
En
general,
el
intervalo
de
confianza
al
100(1
media
de
una
poblacin
toma
un
valor
determinado).
La
validez
de
estas
hiptesis
poblacionales
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
13 ha
de ser contrastada estadsticamente a partir de la informacin disponible en la muestra. Las tcnicas
queComo
permiten
el grado
compatibilidad
de
losCancer
datos
muestrales
con una
determinado
parmetro
poblacional
se de
construye
como
se ver
ms adelante,
eldeclculo
los intervalos
de
confianza
es similar
parahiptesis
estudio European
Study
onevaluar
Antioxidants,
Myocardial
Infarction
and
of
predeterminada se conocen genricamente con el nombre de tests (pruebas o contrastes) de hiptesis.
todos los parmetros.
Enmulticntrico
general,estimador
el intervalo
dey confianza
al 100(1 - )% para un
the Breast (EURAMIC),
un estudio
de casos
controles
realizado
SE,
puntual
x
1-/2

5.4.1 Formulacin de hiptesis


poblacional
se para
construye
como
entre 1991 y determinado
1992 en ochoparmetro
pases Europeos
e Israel
evaluar
el efecto de los
Los tests de hiptesis parten del planteamiento de una hiptesis nula, denotada por H013
, que
representa el valor preestablecido
del
parmetro
poblacional.
Esta
hiptesis
nula
se
aceptar
si
estimador puntual x1-/2 SE,
5
los datos muestrales no aportan suficiente evidencia en contra de la misma. Por el contrario, si
se cuenta con pruebas suficientes para contradecir la hiptesis nula, sta se rechazar en favor
13 de la
de una hiptesis alternativa, denotada por H1, que corresponde generalmente a la negacin
Pastor-Barriuso R.

67

tratamiento;
decir,
la presin
medialade
la poblacin
tratada con el
Ejemplo
5.10esEn
un estudio
paraarterial
determinar
eficacia
de un frmaco

Inferencia estadstica

T es igual
a la medialade
la poblacin
P.deLapacientes
hiptesistratados
frmaco
antihipertensivo,
se compara
presin
arterial no
de tratada
un grupo
alternativa
sera,
el la
contrario,
que las
presiones
arteriales
medias
ambas
hiptesis
estepor
punto,
cabe
en pacientes
que el trmino
aceptar
ladehiptesis
nula no
con nula.
dichoEn
frmaco
con
de unincidir
grupo
de
tratados
con
placebo.
La
implica que dicha hiptesis sea efectivamente cierta, sino que se carece de evidencia suficiente
poblaciones
son
distintas.
eladelante,
contraste
de
hiptesis de
quedara
formulado
como
para rechazarla.
Como
se
ver As,
ms
nunca
pueden
hiptesis nula
ms
natural,
en este
caso, eslas
la hiptesis
no efecto
del ser corroboradas
completamente, quedando siempre un margen o probabilidad de error.
tratamiento; es decir, la presin arterial
de la poblacin tratada con el
H0: media
T = P,
Ejemplo 5.10 En un estudio para determinar la eficacia de un frmaco antihipertensivo,
se
compara
la presin
arterial
grupo
de pacientes
tratados
dicho frmaco con la
T es
igual a la
mediadedeunlaH
poblacin
no tratada
P. Lacon
hiptesis
frmaco
1: T P.
de un grupo de pacientes tratados con placebo. La hiptesis nula ms natural, en este caso,
es la hiptesis
del que
tratamiento;
es decir,
la presin
media de la
alternativa
sera,depornoelefecto
contrario,
las presiones
arteriales
mediasarterial
de ambas
La
hiptesis
nula
se
aceptar
a
no
ser
que
los
resultados
del
ensayo
clnico
poblacin tratada con el frmaco T es igual a la media de la poblacin no tratada P. La
hiptesis alternativa
sera, As,
por el contrario,
quehiptesis
las presiones
arteriales
medias
de ambas
poblaciones
son distintas.
contraste de
quedara
formulado
como
muestren
una
gran
diferencia
entre
los
grupos
que
resulte
poco
compatible
con
poblaciones son distintas. As, el contraste de hiptesis quedara formulado como
H0 : T = P ,
una ausencia de efecto del tratamiento.
H1 : T P .
Supongamos hipotticamente que el grupo control del estudio EURAMIC
La hiptesis nula se aceptar a no ser que los resultados del ensayo clnico muestren una
sentidos.
algunas
circunstancias,
donde
lascontrastar
desviaciones
la hiptesis
en de efecto
granEndiferencia
entre losa grupos
que
resulte
poco si
compatible
con unanula
ausencia
constituye
lanula
poblacin
estudio.
Para
la de
media
poblacional
del
La
hiptesis
se
aceptar
a
no
ser
que
los
resultados
del
ensayo
clnico
del tratamiento.
algn sentido carecen de importancia o son simplemente inconcebibles, es posible
esdiferencia
igual a unentre
determinado
valor,
pongamos
ejemplo 1con
colesterol
HDL
Supongamos
hipotticamente
que
ellosgrupo
control
del estudio
EURAMIC
constituye la
muestren
una
gran
grupos
que resulte
pocopor
compatible
poblacin a estudio. Para contrastar si la media poblacional del colesterol HDL es igual
formular un contraste unilateral, aceptando como evidencia contra H0 nicamente las
mmol/l,
el testdedeefecto
hiptesis
se formulara
como1 mmol/l, el test de hiptesis se formulara
a un ausencia
determinado
valor,
pongamos
por ejemplo
una
del
tratamiento.
como
diferencias en un sentido.
Supongamos hipotticamente que el H
grupo
control del estudio EURAMIC
0 : = 1,
H1 : 1.
constituye
la poblacin
a estudio.
Para contrastar
si la antihipertensivo,
media poblacionalsedel
Ejemplo 5.11
En el estudio
de la eficacia
del frmaco
formul
La eleccin entre ambas hiptesis depender de los resultados obtenidos en una muestra
delesestudio
igualbilateral
a EURAMIC.
un determinado
pongamos
ejemplo
colesterol
HDL
de los
controles
. En este
caso, sepor
admite
que 1la
una
hiptesis
alternativa
H1: T Pvalor,
La eleccin entre ambas hiptesis depender de los resultados obtenidos en una
elen
testcontra
de hiptesis
se
como
evidencia
de la se
hiptesis
nula puede
provenir alternativa
tanto por unbilateral;
efecto nocivo
En mmol/l,
los ejemplos
anteriores,
haformulara
planteado
una hiptesis
es decir, se
muestra de los controles del estudio EURAMIC.
aceptan como evidencia contra la hiptesis nula las diferencias en ambos sentidos. En algunas
circunstancias,
donde(las
desviaciones
de
la hiptesis
nula (en
carecen de
del mismo
T <algn
P). Sisentido
en fases
del tratamiento
T>
P) como por la
Heficacia
0: = 1,
importancia
o son anteriores,
simplemente
inconcebibles,
eshiptesis
posible formular
contraste
; esunilateral,
En los ejemplos
se ha
planteado una
alternativaunbilateral
un sentido.
aceptando
como
contraseHha
previas
del evidencia
ensayo clnico
comprobado
ausencia deenefectos
secundarios
0 nicamente
1.ladiferencias
H : las
1

decir, se aceptan como evidencia contra la hiptesis nula las diferencias en ambos
del
tratamiento,
la posibilidad
delaque
la presin
arterial media
de los tratados
sea
Ejemplo
5.11 En
el estudio de
eficacia
del frmaco
antihipertensivo,
se formul
una
La
eleccin
entre
ambas
hiptesis
depender
de
los
resultados
obtenidos
en
una
hiptesis alternativa bilateral H1: T P. En este caso, se admite que la evidencia en
sentido
y slodel
podra
superior
de los
tratados
(T > tanto
contra dea la media
hiptesis
nulanopuede
provenir
por unde
efecto
nocivo
tratamiento
P) carecera
15
muestra
de
los
controles
del
estudio
EURAMIC.
(T>P) como por la eficacia del mismo (T < P). Si en fases previas del ensayo clnico
explicarse
por variabilidad
aleatoria.
En talsecundarios
caso, cabradel
plantearse
el siguiente
se ha comprobado
la ausencia
de efectos
tratamiento,
la posibilidad de
que la presin arterial media de los tratados sea superior a la media de los no tratados
En contraste
los ejemplos
anteriores,
se ha planteado una hiptesis alternativa bilateral; es
de hiptesis
de unilateral
sentido y slo podra explicarse por variabilidad aleatoria. En tal
(T> P) carecera
caso, cabra plantearse el siguiente contraste de hiptesis unilateral
decir, se aceptan como evidencia contra la hiptesis nula las diferencias en ambos
H0 : T = P ,
H1 : T < P ,
15
donde slo se considera como alternativa a H0 la posibilidad de que el tratamiento
antihipertensivo sea eficaz.
donde slo se considera como alternativa a H0 la posibilidad de que el tratamiento
68

antihipertensivo
Pastor-Barriuso
R.

sea eficaz.

Los contrates bilaterales son ms conservadores que sus correspondientes contrates

Contraste de hiptesis

1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan acerca de cul es el va


Los contrastes
bilateralesDE
sonTENDENCIA
ms conservadores
que sus correspondientes contrastes
1.2 MEDIDAS
CENTRAL
unilaterales, dado que aquellos contemplan desviaciones de H0 en cualquier sentido. En la
de una determinada variable o, dicho de forma equivalente, estos
mayor parte de las aplicaciones
prcticas seDE
utilizan
hiptesis CENTRAL
alternativas bilaterales, ya que
1.2
MEDIDAS
TENDENCIA
Las medidas de tendencia central informan
acerca de cul es el valor ms representativo
resulta imposible excluir con absoluta certeza diferencias en alguno de los dos sentidos. As,
alrededor de qu valor se agrupan los datos observados. Las medi
todos los contrastes de hiptesis planteados a lo largo de este texto estn basados en hiptesis
de una determinada
variablede
o, tendencia
dicho de forma
estos de
estimadores
Las medidas
centralequivalente,
informan acerca
cul es el indican
valor ms represen
alternativas bilaterales.
central de la muestra sirven tanto para resumir los resultados obse
alrededor de qu
se agrupan los
datos o,
observados.
Las medidas
de tendencia
de valor
una determinada
variable
dicho de forma
equivalente,
estos estimadores indi
realizar
inferencias
acerca
de
los
parmetros
poblacionales corres
5.4.2 Contraste estadstico para la media de una poblacin
central de la muestra
sirven
tantovalor
paraseresumir
loslos
resultados
observados
como
para de tendencia
alrededor
de qu
agrupan
datos observados.
Las
medidas
En este apartado se discuten los conceptos continuacin
bsicos para se
la describen
realizacinlose principales
interpretacin
de un de la tenden
estimadores
contraste de hiptesis
bilateral
sobre
una
poblacin.
Esto
es, correspondientes.
selos
pretende
contrastar
realizar inferencias
acerca
de
los de
parmetros
poblacionales
A
central
delalamedia
muestra
sirven
tanto
para
resumir
resultados
observados
como pa
alternativa bilateral H1: 0, donde 0 es un
la hiptesis nula H0: = 0 frente a la hiptesis
variable.
valor predeterminado
de laserealizar
media
poblacional.
El contraste
de otros
as
como
continuacin
describen
los principales
estimadores
de parmetros,
la tendencia
central
delauna
inferencias
acerca
de
los parmetros
poblacionales
correspondientes.
A
comparacin de parmetros entre distintas poblaciones, se presentar en temas posteriores.
1.2.1 Media aritmtica
variable.
continuacin
se describen
los principales
estimadores
de la tendencia
La eleccin
entre las hiptesis
nula y alternativa
depender
de los resultados
obtenidos
en la central de u

el valor
muestra o, ms concretamente, de la compatibilidad
de la media
muestral
La media aritmtica,
denotada
por x ,con
se define
como la suma de
variable.
predeterminado
. Comoaritmtica
la
media muestral es un estimador sujeto a error, el objetivo es
1.2.10Media
valoresconstituye
muestralesuna
dividida
por el probable
nmero de
observaciones
realiz
determinar si laCENTRAL
variabilidad inherente al muestreo
explicacin
para
la
EDIDAS DE TENDENCIA
valorcomo
predeterminado
0 deuno
la de
media
diferencia observada
la media
muestral
La mediaentre
aritmtica,
denotada
por x ,yseeldefine
la suma de cada
los
1.2.1
Media
aritmtica
por n el de
tamao
muestral
y por xi el
valor
observado
poblacional. Para ello, se calcula la probabilidad
que bajo
la hiptesis
nula,
una
media para el sujeto
edidas de tendencia
central
acerca
de
cul
el
valor
ms
representativo
se La
rechaza
laes
hiptesis
nula
o, de observaciones
forma
se afirma
que
inferior
oinforman
igual
que
valores
muestrales
dividida
el nmero
realizadas.
Si conoce
denotamos
elpor
valor
observado
de x .,equivalente,
Esta
probabilidad
se
muestral
difiera
tanto
o ms
demedia
0 que
aritmtica,
denotada
por
se define
como
la suma
de cada uno de los
la media vendra
dada
por
como valor P del contraste de hiptesis y determina
el grado
de compatibilidad
de los datos
determinada variable
o, dicho
forma
equivalente,
indican
1, ..., n, Si denotam
los resultados
estadsticamente
significativos;
en
caso
contrario,
si
P
es
superior
arealizadas.
porde
nson
el
tamao
muestral
por estimadores
xvalor
el
valor
observado
para
el
sujeto
i-simo,
i sern
=
valores
dividida
por
el
nmero
de
observaciones
muestrales
con
la
hiptesis
nula. muestrales
Si yestos
este
P
es
elevado,
los
datos
muestrales
i
compatibles con el valor 0 de la media poblacional, careciendo as de evidencia
x1 + x 2 + ... + x n
1 n para rechazar
dor de qu valorlasehiptesis
loshiptesis
datos
observados.
Las
medidas
de
tendencia
=
x
x i =el sujeto
media
vendra
dada
por
seagrupan
aceptanula.
la
nula,
concluyendo
que
los
resultados
del
test
no
son
por
n
el
tamao
muestral
y
por
x
el
valor
observado
para
Por el contrario, si el valor P es pequeo,i la media muestralresultar
pocoi-simo, i. = 1, .
n i =1
n
compatible con el valor preestablecido 0, concluyendo entonces que los datos aportan suficiente
l de la muestra sirven
tanto
para
resumir
los
resultados
observados
como
para
estadsticamente
significativos.
la media
vendra
evidencia
para rechazar
dicha
hiptesis.
Endada
n por cuanto menor sea el valor P, menos
x + x + ... + x n
1general,
.tendencia central ms utilizada y de
x =nula.
x i = 1es la 2medida de
compatibles sern los datos con la hiptesis
La
media

n calcular la probabilidad
r inferencias acerca de
losconocer
parmetros
poblacionales
correspondientes.
A
i =1tanto necesario
Para
el valor
P del contraste
es npor
+ x 2 + ...
+ xn
x umbral
1 n de un
La decisin de rechazar la hiptesis nula se basa en la definicin
preestablecido
.
=
x
x i = 1 al centro
interpretacin.
Corresponde
de gravedad

o nivel
de
significacin
, tradicionalmente
= central
0,05. Sideeluna
valor
P es inferiorno igual
que se de los datos
uacin se describen
los
principales
estimadores
de
la
tendencia
n
=
i
1
de que las medias
de todaslalas
posibles
muestras de
tamao
nutilizada
difieran tanto
o ms
de 0
La media
medida
de tendencia
central
yson
de estadsticamente
ms
fcil
rechaza la hiptesis
nula o, es
de forma
equivalente,
se afirma
quems
los resultados
principal
eshiptesis
que est muy
significativos; en caso contrario, si P es superior
a limitacin
se acepta la
nula,influenciada
concluyendopor los valores e
le.
x
, asumiendo
que
la media
poblacional
es datos

. Bajo
que el valor
observado deCorresponde
interpretacin.
al
centro
de
gravedad
de
los
de
la
muestra.
La
media
es
la
medida
de
tendencia
central
utilizada
y de Su
ms fcil
0ms
que los resultados del test no son estadsticamente significativos.
caso, puede no ser un fiel reflejo de la tendencia central de la dist
conocer
elHvalor
P
del
contraste
es
por
tanto
calcular
la probabilidad
de
que
Media aritmtica Para
principal
limitacin
es
que
est
muy
influenciada
por
los
valores
y, en
estela muestra. Su
interpretacin.
Corresponde
al centro
de gravedad
lostal
datos
de
:

,
las
medias
muestrales
senecesario
distribuirn
alrededor
deextremos
de
hiptesis
nula
0
0
0, de
las medias de todas las posibles muestras de tamao n difieran tanto o ms de 0 que el valor
Ejemplo
1.4
En
este
endistribucin.
los
sucesivos
sobre
observado
decaso,
,,asumiendo
que
lalamedia
poblacional
es
los
la
hiptesis
nula
Hlos
= ejemplos
dia aritmtica, denotada
xsus
sedesviaciones
definenocomo
suma
de cada
uno
deest
puede
serestandarizadas
un
fiel
reflejo
deesla
tendencia
central
dey la
principal
limitacin
que
muy
influenciada
por
valores
extremos
y, estim
en e
0. Bajo
0:
0, las
forma por
que
medias muestrales se distribuirn alrededor de 0, de tal forma que sus desviaciones estandarizadas
utilizarn
del colesterol
obtenidos en los 1
s muestrales dividida por el nmero de observaciones
Si denotamos
caso, puederealizadas.
no ser un fiel
reflejolos
de valores
la tendencia
central deHDL
la distribucin.
x sucesivos
0
Ejemplo 1.4 En este y en
los
ejemplos
sobre
estimadores
muestrales,
se
t=
s
estudio
European
Study on Antioxidants, Myocardial Infar
el tamao muestral y por xi el valor observado para el sujeto i-simo,
i = 1,
..., n,
n HDL
utilizarn los valores
del1.4
colesterol
obtenidos
en ejemplos
los 10 primeros
sujetos del muestra
Ejemplo
En este
y en los
sucesivos
sobre estimadores
the Breast (EURAMIC), un estudio multicntrico de casos
ia vendra dadaseguirn
por
aproximadamente una distribucin t de Student con n 1 grados de libertad (Apartado
estudio
European
Study
on
Antioxidants,
Myocardial
Infarction
and
Cancer
of
utilizarn
los
valores
colesterol
obtenidos
en los
sujet
seguirn
aproximadamente
una distribucin
t de Student
con
nde- los
1 HDL
grados
de
libertad
5.3.1).
Una vez
calculado el valor
de este estadstico
tdel
a partir
datos
observados
en10
la primeros
entre 1991 y 1992 en ocho pases Europeos e Israel para eva
muestra, el valor
+ x 2 + ...vendr
+ x n determinado por el rea bajo la curva de la distribucin
1 n P delx1contraste
the
Breast
(EURAMIC),
un
estudio
multicntrico
de casos
y controles
realizadoand Cance
estudio
European
Study
on Antioxidants,
Myocardial
. el valor de este
=
x i = Una vez calculado
5.3.1).
estadstico
t a partir
de
los
datos Infarction
tn1 (Apartado
parax aquellos
n i =1 valores tanto
n o ms distantes de 0 que el valor observado de t (esto es,
desviaciones de 0 mayores o iguales que la observada en cualquiera de los dos sentidos). En la
1991 el
y 1992
en
ocho
pases Europeos
eestudio
Israel para
evaluar
elde
efecto
los
the Breast
(EURAMIC),
un
multicntrico
casosde
y controles
real
observados
en laentre
muestra,
valor
Peldel
contraste
vendr
determinado
por
elderea
bajo
Figura
5.4 se representa
grficamente
clculo
del valor
P para
este contraste
hiptesis.
media es la medida de tendencia central ms utilizada y de ms fcil
entreaquellos
1991 y 1992
en tanto
ocho opases
Europeosde
e Israel
valores
ms distantes
0 que para
el evaluar el efecto de
la curva de la distribucin tn-1 para
5
Pastor-Barriuso R. 69
etacin. Corresponde al centro de gravedad de los datos de la muestra. Su
valor observado de t (esto es, desviaciones de 0 mayores o iguales que la observada en
pal limitacin es que est muy influenciada por los valores extremos y, en este

Inferencia estadstica

Distribuci n de t =

x 0
bajo H 0 : = 0
s
n

tn-1

1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan


acerca de cul es el valor ms representativo
P/2
P/2

de una determinada variable o, dicho de forma equivalente, estos estimadores indican


-t

alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia


(valor observado)
MEDIDAS DE TENDENCIA CENTRAL
central de la muestra
tanto
para elresumir
losbilateral
resultados
para
Figura sirven
5.4 Valor
P para
contraste
de la observados
media de unacomo
poblacin.

Figura 5.4

medidas de tendencia central informan acerca de cul es el valor ms representativo


: = 1,
H0correspondientes.
realizar inferencias acerca de los parmetros poblacionales
A
Ejemplo 5.12 Supongamos que se pretende contrastar si la media poblacional del
na determinada variable o, dicho de forma equivalente, estos estimadores indican
colesterol
HDL en los
controles del
EURAMIC
es igualdea una
1 mmol/l mediante el test de
: 1. central
H
continuacin se describen
los principales
estimadores
de la
1tendencia
hiptesis bilateral
edor de qu valor se agrupan los datos observados. Las medidas de tendencia
variable.
Para ello, se obtiene una muestra de H
tamao
n = 10 donde la media y desviacin
0 : = 1,
al de la muestra sirven tanto para resumir los resultados observados
H1 : 1. como para
1.2.1 Media aritmtica
tpica resultaron ser x = 1,20 y s = 0,30 mmol/l. A partir de estos datos se calcula
zar inferencias acercaPara
de los
parmetros
poblacionales
ello,
se obtiene
una muestracorrespondientes.
de tamao n = 10Adonde la media y desviacin tpica
ser del
ys=
0,30lammol/l.
A cada
partiruno
de estos
La media aritmtica, resultaron
denotada
por
x ,=contraste
se1,20
define
como
suma de
de losdatos se calcula el estadstico
el
estadstico
Para
ello, se obtiene
una muestra
de tamaocentral
n = 10 de
donde
nuacin se describen del
los contraste
principales
estimadores
de la tendencia
una la media y desviacin
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
,20 1 A partir de estos datos se calcula
s = 00,301mmol/l.
tpica resultaron ser x = 1,20 xy
ble.
t=
= 2,11,
=
s
0,30 i-simo, i = 1, ..., n,
por n el tamao muestral y por xi el valor observado para
el sujeto
n
el estadstico del contraste
10
Media aritmtica
la media vendra dadaque
pordetermina la diferencia estandarizada (dividida por el error estndar) entre la media
x 0 cada
1 de
1,20 uno
que determina
diferencia
estandariza
(dividida
porlos
el error estndar) entre la
muestral
ella
valor
predeterminado
edia aritmtica, denotada
por x ,yse
define
como
= 2,11,muestral de este estadstico bajo
t =la suma de
=0. La distribucin
n H : = 1 seguir
s
0,30
una t de Student con 9 grados de
la hiptesis 1nula
0 x1 + x 2 + ... + xaproximadamente
n
n
.
=
=
x
x
10
x
media
muestral
y
el
valor
predeterminado

.
La
distribucin
este
i observaciones
es muestrales dividida
por el (n
nmero
Si
denotamos
0 nula
libertad
n1
= de
10
1 = 9). nAs, sirealizadas.
la hiptesis
fuera ciertamuestral
(esto es, de
si la
verdadera
i =1
media poblacional fuera 1 mmol/l), la probabilidad de obtener una muestra de 10 sujetos
el tamao muestral ycon
poruna
xi elmedia
valor
observado
elHsujeto
i-simo,
=mmol/l
1,el...,
n,
igual
=(dividida
1 seguir
aproximadamente
una
tdesviacin
dela
estadstico
bajola
ladiferencia
hiptesispara
nula
de
colesterol
superior
a 1,20ipor
(mayor
o igual
que
0: o
que
determina
estandariza
error
estndar)
entre
La media es la medida
de tendencia
msoutilizada
msa fcil
la observada
por lacentral
derecha)
inferior oy de
igual
0,80 mmol/l (mayor o igual desviacin
edia vendra dada porque
la observada
izquierda)
Student
con 9 grados
devalor
libertad
(nsera
- 1 = 10 - 10.=La
9).distribucin
As, si la hiptesis
nula
fuera
xpor
media
muestral
y ella
predeterminado
muestral
de este
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
cierta (esto
es, sixla +verdadera
1 mmol/l), la probabilidad
+ media
x 2 + ... nula
x n H0: poblacional
1 n bajo
= 1 seguirfuera
aproximadamente una t de
estadstico
la1 hiptesis
principal limitacin es que
muy
influenciada
por
los
valores
extremos
y,
en este
.
=
x =est
x

i
n
n
70 Pastor-Barriuso
R.
=
i
1
de obtener una muestra de 10 sujetos con una media de colesterol superior o igual
con de
9 grados
de libertad
(n de
- 1la= distribucin.
10 - 1 = 9). As, si la hiptesis nula fuera
caso, puede no ser unStudent
fiel reflejo
la tendencia
central
1,20
mmol/l (mayorms
o igual
desviacin
quefcil
la observada por la derecha) o
a media es la medida ade
tendencia
utilizada
y de
ms
cierta
(esto es,central
si la verdadera
media
poblacional
fuera 1 mmol/l), la probabilidad

a 1,20 mmol/l (mayor o igual desviacin que la observada por la derecha) o


inferior o igual a 0,80 mmol/l (mayor o igual desviacin que la observada por la

Contraste de hiptesis

izquierda) sera
P = P( x 1,20 | H0 ) + P( x 0,80 | H0 )

x 0 1,20 0

x 0 0,80 0

= P

H 0 + P

H0
s
s
s

n
n
n
n

P(t9 2,11) + P(t9 2,11) = 2P(t9 2,11) = 0,064,

que corresponde al rea bajo la curva de la distribucin t9 para valores superiores a 2,11
(valor observado del estadstico) o inferiores a 2,11. Notar que el valor exacto de P se
que
corresponde
rea bajo laNo
curva
de la distribucin
t9 para
ha obtenido
por alordenador.
obstante,
utilizando la
Tablavalores
5 del superiores
Apndice, puede
S DE TENDENCIAcomprobarse
CENTRAL que el estadstico t = 2,11 est comprendido entre los percentiles t9;0,95 =
a1,833
2,11 y(valor
estadstico)
o inferiores
a -2,11.
Notar
queel2,11)
valor< 0,05, que
t9;0,975 observado
= 2,262, dedel
lo cual
se deduce
la desigualdad
0,025
< P(t
9
equivaleacerca
a un valor
P bilateral
comprendido
entre 0,05 < P < 0,10.
e tendencia central informan
de cul
es el valor
ms representativo
exacto de P se ha obtenido por ordenador. No obstante, utilizando la Tabla 5 del
Si se adopta el nivel de significacin = 0,05 como regla de decisin, los resultados de
inada variable o, dicho
demuestra
forma equivalente,
estos estimadores
indican
1.2 MEDIDAS
DE
TENDENCIA
CENTRAL
esta
no aportan
suficiente
evidencia
para rechazar
la hiptesis nula (P = 0,064 >
0,05), concluyendo que la verdadera media poblacional del colesterol HDL no19resulta
u valor se agrupan los
datos observados.
Las medidas
de tendencia
significativamente
distinta
de 1demmol/l.
Las
medidas
tendencia central informan acerca de cul es el valor ms representativ

muestra sirven tantoElpara


resumir
los resultados
observados
como para
valor
P determina
la significacin
estadstica
deo,losdicho
resultados
de un
contraste de
hiptesis,
de
una determinada
variable
de forma
equivalente,
estos
estimadores indican
y depende tanto de la magnitud de la diferencia entre el verdadero valor del parmetro y su
ncias acerca de valor
los parmetros
poblacionales
Amuestral. As, una pequea diferencia puede
como
delvalor
tamao
predeterminado
bajo
H0,correspondientes.
alrededor
de qu
se agrupan
los datos observados. Las medidas de tendencia
resultar estadsticamente significativa si el tamao muestral es suficientemente grande y, por el
e describen loscontrario,
principales
estimadores
la tendencia
de una
:
Supongamos
sedeplantea
mismo
contraste
bilateral
de laestadstica
hiptesis
nula
una
granque
diferencia
puede
nocentral
alcanzar
significacin
si laHmuestra
es como para
0observados
central
de
laelmuestra
sirvenlatanto
para resumir
los resultados
insuficiente. En consecuencia, el valor P no debe interpretarse como una medida de la magnitud
de la diferencia
asociacin
objeto
estudio.
1,09 mmol/l y correspondientes. A
= 1 a partiro de
unarealizar
muestra
de de
tamao
n = 100
media x = poblacionales
inferencias
acerca
de con
los parmetros

Ejemplo 5.13
ejemplo
anterior
se observ
diferencia
HDL
desviacin
tpicaEn
s =el0,31
mmol/l.
El estadstico
del una
contraste
es en eldecolesterol
continuacin
se
describen
los principales
estimadores
la tendencia
central de una
Supongamos
que
se plantea
mismo contraste
denula
la hiptesis
nula Hy0:la media
de0,20
mmol/l
entre
el valoreldeterminado
bajo labilateral
hiptesis
0 = 1 mmol/l
mmol/l
en
una
tamao
= 10. Los
testH no
fueron
mtica, denotada por Supongamos
x ,=se1,20
define
como
laplantea
sumamuestra
deelcada
de
losn1bilateral
que variable.
se
mismo
dexresultados
la hiptesisdel
nula
x de
uno
1,09
0:
0 contraste
=
1,09
mmol/l
y
=
1
a
partir
de
una
muestra
de
tamao
n
=
100
con
media
=
2,90
=
t
=
estadsticamente significativos (P = 0,064) pero la magnitud de la diferencia podra ser
s
0,31
rales dividida por el nmero
de observaciones
realizadas.
Si denotamos
clnicamente
importante de
confirmarse
en estudios
con mayor tamao muestral.
n
x = es
1,09 mmol/l y
=
1 a partir tpica
de una1.2.1
de aritmtica
tamao
n = 10010con
Media
desviacin
s muestra
= 0,31
mmol/l.
El estadstico
delmedia
contraste
Supongamos que se plantea el mismo contraste bilateral de la hiptesis nula H0: = 1 a
o muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
partir
una
de
tamao
n El
= 100
con media
mmol/l
desviacin
tpicauno de los
desviacin
tpica
s =media
mmol/l.
estadstico
del contraste
es comoy la
La
aritmtica,
denotada
por
x ,=se1,09
define
suma de cada
y,
por de
tanto,
elmuestra
valor
P0,31
vendra
determinado
x contraste
0 1,09por
1
s=0,31 mmol/l. El estadstico
del
es
= 2,90
=
t=
ra dada por
s dividida
0,31por el nmero de observaciones realizadas. Si denotamos
valores muestrales
x 0 1,09 =12P(t 2,90) = 0,005.
P = P(t99 2,90)
99
t =+ P(t99n =-2,90) 10
= 2,90
0
,
31
s
n
+ xnnel tamao muestral
x + x 2 + ...
1
por
y por
10 xi el valor observado para el sujeto i-simo, i = 1, ..., n,
n
.
x = xi = 1
y,
determinado
por
n iUtilizando
nvalor P vendra
laelaproximacin
normal
a la distribucin
t de Student con 99 grados de
=1 por tanto,
y, por tanto, el valor
P vendra
determinado
la media
vendra
dada por por
y, por tanto, el valor P vendra determinado por
libertad, el valor
P tambin
puede
aproximarse
partirde2,90)
la Tabla
3 del Apndice
P(t99
2,90) =a2P(t
= 0,005.
P = P(t
99 2,90)
99
s la medida de tendencia central ms
utilizada
y de+ms
fcil
n
x1 + x 2 + ... + x n
1
= t 99
x2,90)

como
i =
Utilizando laPaproximacin
normal
a la
deStudent
99 grados. de libertad,
= P(t99 2,90)
+ P(t99
distribucin
-2,90) =x 2P(t
=con
0,005.
n
n 99 grados de
Corresponde al centro
de
gravedad
de
los
datos
de
la
muestra.
Su
=
i
1
Utilizando
la aproximacin
normal a laa distribucin
t de Student
con
el
valor P tambin
puede aproximarse
partir de la Tabla
3 del Apndice
como

ritmtica

extremos
2,90)
2{1
(2,90)}
0,004.
Ptambin
=valores
2P(t99normal
acin es que est muyUtilizando
influenciada
porPlos
y,
en este
aproximacin
a la
distribucin
t de=deStudent
con del
99 grados
de
libertad,
el la
valor
puede
a partir
la Tabla
Apndice
La media
es laaproximarse
medida de tendencia
central
ms3 utilizada
y de ms fcil
este caso,central
aunquedelaladiferencia
entre el valor predeterminado y la media muestral
o ser un fiel reflejo deEn
la tendencia
distribucin.
libertad,
el valor P tambin
puede aproximarse a partir de la Tabla 3 del Apndice
como
En
este caso,
aunque
la diferencia
entre
el valor
predeterminado
y la media
interpretacin.
Corresponde
al centro
de gravedad
dedel
los test
datosfueron
de la muestra. Su
result
ser sensiblemente
menor
(0,09
mmol/l),
los
resultados
como
ser
sensiblemente
menor
(0,09
mmol/l),
resultados
del Pastor-Barriuso
test
principal
limitacin
es 2{1
que
muy
por los
valores
extremos
R. 71 y, en este
-est
(2,90)}
= los
0,004.
Psobre
= 2P(t
1.4 En este y en los muestral
sucesivosresult
ejemplos
estimadores
se influenciada
99 2,90) muestrales,

fueronHDL
estadsticamente
significativos
=
0,005),
aportando
suficiente
2,90)
2{1
- (2,90)}
0,004.
P =en
2P(t
caso,
puede
no
ser un(P
fiel
reflejo
de
la=tendencia
centralevidencia
de la distribucin.
n los valores del colesterol
obtenidos
los9910
primeros
sujetos
del
En este caso, aunque la diferencia entre el valor predeterminado y la media

Inferencia estadstica

estadsticamente significativos (P = 0,005), aportando suficiente evidencia para rechazar


la hiptesis nula.
La realizacin de una prueba de hiptesis presenta la misma estructura bsica para todos los
parmetros. En general, se calcula primero un estadstico del contraste, cuyo numerador
corresponde a la diferencia entre el valor observado en la muestra y el valor esperado bajo la
hiptesis nula, y cuyo denominador representa la variabilidad o error estndar de la estimacin.
El valor P se obtiene entonces como la probabilidad de obtener un valor del estadstico tanto o
ms extremo que el observado en el estudio, asumiendo que la hiptesis nula es cierta.

El contraste de hiptesis para un determinado parmetro est relacionado con su


correspondiente intervalo de confianza. Si se contrasta la hiptesis nula H0: = 0 frente a
la hiptesis alternativa bilateral H1: 0, el resultado ser estadsticamente significativo
para un nivel = 0,05 si el IC al 95% para no incluye el valor 0. Por el contrario, este
contraste no resultar estadsticamente significativo si el IC al 95% para contiene al valor
1.2 MEDIDAS
DEcomplementaria.
TENDENCIA CENTRAL
informacin
El intervalo de
0. No obstante, ambos mtodos facilitan
confianza aporta una medida de la magnitud y precisin en la estimacin del parmetro,
aunque no facilita el valor exacto de P Las
o elmedidas
grado dedecompatibilidad
coninforman
una hiptesis
tendencia central
acercanula
de cul es el valor
de inters. El valor P s determina la compatibilidad de los datos con una determinada
hiptesis, pero no facilita una medida de
del parmetro
asociacin
objeto
de
de la
unamagnitud
determinada
variable o, odicho
de forma
equivalente,
estos esti
estudio. En general, el uso de los contrastes de hiptesis como forma exclusiva de presentar
los resultados de un estudio est siendo
ampliamente
cuestionado
enlos
la datos
actualidad.
La Las medidas
alrededor
de qu valor
se agrupan
observados.
presentacin de los resultados de un estudio ha de consistir fundamentalmente en el
estimador puntual y el intervalo de confianza,
que
con el
valor los
P deresultados
la
central de
la pueden
muestra completarse
sirven tanto para
resumir
observa
hiptesis correspondiente.
realizar inferencias acerca de los parmetros poblacionales correspon
Ejemplo 5.14 En la primera muestra de tamao n = 10 del Ejemplo 5.7 se obtuvo una
media de 1,20 mmol/l y una desviacin
tpica de
mmol/l,
tal formaestimadores
que el IC alde la tendencia
continuacin
se0,30
describen
losde
principales
95% para la media poblacional del colesterol HDL result ser (0,99; 1,41). Estos mismos
datos muestrales se emplearon en elvariable.
Ejemplo 5.12 para el contraste bilateral de la hiptesis
nula H0: = 1, obteniendo un valor P de 0,064. Ambos resultados son consistentes dado
que el IC al 95% incluye el valor preestablecido de 1 mmol/l para la hiptesis nula y, por
1.2.1 Media aritmtica
tanto, el contraste no resulta estadsticamente significativo para un nivel = 0,05.

mmol/l
En el Ejemplo 5.9, a partir de unaLamuestra
de tamao denotada
n = 100 con
media aritmtica,
por x ,=se1,09
define
comoyla suma de cada
s=0,31 mmol/l, se obtuvo un IC al 95% para la media poblacional del colesterol HDL de
valores muestrales
de observaciones
realizada
(1,03; 1,15). El correspondiente contraste
de H0: = 1dividida
frente apor
H1:elnmero
1 se realiz
en el
Ejemplo 5.13, resultando un valor P de 0,005. En este caso, el valor 1 mmol/l queda fuera
por ny,elen
tamao
muestral ylos
porresultados
xi el valor observado
para el sujeto i-
de los lmites de confianza al 95%
consecuencia,
del test son
estadsticamente significativos.
la media vendra dada por
5.4.3 Errores y potencia de un contraste de hiptesis

x + x 2 + ... + x n
1 n
.
x = xi = 1
Como se coment anteriormente, las hiptesis nunca pueden ser corroboradas
n i =1 completamente,
n
quedando siempre un margen o probabilidad de error. La eleccin entre las hiptesis nula y
alternativa conlleva a alguna de las situaciones presentadas en la Tabla 5.1. Si se acepta la
media la
es hiptesis
la medidanula
de tendencia
ms utilizada
y de ms
hiptesis nula cuando sta es cierta, o si seLarechaza
cuando lacentral
alternativa
es
cierta, se habr tomado una decisin correcta. Sin embargo, es posible cometer alguno de los
siguientes tipos de error en un contraste interpretacin.
de hiptesis: Corresponde al centro de gravedad de los datos de l

principal limitacin es que est muy influenciada por los valores extr
72

Pastor-Barriuso R.

caso, puede no ser un fiel reflejo de la tendencia central de la distribu

Contraste de hiptesis

P(error de tipo I) = P(rechazar H0 | H0 cierta)

P(error de tipo I) = P(rechazar H0 | H0 cierta)


cierta)
+ P(t tn-1,
= P(t tn-1,1/2 | H0 en
/2 | H0 cierta)
Tabla 5.1 Resultados
posibles
un contraste
dehiptesis.
==P(t
n-1,1-/2 | H0 cierta)
/2 | H0 cierta)
t
) + P(t Realidad
+t P(t ) t=n-1,/2
+ /2 = ,
P(t t
n-1

es decir, la

n-1,1-/2

n-1

n-1,/2

Decisin
H0 cierta
H1 cierta
/2 +II /2 = ,
Aceptar H0 = P(tn-1 tn-1,1-Correcto
/2) + P(tn-1 tn-1,Error
/2) =detipo
probabilidad
de
cometer
un
error
de
tipo
I
viene
determinada
de
Error de tipo I
Correcto
Rechazar H0

esantemano
decir, la probabilidad
cometer un error
tipo
I vienepara
determinada
. As,depor
ejemplo,
un test condeun
por el nivel dedesignificacin
yy El error de tipo I consiste en rechazar la hiptesis nula cuando sta es, en realidad, cierta.
Como
se significacin
coment
anteriormente,
nivel
de significacin
seunutiliza
para
clasificar
los
. As,
por
un test
con
un
antemano
por el nivel
de
=significacin
0,05, laelprobabilidad
de ejemplo,
incurrir enpara
error
de
tipo
I
nivel de
resultados obtenidos en un test como significativos si el valor P , en cuyo caso se
rechaza
la0,05;
hiptesis
ohiptesis
como
nonula
significativos
si Pse>rechazar
,
caso
se acepta
la
serde
delsignificacin
esto es,nula,
es cierta,
errneamente
si=la0,05,
la probabilidad
de sta
incurrir
en en
un cuyo
error
de tipo
I
nivel
hiptesis nula. Con esta regla de decisin, puede comprobarse a partir de la Figura 5.4 que
en un
5%
de esto
los contrastes
de hiptesis
realizados
todas
las posibles
ser
del
0,05;
la hiptesis
nula
es cierta, sobre
sta se
rechazar
errneamente
P(error
de tipoes,
I) =si P(rechazar
H
0 | H 0 cierta)
= P(t tn 1,1 /2 | H 0 cierta) + P(t tn 1 , /2 | H 0 cierta)
dellos
mismo
tamao.
enmuestras
un 5% de
contrastes
de hiptesis realizados sobre todas las posibles
EDIDAS DE TENDENCIA CENTRAL = P(tn 1 tn 1,1 /2 ) + P(t n 1 t n 1 , /2 ) = /2 + /2 = ;
muestras
delprobabilidad
mismo tamao.
es
decir, la
delos
cometer
un error
de tipo I viene
determinada
antemano por
Ejemplo
5.15 A partir de
controles
del EURAMIC
se obtienen
1000de
muestras
didas de tendencia central
informan
acerca
de
cul
es
el
valor
ms
representativo
el nivel de significacin . As, por ejemplo, para un test con un nivel de significacin
aleatorias
= 0,05, la
dey,incurrir
undeerror
I ser
del 0,05;deesto es, si la
deprobabilidad
tamao
nde= los
10
en cadaen
una
ellas,desetipo
realiza
el contraste
A
partir
controles
del
EURAMIC
obtienen
1000 muestras
determinada variable
o, dicho
de
forma
equivalente,
estimadores
indican
esEjemplo
decir,
la5.15
probabilidad
de
cometer
un
error
de tipo
I se
viene
de
hiptesis
nula
es cierta,
sta
se estos
rechazar
errneamente
en undeterminada
5% de los contrastes
de
hiptesis
sobre
posibles muestras
del mismo
hiptesisrealizados
bilateral para
la todas
medialas
poblacional
del colesterol
HDL tamao.
aleatorias
tamao
n = 10 y,
enmedidas
cada una
ellas, se realiza el contraste de
or de qu valor se agrupan
losde
datos
observados.
Las
dede
tendencia
antemano por el nivel de significacin . As, por ejemplo, para un test con un
Ejemplo 5.15 A partir de los controles del EURAMIC se obtienen 1000 muestras
= 1,09,
H0: una
de la muestra sirvenhiptesis
tanto
para
resumir
los nresultados
observados
como
para
bilateral
para
la=media
poblacional
delellas,
colesterol
HDLel contraste de hiptesis
aleatorias
de tamao
10 y, en
cada
de
se realiza

=
0,05,
la
probabilidad
de
incurrir
en un error de tipo I
nivel
de
significacin
bilateral para la media poblacional del colesterol HDL
inferencias acerca de los parmetros poblacionales correspondientes.
H1: 1,09, A
H0 : = 1,09,
ser del 0,05; esto es, si la hiptesis nula es cierta, sta se rechazar errneamente
H1 : central
1,09, de una
acin se describen los principales estimadores de la tendencia
mediante el estadstico
ejemplo
ilustrativo,de
la hiptesis
hiptesis nula
es ciertasobre
ya que
la media
poblacional
en En
un este
5% de
contrastes
realizados
todas
las posibles
mediante
ellos
estadstico
e.
x 1,09
del colesterol
HDL tamao.
en el grupo control
es efectivamente = 1,09
mediante
el estadstico
muestras
del
mismo
,
t = del EURAMIC
s
Media aritmtica
10
mmol/l. Por lo tanto, se tom la decisin correcta
de aceptar H0 en el 94,4% de las
x 1,09
donde
son
lascomo
correspondientes
medias
yde
tpicas muestrales.
En cada
ia aritmtica, denotada
por 5.15
x ,yses A
define
la suma
de
los
t =cada
,desviaciones
Ejemplo
partir
de los
controles
deluno
EURAMIC
se obtienen
1000 muestras
s bajo
I) en
restante
5,6%,
muestras
yy se
rechazo
errneamente
0 (error
scalcula
son
laselcorrespondientes
ydedesviaciones
muestrales.
donde x se
para valores
muestra,
valor
P como elHmedias
rea
latipo
curva
de el
latpicas
distribucin
t9 que
10
muestrales dividida
por
el onmero
de observaciones
Si
denotamos
tanto
ms
distantes
de
0 que
elrealizadas.
valor una
observado
de se
t, yrealiza
se decide
rechazar ladehiptesis
aleatorias
de
tamao
n
=
10
y,
en
cada
designificacin
ellas,
el contraste
= 0,05
concuerda
perfectamente
elnula
nivel
En cada
se calcula
elcon
valor
P
como
el reaenbajo
la curva
la muestras (944 de
nula
si Pmuestra,
casi
0,05.
As,
la hiptesis
se de
acept
un 94,4%
dedelas
tamao muestral ydonde
por
xi elxyvalor
observado
el (56
sujeto
i-simo,
= 1, ..., n,
1000)
en
unpara
5,6%
de medias
1000). yi desviaciones
ysesrechaz
son
las
correspondientes
tpicas muestrales.
hiptesis
bilateral
para
media
poblacional
del colesterol HDL
preestablecido
el la
contraste.
tanto o ms distantes de 0 que el valor observado de t,
distribucin t9 para valores
En este ejemplo ilustrativo, la hiptesis nula es cierta ya que la media poblacional del
a vendra dada por En cada muestra, se calcula el valor P como el rea bajo la curva de la
colesterol HDL en el grupo control del EURAMIC es efectivamente = 1,09 mmol/l. Por
y se decide rechazar la hiptesis nula
P 1,09,
0,05. As, la hiptesis nula se acept
H0:si
el 94,4%
de las muestras
y se
lo error
tanto, de
se tipo
tomIIlaconsiste
decisinencorrecta
de=
aceptar H
El
aceptar
la
hiptesis
nula
en realidad,
es
0 encuando,
n
para
valores
tanto
o
ms
distantes
de
0
que
el
valor
observado
de
t,
distribucin
t
9
+
+
...
+
x
x
x
1
rechaz errneamente
H0 (error
de tipo I) en el restante 5,6%, que concuerda casi
2
n
. de 1000) y se rechaz en un 5,6% (56 de 1000).
x =un 94,4%
x i =de1 las muestras
en
(944

H1: 1,09,
perfectamente
con
el
nivel
de
significacin
=de0,05
preestablecido
para
ciertan lai =1hiptesis alternativa.
La probabilidad
cometer
un error de
tipoelIIcontraste.
se
n
y se decide rechazar la hiptesis nula si P 0,05. As, la hiptesis nula se acept
yy El
errorpor
detipo
, II consiste en aceptar la hiptesis nula cuando, en realidad, es cierta la
denota
el estadstico
media es la medidamediante
de
tendencia
central
utilizada
de ms
fcil
en
un 94,4%
de las ms
muestras
(944y de
1000)
y se rechaz
un 5,6%
de 1000).
hiptesis
alternativa.
La probabilidad
de cometer
un error en
de tipo
II se (56
denota
por ,
24
etacin. Corresponde al centro de gravedad
los datos
la muestra.
H1 cierta) = .
P(error de tipo
II) = de
P(aceptar
H0 | Su
x 1,09
t=
,
s
al limitacin es que est muy influenciada por los valores extremos
y, en este
Pastor-Barriuso
Si la hiptesis alternativa es cierta, la probabilidad
de tomar la decisin correcta
y, R.
10
24
uede no ser un fiel reflejo de la tendencia central de la distribucin.
por tanto, rechazar la hiptesis nula se conoce como potencia del test,
donde x y s son las correspondientes medias y desviaciones tpicas muestrales.

73

1.2 MEDIDAS DE TENDENCIA CENTRAL


| H1 cierta) =DE
. TENDENCIA CENTRAL
P(error de tipo II) = P(aceptar 1.2
H0 MEDIDAS

Inferencia estadstica

Las medidas de tendencia central informan acerca de cul es el valor ms representativo


Si la hiptesis alternativa es cierta, la probabilidad
de tomar de
la decisin
Las medidas
tendenciacorrecta
central y,
informan acerca de cu
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
Sipor
la tanto,
hiptesis
alternativa
es cierta,
depotencia
tomar ladeldecisin
correcta
y, de
porforma equivalen
test,
rechazar
la hiptesis
nulalaseprobabilidad
conoce como
de una
determinada
variable
o, dicho
tanto,
rechazar
la
hiptesis
nula
se
conoce
como
potencia
del
test,
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia
H1 cierta)de qu valor se agrupan los datos observados.
Potencia = P(rechazar H0 |alrededor
central de la muestra sirven tanto para resumir los resultados observados como para
= 1 P(error de tipo
II) =de1
.
central
lamuestra
sirven tanto para resumir los resulta
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
La probabilidad de error de tipo II y la potencia de un contraste 1 no estn
realizar inferencias acerca de los parmetros poblacional
predeterminadas
de
antemano
y, como
se
comprobar
a continuacin,
de distintos

y
la
potencia
contraste
1dependen
- de
no una
estn
La
probabilidad
de
error
de
tipo
II
continuacin se describen los 2principales estimadores dede
la un
tendencia
central
factores, como el N(
nivel
significacin
, lao,desviacin
del verdadero
parmetro
0, de
/n)
si H0 es cierta
en caso contrario,
N(1,valor
2/n)del
si H
aproximadamente
1 es
continuacin se describen los principales
estimadores de
de
los datos aycontinuacin,
el tamao muestral
n.
respecto
al valor nulo
2 0, la dispersin
predeterminadas
de
antemano
y,
como
se
comprobar
dependen
2
variable.
, /n) side
H0 xesbajo
cierta
en caso contrario,
N(1, se/n)representa
si H1 es
aproximadamente
N(0muestral
laso,hiptesis
nula y alternativa
cierta. La distribucin
variable.
Supongamos, para simplificar la exposicin, que una variable aleatoria tiene media
de distintos factores, como el nivel
de significacin , la desviacin del verdadero
laspretende
hiptesis
nula y alternativa
seno
representa
cierta.
La aritmtica
distribucin
muestral
de
, xy bajo
que se
contrastar
hiptesis
nula
H0: = 0
desconocida
y5.5.
varianza
conocida
2significacin
1.2.1
, el contraste
delahiptesis
resultar
enMedia
la Figura
Para un
nivel de
frente a la hiptesis alternativa H1: = 1, donde 1

.
Por
el
teorema
central
del
lmite, se
1.2.1
0 Media aritmtica

valor
del
parmetro
respecto
al
valor
nulo
0, la dispersin de los datos y el
, ellacontraste
hiptesis
la Figura
5.5.
unelnivel
sabe
que
laaritmtica,
distribucin
dedex significacin
en
detamao
n ser
aproximadamente
N(0, 2/n)
La en
media
denotada
por
, semuestras
define como
suma
de de
cada
uno de no
losresultar
)muestral
si
estadstico
significativo
(P >Para
si H0 es cierta o, en caso contrario, N(1, 2/n) si H1 esLa
cierta.
Laaritmtica,
distribucin
muestralpor
de x ,bajo
media
denotada
se define como la
tamao muestral n.
) si elpor
estadstico
significativo
>alternativa
valores
muestrales
nmero deen
observaciones
Si denotamos
las
hiptesis
nula(Pydividida
seelrepresenta
la Figura 5.5.realizadas.
Para un nivel
de significacin ,
x (P
0 valores
el contraste de hiptesis no resultar-zsignificativo
si elmuestrales
estadsticodividida por el nmero de observacio
<> z)
1-/2 <
1-variable
/2
Supongamos, para simplificar la exposicin,
que
una
aleatoria tiene media

por n el tamao muestral y por xi el valor observado


para el sujeto i-simo, i = 1, ..., n,
x n0
<por
z1n/2el tamao muestral y por xi el valor observado para
z12 /2 <
y varianza
contrastar la hiptesis nula H0:
desconocida
la
media vendra
dada por conocida , y quese pretende
n
la media vendra dada por
de forma equivalente, si
=deo,forma
0 frente a la hiptesis alternativa H1: = 1, donde 1 0. Por el teorema central
o,
equivalente, si
x + x 2 + ... + x n
1 n
o, de forma equivalente, six = x i = 1
.
n
del lmite, se sabe que la distribucin
0 z1n i/2=1muestral
/ n < xde< nx 0 en
+ zmuestras
; tamao n serx = 1 x = x1 + x 2 + ... +
1 /2 / nde
i
n i =1
n
0 - z1-/2/ n < x < 0 + z1-/2/ n ;
Distribuci
n de x bajo
Distribuci
nyde
bajo
La
media la
eshipotes
la medida
central
ms
utilizada
dex ms
1
0
es decir,
nuladesetendencia
aceptar
enHtodas
aquellas
muestras
conHfcil
una
media x 25
La
media
es
la
medida
de tendencia central ms utiliz
2
2
N(1, /n)
N(0, /n)
es decir, la hipotes
nula se
aceptar
en
todas
aquellas
muestras
con
una
mediaSux
interpretacin.
Corresponde
al
centro
de
gravedad
de
los
datos
de
la
muestra.
comprendida en la regin 0 z1-/2/ n , que se denomina comnmente como regin
interpretacin. Corresponde al centro de gravedad de l
principal
limitacin
que est
por
los valorescomnmente
extremos y, como
en esteregin
0 muy
z1-influenciada

/
n
,
que
se
denomina
comprendida
en laesregin
de aceptacin. As, la probabilidad/2 de un error de tipo I est determinada por el rea
principal limitacin es que est muy influenciada por los
caso,
puede
no
ser
un
fiel
reflejo
de
la
tendencia
central
la est
distribucin.
determinada por el rea
de
aceptacin.
As,Hla probabilidad
de un error de tipodeI
bajo
la curva para
0 situada fuera de la regin de aceptacin (rea en gris oscuro de la
caso, puede no ser un fiel reflejo de la tendencia central
de laderegin
(realaencurva
gris oscuro
la
bajo
la curva
H0 situada fuera
aceptacin
por
el rea
bajo
para H1de
Figura
5.5),1.4
ypara
laEn
probabilidad
error
tipo
IIde
Ejemplo
este y en losdesucesivos
ejemplos
sobre
estimadores
muestrales,
se
Ejemplo 1.4 En este y en los sucesivos ejemplos so
por
reade
bajo Figura
la curva5.5).
para H1
Figura
5.5),
y ladeprobabilidad
de
error de tipo
IIen
situada
dentro
la regin
aceptacin
(rea
grisel
claro
utilizarn
los valores
del de
colesterol
HDL
obtenidos
en
los 10laprimeros
sujetos del
utilizarn los valores del colesterol HDL obtenidos
en gris claro
situada dentro de la regin de aceptacin (rea
de la Figura 5.5).
estudio European Study on Antioxidants,
Myocardial
Infarction and Cancer
of

/2
/2
[Figura 5.5 aproximadamente
aqu]
estudio European Study on Antioxidants, Myocar
the Breast (EURAMIC),[Figura
un
estudio
multicntrico
de
y controles realizado
1
aqu]
5.5 aproximadamentecasos
0
the Breast (EURAMIC), un estudio multicntrico
El balance
de un error
de tipo
I yevaluar
tipo II el
puede
observarse
entre
1991 yentre
1992las
enprobabilidades
ocho pases
Europeos
e
Israel
para
efecto
los en
0 z1 / 2 / n
0 + z1de
/ 2 / n
entre 1991IIypuede
1992 observarse
en ocho pases
Europeos e Israe
El balance
probabilidades
de undeerror
(esto es, se aumenta
la en
la Figura
5.5. entre
Si se las
reduce
la probabilidad
errordedetipo
tipoI Iytipo
5
Regin de aceptacin de H0

(esto
es,
se
aumenta
la
la
Figura
5.5.
Si
se
reduce
la
probabilidad
de
error
de
tipo
I
regin de aceptacin), aumenta la probabilidad de error de tipo II , mientras que si

Figura 5.5 Errores de tipo I y II para el contraste bilateral de la hiptesis nula H0: = 0 frenteFigura
la5.5hipque sia
regin
de aceptacin),
la probabilidad
de error
de tipo
II ,mientras
tesisaumenta,
alternativadisminuye
H1: = 1 en
una
con
varianza conocida.
.aumenta
En distribucin
la prctica,
la estrategia
habitual
es fijar
en el nivel
74

. En la prctica,
habitual es fijar
en el nivel
aumenta, disminuye
= 0,05)laeestrategia
intentar minimizar
o, deforma
equivalente,
(tpicamente

predeterminado
Pastor-Barriuso
R.

=contraste.
0,05) e intentar
o, dedeforma
equivalente,
predeterminado
(tpicamente
Para minimizar
fijo, la potencia
1 - depende
de la
maximizar la potencia
1 - del

TENDENCIA CENTRAL

0 -de
z1-cul
< x <ms
0 +
z1-variable.
/2/es n
/2/ n ;
dencia central informan acerca
el valor
representativo

Contraste de hiptesis

1.2.1 Media aritmtica


variable o, dicho de forma equivalente, estos estimadores indican

es decir, la hipotes nula se aceptar en todas aquellas muestras con una media x

es decir,
la hipotesis nula
se aceptar
todas
muestras con
una media
se define como la suma de
Laaquellas
media aritmtica,
denotada
por x ,comprendida
or se agrupan los
datos observados.
Las medidas
de en
tendencia
comprendida en la regin
regin 0 z1 /2/ n , que se denomina comnmente como regin de aceptacin. As, la
valores muestrales
dividida
el nmero
observaciones realiz
probabilidad
deresultados
un error de
tipo I est
determinada
por el rea
bajo lapor
curva
para H0 de
situada
a sirven tanto para resumir los
observados
como
para
regin de aceptacin
(rea
grisI oscuro
la Figura 5.5),
probabilidad de error
est de
determinada
poryellarea
de aceptacin.fuera
As, de
la la
probabilidad
de un error
deen
tipo
por
n
el
tamao
muestral
y
por
xi el valor observado
(rea en para el sujeto
de tipo II poblacionales
por el rea bajo
la curva para HA1 situada dentro de la regin de aceptacin
acerca de los parmetros
correspondientes.
gris claro de la Figura 5.5).
(rea en gris oscuro de la
bajo la curva para H0 situada fuera de la regin de aceptacin
la media vendra dada por
criben los principales
estimadores
tendencia central
El balance
entredelasla probabilidades
de de
ununa
error de tipo I y tipo II puede observarse en la

5.5. Si se de
reduce
deelerror
tipolaI curva
(estopara
es, se
la regin de
reade
bajo
H1aumenta
Figura 5.5), y Figura
la probabilidad
errorladeprobabilidad
tipo II por
n

x + x.
1 disminuye
aceptacin), aumenta la probabilidad de error de tipo II ; mientras que si aumenta,
2 + ... + x n
.
x = xi = 1
la estrategia
habitual
es fijar
en undenivel
predeterminado
(tpicamente
= 0,05)n
n i =1
situada dentroEn
delalaprctica,
regin de
aceptacin
(rea en
gris claro
la Figura
5.5).
e intentar minimizar o, de forma equivalente, maximizar la potencia 1 del contraste. Para
tica
fijo, la potencia 1 depende de la superposicin de las distribuciones nula y alternativa de
media
es la medida de tendencia central ms utilizada y de
est a como
su[Figura
vezladeterminada
poruno
losde
siguientes
factores:
, denotada por x ,, que
se define
suma
cada
los La
5.5 de
aproximadamente
aqu]

yy La diferencia subyacente 1 0. La potencia


para detectar
una hiptesis
alternativa
cierta de los datos
interpretacin.
Corresponde
al centro
de gravedad
ividida por el nmero de observaciones realizadas.
Si denotamos
ser tanto mayor cuanto mayor sea la diferencia entre el verdadero valor del parmetro 1 y
El balance entreellas
probabilidades
de un error
de tipo
tipo II5.6(a),
puededonde
observarse
en un incremento
valor
nulo 0. Esta situacin
se ilustra
enIlayFigura
se observa
estral y por xi el valor observado para
el sujeto i-simo, i = 1,principal
..., n, limitacin es que est muy influenciada por los valores
de la potencia como consecuencia de una mayor diferencia entre 1 y 0.
(estono
es,ser
se un
aumenta
la de la tendencia central de la dist
la por
Figura 5.5. Si se reduce la probabilidad de error de tipo
I puede
caso,
fiel reflejo
da
~ N ( , 2 / n)
H0 : x
0

~ N ( , 2 / n)
H1 : x
1

regin de aceptacin),
aumenta la probabilidad de error de tipo II , mientras que si
n

x + x 2 + ... + x n
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estim
1
.
xi = 1

n i =1
. En lan prctica, la estrategia habitual esutilizarn
fijar en
nivel del colesterol HDL obtenidos en los 1
aumenta, disminuye
loselvalores
x=

edida
de tendencia(tpicamente
central ms utilizada
ms fcil
= 0,05)y edeintentar
minimizar estudio
o, de forma
equivalente,
predeterminado
European
Study on Antioxidants, Myocardial Infar

esponde
al centro
de gravedad
los datos Para
de la
muestra.
the Breast
(EURAMIC),
fijo, laSu
potencia
de 1 -
depende de un
la estudio multicntrico de casos
maximizar
la potencia
1 - deldecontraste.
/2

/2

es que est muy influenciada por los valores extremos y, en este entre 1991 y 1992 en ocho pases Europeos e Israel para ev
0 z
/ n
0 + z
/ n

1 / 2

n fiel reflejo de la tendencia central de la distribucin.

1 / 2

(a)

~ N ( , 2 / n)
H1 : x
1

26

~ N ( , 2 / n)
H0 : x
0

n este y en los sucesivos ejemplos sobre estimadores muestrales, se

valores del colesterol HDL obtenidos en los 10 primeros sujetos del

pean Study on Antioxidants, Myocardial Infarction and Cancer of

URAMIC), un estudio multicntrico de casos y controles realizado

992 en ocho pases Europeos e Israel para evaluar el efecto de los


/2

1 0 z1 / 2 / n5

/2

0 + z1 / 2 / n

(b)

Figura 5.6 Errores de tipo I y II para una mayor diferencia 0 1 (a) y para un mayor
tamao muestral n (b).
Figura 5.6
Pastor-Barriuso R.

75

S DE TENDENCIA CENTRAL
Inferencia estadstica

superposicin
las distribuciones
nula yms
alternativa
de x , que est a su vez
e tendencia central
informan de
acerca
de cul es el valor
representativo

por los
siguientes factores:
nada variable determinada
o, dicho de forma
equivalente,
estos estimadores indican
Tabla 5.2 Porcentaje de muestras de tamao n = 10, 25 y 100 con
significativos
(P
tendencia
0,05) para
el contraste
bilateral de
los
La diferencia
subyacente
para detectar
una hiptesis
u valor se agrupan
datosresultados
observados.
Las medidas
depotencia
1 - 0. La
las hiptesis nulas H0: = 1 y 1,05 mmol/l sobre la media poblacional
del
colesterol
HDLobservados
en los cuando
controles
del estudio
EURAMIC.
uestra sirven tanto para
resumircierta
los resultados
como
para
alternativa
ser tanto
mayor
mayor
sea la diferencia
entre el
Hiptesis nula H0: = 0

ncias acerca de los parmetros


correspondientes.
1 y el valorAnulo 0. Esta situacin se ilustra en la
verdadero poblacionales
valor del parmetro
Tamao muestral (n)

0 = 1

0 = 1,05

la
10 tendencia central de una
5,0
e describen los principales
Figura estimadores
5.6(a), dondedese
observa un incremento11,2
de la potencia como
consecuencia
25
100

de una mayor diferencia entre 1 y 0.

26,9
85,7

8,0
23,0

el el
error
estndar de la
/ n . Al
Al aumentar
aumentareleltamao
tamaomuestral
muestraln,n,disminuye
disminuye
error
media muestral y, en consecuencia, la variabilidad de las distribuciones nula y alternativa de
para
nivellamuestral
de
significacin
predeterminado,
la potencia
mtica, denotada por estndar
x .,As,
se define
como
suma
de y,
cada
uno
de los
de laun
media
en consecuencia,
la variabilidad
de del
las contraste aumenta
conforme aumenta el tamao de la muestra (Figura 5.6(b)). Esta relacin puede utilizarse
ales dividida por el nmero
de observaciones
realizadas.
denotamos
tanto para
calcular
potencia
de
vez determinado
el tamao
muestral,
xSi
.contraste
As,
parauna
un nivel
de significacin

distribuciones
nula ylaalternativa
deun
como para estimar a priori el tamao muestral necesario para una determinada potencia.
valorltimo
observado
el sujeto
i-simo,
= 1, ...,enn,conforme
o muestral y por xi elpredeterminado,
Este
puntolapara
se
discutir
mayoridetalle
el Tema 9 aumenta
de determinacin
potencia
delcon
contraste
aumenta
el tamaodel tamao
muestral.
a dada por
de la muestra (Figura 5.6(b)). Esta relacin puede utilizarse tanto para calcular la
Ejemplo 5.16 A partir de los controles del EURAMIC se obtienen 1000 muestras
n
potencia
un
contraste
vez25determinado
tamao
para el contraste
+ ... + x nn una
xde+de
x 2 tamao
1 aleatorias
= 10,
y 100 y, enelcada
unamuestral,
de ellas, como
se realiza
.
x = xi = 1
de lasn hiptesis nulas H0: = 1 y 1,05 mmol/l para la media poblacional del
n i =bilateral
1
estimar
a
priori
el Para
tamao
muestral
paraeluna
determinada
potencia.
colesterol HDL.
cada
muestranecesario
y contraste,
valor
P se calcula
segn Este
los mtodos
del Apartado 5.4.2 y la hiptesis nula se rechaza si P 0,05. En la Tabla 5.2 se presenta
ltimo
puntoms
se discutir
con
detalle en significativos
el Tema 9 de determinacin
del tamaos
la medida de tendencia
central
utilizada
y demayor
ms resultados
fcil
el porcentaje
de
muestras
con
para los distintos
muestrales e hiptesis nulas.
tamao
muestral. de los datos de la muestra. Su
Corresponde al centro
de gravedad
En este caso, ambas hiptesis nulas son falsas dado que la verdadera media del colesterol
en los controles
del estudio
EURAMIC
es 1,09 mmol/l. As, los porcentajes de la
acin es que est muyHDL
influenciada
por los valores
extremos
y, en este
Tabla 5.2 representan [Figura
valores empricos
de la potenciaaqu]
de cada contraste. Para una desviacin
5.6 aproximadamente
=
1,09

1
=
0,09
mmol/l
entre
el
verdadero nivel medio de colesterol
subyacente
de

ser un fiel reflejo de la tendencia central0 de la distribucin.


HDL y el valor nulo, la potencia result ser del 11,2% para n = 10, 26,9% para n = 25 y
85,7% para n = 100. Para una desviacin de 0 = 1,09 1,05 = 0,04 mmol/l, la potencia
Ejemplo
A 5,0%
partir
de los
controles
del
EURAMIC
obtienen
muestras
1.4 En este y en los sucesivos
ejemplos
sobre
estimadores
muestrales,
se yse
se redujo5.16
a un
para
n=
10, 8,0%
para
n = 25
23,0%
para1000
n = 100.
Como puede
apreciarse, slo se alcanza una potencia aceptable para detectar una diferencia de 0,09
aleatorias
de obtenidos
tamao
n en
= muestral
10,
100100,
y, enmientras
cada una
desera
ellas,necesaria
se realizauna
el muestra mayor
n los valores del colesterol
HDL
los25
10yprimeros
sujetos
del
mmol/l
con
un tamao
de
que
para poder detectar una diferencia de 0,04 mmol/l.
y 1,05 mmol/l para la media
contraste
bilateral
de las hiptesis
nulas
0: = 1of
European Study on Antioxidants,
Myocardial
Infarction
andHCancer
Elerror
error estndar
estndar
yyEl

ritmtica

5.5 REFERENCIAS
del colesterol
HDL.yPara
cada muestra
st (EURAMIC), unpoblacional
estudio multicntrico
de casos
controles
realizadoy contraste, el valor P se

1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
calcula
segn los
mtodos
Apartado
5.4.2de
y la
91 y 1992 en ocho pases
Europeos
e Israel
paradel
evaluar
efecto
loshiptesis nula se rechaza si P
Englewood
Cliffs,
NJ: Prentice
Hall,el1977.
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole,
5
2001.
3. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.

76

Pastor-Barriuso R.

27

Referencias

4. Lehmann EL. Testing Statistical Hypotheses, Second Edition. New York: Springer Verlag,
1997.
5. Lehmann EL, Casella G. Theory of Point Estimation, Second Edition. New York: Springer
Verlag, 1998.
6. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
7. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.
8. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
9. Stuart A, Ord JK, Arnold S. Kendalls Advanced Theory of Statistics, Volume 2A, Classical
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.

Pastor-Barriuso R.

77

TEMA 6
INFERENCIA SOBRE MEDIAS
6.1INTRODUCCIN
En el presente tema se revisan las tcnicas bsicas de inferencia a partir de datos de carcter
cuantitativo. En la mayor parte de las ocasiones, la inferencia sobre variables cuantitativas se
centra en el estudio de parmetros subyacentes tales como la media y la varianza poblacional.
A partir de los datos obtenidos en muestras aleatorias y utilizando los principios de inferencia
descritos en el tema anterior, se pretende dar respuesta a los siguientes tipos de problemas:
yy La estimacin de la media y la varianza de una poblacin.
Ejemplo 6.1 Supongamos que los controles del estudio EURAMIC constituyen una
muestra representativa de la poblacin de referencia del estudio. A partir de los valores de
colesterol HDL obtenidos en los controles, cul es la estimacin y el intervalo de
confianza al 95% para la media y la varianza del colesterol HDL en la poblacin de
referencia? Son estos datos muestrales compatibles con una verdadera media poblacional
de 1 mmol/l?
yy La comparacin de medias y varianzas poblacionales a partir de dos muestras
independientes.
Ejemplo 6.2 En el estudio EURAMIC se comparan dos muestras independientes: una
muestra de casos de infarto de miocardio, recogida de las unidades de cuidados intensivos,
y una muestra independiente de controles, representativos de la poblacin de la que
proceden los casos. Cul es entonces la estimacin y el intervalo de confianza al 95%
para la diferencia en los niveles medios de colesterol HDL entre los casos de infarto y los
sujetos libres de la enfermedad? Es esta diferencia estadsticamente significativa?
En un ensayo clnico para evaluar la eficacia antihipertensiva de un nuevo medicamento,
se asignaron aleatoriamente 100 pacientes hipertensos a uno de los dos grupos de
tratamiento: un grupo que toma la medicacin a estudio y otro que toma un placebo.
Despus de 4 semanas de tratamiento, se compararon las medias de presin arterial
sistlica entre ambos grupos como medida de la eficacia de dicho medicamento. Cul es
la estimacin puntual y el intervalo de confianza al 95% para la reduccin en el nivel
medio de presin arterial sistlica? Cmo se determina si esta reduccin es efecto del
tratamiento o se debe a simple variabilidad aleatoria?
yy La comparacin de medias poblacionales a partir de dos muestras dependientes.
Ejemplo 6.3 En un estudio de casos y controles sobre el efecto del colesterol HDL en
el riesgo de desarrollar infarto de miocardio, cada caso se emparej por grupo de edad y
sexo a un control libre de la enfermedad. En este caso, las medias de colesterol HDL de
los casos y de los controles no pueden analizarse como medidas procedentes de muestras
independientes, ya que es esperable un cierto grado de correlacin entre los valores de
Pastor-Barriuso R.

79

Inferencia sobre medias

colesterol HDL en cada pareja caso-control. Cmo contrastar entonces si existe una
asociacin significativa entre el nivel de colesterol HDL y la ocurrencia de un infarto de
miocardio?
Para evaluar la eficacia de un frmaco antihipertensivo, se seleccionaron 50 pacientes
hipertensos y se administr a todos ellos dicho frmaco durante 4 semanas. La presin
arterial sistlica de cada paciente se determin tanto al comienzo del estudio como
despus de las 4 semanas de tratamiento. En tal caso, los valores medios de presin arterial
antes y despus del tratamiento no son independientes, ya que los datos recogidos en un
mismo paciente estn correlacionados. En estas circunstancias, cmo estimar la reduccin
media de presin arterial sistlica al administrar dicho tratamiento?
1.2 MEDIDAS DE TENDENCIA CENTRAL

Para cada uno de estos problemas, se facilitan las tcnicas de inferencia apropiadas para
Las medidas
de tendencia
central objeto
informan
acerca deascul es el valor
obtener estimaciones puntuales y por intervalo
del parmetro
poblacional
de estudio,
como para el contraste de hiptesis preestablecidas. Estos procedimientos van a permitir inferir
de una determinada
variable
o, dicho de forma equivalente, estos estim
los resultados del estudio al mbito poblacional
de forma clara
y sucinta.

alrededor de qu valor se agrupan los datos observados. Las medidas


6.2 INFERENCIA SOBRE UNA MEDIA Y VARIANZA POBLACIONAL
central de la muestra sirven tanto para resumir los resultados observad
La media y la varianza poblacional son parmetros que representan la tendencia central y
dispersin de la distribucin subyacente
de una
variableacerca
aleatoria.
parmetros
son
realizar
inferencias
de losEstos
parmetros
poblacionales
correspon
tpicamente desconocidos y, en consecuencia, han de ser estimados a partir de los valores
observados de dicha variable en una muestra.
En esta
seccin, selospresentan
losestimadores
mtodos dede la tendencia
continuacin
se describen
principales
estimacin y contraste para la media y la varianza de una distribucin poblacional.
variable.

6.2.1 Inferencia sobre la media de una poblacin


1.2.1 Media aritmtica
La estimacin e inferencia de una media poblacional se discuti en el tema anterior. Para
Utilizando
lasaleatoria,
propiedades
distribucin
muestral
de
la muestral
media,
obtener
La media aritmtica,
denotada
poresxposible
,es
se un
define
como la suma de cada
estimador
cualquier
variable
se de
ha lacomprobado
que
la media
insesgado y consistente de y que, en el caso de distribuciones normales, es el estimador con
un intervalo
de confianza
100(1 - valores
)% para
la media
poblacional
menor
error estndar.
Estas alcaractersticas
hacen
de la media
muestral
un buendeestimador
muestrales
dividida
porelcomo
nmero
observaciones realizada
Utilizando las propiedades de la distribucin muestral de la media, es posible obtener
puntual de la media poblacional.
por n el tamao
y por xiesel posible
valor observado
para el sujeto i-s
s muestral
Utilizando
la distribucin
muestral
de la media,
obtener un
la
media
como
un
intervalolas
de propiedades
confianza al de
100(1
- x)%
t npara
. poblacional
1,1 / 2
intervalo de confianza al 100(1 )% para la media poblacional
como
n
la media vendra dada por
s
x t n 1,1 / 2
.
alternativa
A su vez, el contraste de la hiptesis nula H0: =
n 0 frente a la hiptesis
x + x 2 + ... + x n
1 n
.
x = xi = 1
n
n
A su
vez,
el
contraste
de
la
hiptesis
nula
H
:

frente
a
la
hiptesis
alternativa
bilateral
H
:
=
i
1
0
1
bilateral H1: 0 puede realizarse mediante
el0 estadstico
realizarse
el estadstico
A0supuede
vez, el
contrastemediante
de la hiptesis
nula H0: = 0 frente a la hiptesis alternativa

80

Laxmedia
es la medida de tendencia central ms utilizada y de ms
el0 estadstico
bilateral H1: 0 puede realizarse mediante
t=
.
s
interpretacin.
Corresponde al centro de gravedad de los datos de la
n
x 0
t = aproximadamente
.
Bajo la hiptesis nula, este estadstico seguir
una distribucin t de Student
principal
s limitacin es que est muy influenciada por los valores extre
Bajo
la
hiptesis
nula,
este
estadstico
seguir
aproximadamente
una puede
distribucin
t de como
con n 1 grados de libertad y, en consecuencia, elnvalor P del contraste
calcularse
el rea bajo la curva de esta distribucincaso,
para aquellos
tanto
o msdedistantes
de 0 que
el de la distribu
puede novalores
ser un fiel
reflejo
la tendencia
central
Student
con
n
1
grados
de
libertad
y,
en
consecuencia,
el
valor
P
del
contraste
puede
valor observado de t. En general, el planteamiento de una determinada hiptesis nula puede
Bajo lade
hiptesis
nula,
este estadstico
seguir
aproximadamente
unacomportamiento
distribucin t dede las
proceder
estudios
previos
o de hiptesis
biolgicas
respecto al
calcularse como el rea bajo la curva de esta
distribucin
tanto
o
Ejemplo
1.4 Enpara
esteaquellos
y en losvalores
sucesivos
ejemplos
sobre estimado
Student
con
n
1
grados
de
libertad
y,
en
consecuencia,
el
valor
P
del
contraste
puede
Pastor-Barriuso R.
ms distantes de 0 que el valor observado de
t. En general,
el planteamiento
deHDL
una obtenidos en los 10 pr
utilizarn
los valores
del colesterol
calcularse como el rea bajo la curva de esta distribucin para aquellos valores tanto o
determinada hiptesis nula puede proceder estudio
de estudios
anteriores
o de
European
Study
onhiptesis
Antioxidants, Myocardial Infarctio

n
539
media poblacional los contrastes
de
hiptesis
pueden
resultar
un tanto artificiales.
realizar inferencias acerca de los parmetros
poblacionales correspondientes. A
Inferencia sobre una media y varianza poblacional

cuya distribucin bajo la hiptesis nula ser t538 o, de forma equivalente, normal
continuacin se describen los principales estimadores de la tendencia central de un
Ejemplo 6.4 Entre los n = 539 controles del estudio EURAMIC con
estandarizada. De la Tabla 3 del Apndice se desprende que la probabilidad de
variables, aunque en el casovariable.
de una nica media poblacional los contrastes de hiptesis pueden
determinaciones
del colesterol HDL, la media y desviacin tpica fueron x = 1,09
resultar
un
tanto
artificiales.
obtener valores superiores a 7,21 en una distribucin normal estandarizada es
1.2.1 Media aritmtica
y s = 0,29 mmol/l. As, el IC al 95% para la media de colesterol HDL en la
Ejemplo
6.4 Entre
539elcontroles
del estudio
con determinaciones
virtualmente
nula, los
pornlo=que
valor P bilateral
serEURAMIC
inferior a 0,001.
En
mediay aritmtica,
por x ,=se1,09
define
como
suma de
cada uno de los
ys=
0,29lammol/l.
As,
del colesterol HDL, laLamedia
desviacindenotada
tpica fueron
poblacin de referencia result ser
el IC
al 95% para
la media
poblacin
de difiere
referencia result ser
conclusin,
el nivel
mediodedecolesterol
colesterolHDL
HDLenenlaesta
poblacin
valores muestrales dividida por el nmero de observaciones realizadas. Si denotam
0,29 (P < 0,001). De hecho, la media poblacional de
significativamente
1 mmol/l
1,09 t 538de
= 1,09 1,960,012 = (1,07; 1,11).
; 0 , 975
por n el 539
tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..
colesterol HDL se estim en 1,09 mmol/l, con un intervalo de confianza al 95%
Estos datos muestrales
tambin
se emplearon
la media
vendra
dada porpara el contraste bilateral de la hiptesis
Estos
tambin
se mmol/l.
emplearon
paradel
el contraste bilateral de la
nula
Hdatos
1. Para
ello,
seycalcul
el estadstico
0: =muestrales
comprendido
entre
1,07
1,11
n
x1 + x 2 + ... + x n
x 0
1,09 1 x = 1
hiptesis nula H0: = 1. Para
contraste
.
xdel
= 7,21,
t = ello, se=calcul el estadstico

i =
n i =1
n
0,29
s
6.2.2 Inferencia sobre la varianza de
n una poblacin
539

distribucin
la media
hiptesis
ttendencia
o, dedecentral
forma
equivalente,
normal
La
es lanula
medida
dela
ms
utilizada
En cuya
ocasiones,
el intersbajo
se centra
en estimar
noser
slo
una variable
aleatoria
538media
4y de ms fcil
cuya distribucin
la hiptesis
nula serset538desprende
o, de forma
normal
estandarizada.
De bajo
la Tabla
3 del Apndice
queequivalente,
la probabilidad
de obtener
valoressino
superiores
7,21
en unapoblacional.
distribucin
normal
estandarizada
virtualmente
interpretacin.
Corresponde
al se
centro
deen
gravedad
de los
de la muestra. Su
continua,
tambina su
varianza
Como
mostr
el es
Apartado
5.2datos
delnula,
estandarizada.
De
la
Tabla
3
del
Apndice
se
desprende
que
la
probabilidad
de
por lo que el valor P bilateral ser inferior a 0,001. En conclusin, el nivel medio de
principal
limitacin
es que estinsesgado
muy influenciada
por
valoresDe
extremos y, en es
tema
anterior,HDL
la varianza
muestral
s2difiere
es un estimador
de
la
colesterol
en esta
poblacin
significativamente
dey 1consistente
mmol/l
(Plos
< 0,001).
obtener
valores
superiores
a
7,21
en
una
distribucin
normal
estandarizada
es
hecho, la media poblacional de colesterol HDL se estim en 1,09 mmol/l, con un intervalo
caso,
puede novariable
ser un
fiel
de la tendencia
de la distribucin.
varianza
poblacional
2comprendido
de cualquier
aleatoria,
siendo
adems elcentral
estimador
de confianza
al 95%
entre
1,07
y reflejo
1,11 mmol/l.
virtualmente nula, por lo que el valor P bilateral ser inferior a 0,001. En
insesgado con menor error estndar para distribuciones normales.
6.2.2 conclusin,
Inferenciaelsobre
varianza
de una
Ejemplo
1.4 poblacin
En
esteenyesta
en los
sucesivos
ejemplos sobre estimadores muestral
nivellamedio
de colesterol
HDL
poblacin
difiere
Al igual que ocurra en el caso de una media, los intervalos de confianza y las
En ocasiones,
el inters sedecentra
en estimar
no valores
sloDe
la media
de
variable
aleatoria
continua,
utilizarn
los
del colesterol
HDL
obtenidos
los 10 primeros sujeto
significativamente
1 mmol/l
(P < 0,001).
hecho,
la una
media
poblacional
deen
sino tambin su varianza poblacional. Como se mostr en
2 el Apartado 5.2 del tema anterior, la
pruebas de hiptesis
sobre la varianza poblacional se basan en la distribucin
varianza
muestral
s2 esseun
estimador
insesgado
ycon
consistente
de la
poblacional
2 de
estudio
European
Study
on Antioxidants,
Myocardial
and Cance
colesterol
HDL
estim
en
1,09
mmol/l,
un intervalo
devarianza
confianza
al 95% Infarction
cualquier variable
aleatoria,
siendo
adems
el
estimador
insesgado
con
menor
error
estndar
muestral de s2. Si la distribucin subyacente de la variable es normal, puede probarse
para distribuciones
the Breast
comprendido normales.
entre 1,07 y 1,11
mmol/l.(EURAMIC), un estudio multicntrico de casos y controles reali
2 de
Al igual
que ocurra(nen el1)s
caso
una media,
los intervalos
de confianza
y las pruebas de
hiptesis
que
el estadstico
/ 2 sigue
una distribucin
denominada
chi-cuadrado
con
n1991en
y 1992
en ocho pases
Europeos
para evaluar el efecto de
sobre la varianza poblacional 2 entre
se basan
la distribucin
muestral
de s2. eSiIsrael
la distribucin
2 poblacin
subyacente
de
variable
es normal,
probarse que el estadstico (n 1)s2/2 sigue una
6.2.2
Inferencia
sobre
varianza
depuede
1 grados
de la
libertad
yladenotada
por
una
n 1 ,
distribucin denominada chi-cuadrado con n 1 grados de libertad y denotada por 2n1,
En ocasiones, el inters se centra en estimar no slo la media de una variable aleatoria
(n 1) s 2 2
~ n 1 .
continua, sino tambin su varianza poblacional.
Como
se mostr en el Apartado 5.2 del
2
Como
puede
en la Figura
6.1,
la distribucin
chi-cuadrado
slo
valores
tema
anterior,
la apreciarse
varianza muestral
s2 es un
estimador
insesgado
y consistente
de toma
la
positivos y est sesgada a la derecha. Los grados de libertad de una distribucin chi-cuadrado
determinan
su tendencia
central,
dispersin
asimetra:siendo
al aumentar
grados de libertad,
varianza poblacional
2 de
cualquier
variableyaleatoria,
adems los
el estimador
5 6
aumenta la media y la varianza de la distribucin y disminuye su sesgo a la derecha. En la Tabla
del Apndice se presentan los percentiles de la distribucin chi-cuadrado para distintos grados
insesgado con menor error estndar para distribuciones normales.
de libertad.
Al igual que ocurra en el caso de una media, los intervalos de confianza y las
pruebas de hiptesis sobre la varianza poblacional 2 se basan en la distribucin
muestral de s2. Si la distribucin subyacente de la variable es normal, puede probarse
Pastor-Barriuso R.
que el estadstico (n 1)s2/ 2 sigue una distribucin denominada chi-cuadrado con n -

81

Inferencia
sobre medias
Como
puede

apreciarse en la Figura 6.1, la distribucin chi-cuadrado slo toma

Como puede apreciarse en la Figura 6.1, la distribucin chi-cuadrado slo toma


valores positivos y est sesgada a la derecha. Los grados de libertad de una distribucin
valores
y est sesgada
la derecha.
grados dechi-cuadrado
libertad de una
Comopositivos
puede
apreciarse
en la aFigura
6.1, laLos
distribucin
slodistribucin
toma
0,6 determinan su tendencia central, dispersin y asimetra: al
chi-cuadrado
21aumentar los
2

2
chi-cuadrado
determinan
su tendencia
central,Los
dispersin
y asimetra:
aluna
aumentar
los
valores
positivos
est sesgada
a la derecha.
grados
de
libertad de
distribucin
2
grados de
libertad,y aumenta
la media
y la varianza
de la distribucin
ydisminuye
su
3

0,5

5
grados
de libertad,
aumenta
media ycentral,
la varianza de la distribucin
yaldisminuye
su
chi-cuadrado
determinan
su la
tendencia
y asimetra:
aumentar
sesgo a la derecha.
En la Tabla
6 del Apndicedispersin
se presentan
los percentiles
de la los

0,4

sesgo
ade
la libertad,
derecha. aumenta
En la Tabla
6 del Apndice
se presentan
los percentiles
de la su
grados
la media
y lagrados
varianza
de la distribucin
y disminuye
distribucin
chi-cuadrado para
distintos
de libertad.
f(x)a la 0,3
distribucin
chi-cuadrado
para distintos
grados se
de presentan
libertad. los percentiles de la
sesgo
derecha.
En la Tabla
6 del Apndice
[Figura 6.1 aproximadamente aqu]
distribucin
chi-cuadrado
para
distintos grados de libertad.
0,2
[Figura 6.1 aproximadamente aqu]

A partir de la distribucin n21 del estadstico (n 1)s2/ 2 resulta sencillo calcular


[Figura 6.1 aproximadamente aqu]
0,1
A partir de la distribucin n21 del estadstico (n 1)s2/ 2 resulta sencillo calcular
un intervalo de confianza para la varianza poblacional. El 100(1 - )% de la
2
2
partir 0dedelaconfianza
distribucin
del estadstico
(n 1)s
/ 2 resulta
de la calcular
un A
intervalo
paralan 1varianza
poblacional.
El 100(1
- )%sencillo
distribucin muestral de este estadstico est comprendido entre los percentiles /2 y 1 -

10

12

de la /2
un intervalo muestral
de confianza
paraestadstico
la varianza
poblacional.
El 100(1
- )%
distribucin
de este
est
comprendido
entre los
percentiles
y12
/2 de la distribucin chi-cuadrado con n - 1 grados
x de libertad, denotados por n 1, / 2

2 Figura 6.1
distribucin muestral de este estadstico est comprendido entre los percentiles /2
y1y n 1,1 / 2 ,
1.2 MEDIDAS DE TENDENCIA CENTRAL
/2 2de la distribucin
chi-cuadrado
con n - 1 grados 2de2 libertad, denotados por n21, / 2
2
,
y
A
partir
de
la
distribucin

del
estadstico
(n 1)s / resulta sencillo calcular un intervalo
n 1,1 / 2
n1
2
Las medidas
de
tendencia
central
acerca
de culdeeseste
el valor ms repre
de confianza para la varianza
)%
distribucin
muestral
de lainforman
poblacional.
(n 1El
) s 100(1
2
2
2

.
P

=
1

<
<
y

n
1
,
/
2
n
1
,
1
/
2
estadstico
y 1 /2 de la distribucin chi-cuadrado
entre los percentiles
n 1,1est
/ 2 comprendido
12)2s 2 /2
o,, dicho de forma equivalente, estos estimadores i
denotados
(npor

variable
2de una determinada
22
con n 1 grados de libertad,

y
P n 1, / 2 <
< n 1,n1,1/2
n1,/2
1 / 2
2
=1 .
2

2alrededor
n
s

(
1
)
2 se agrupan
de
qu
valor
los datos observados. Las medidas de tenden
Manipulado esta desigualdad
para
despejar
la
varianza
poblacional,
P n 1, / 2 <
< n 1,1 / 2 = 1 . se obtiene que
2

Manipulado esta desigualdad


para despejar
la varianza
se obtiene
que
central
de la muestra
sirvenpoblacional,
tanto para resumir
los resultados
observados como
2
2poblacional,
Manipulando esta desigualdad (para
despejar
la
varianza
se
obtiene
que

(n 1) s
n 1) s
< 2 <la varianza
=1 ;
P para
2
2
Manipulado esta desigualdad
despejar
se obtiene
que
realizar
poblacional,
inferencias
acerca
los parmetros
poblacionales
correspondientes. A
2 de

n
1
,
/
2

(
1
)
n
s

(nn 1,11)s/22

2
=1 ;
P 2
< < 2

n
1
,
1
/
2
n
1
,
/
2

continuacin
se
describen
los
estimadores de la tendencia central d

2
2
principales

(
1
)
(
1
)
n
s
n
s
2
2
para la varianza
=21 viene
determinado por
es decir, el IC al 100(1 -
< < poblacional
P)%
;
2 la varianza poblacional
2
es decir, el IC al 100(1 )%
para
viene determinado por

variable.
n 1, / 2
n 1,1 / 2
es decir, el IC al 100(1 - )% para la varianza poblacional 2 viene determinado por
2 2
2
2
2
intervalos de confianza para
no/ son
alrededor
[(n 1)s
/ n21, de
/ 2 ],s , particularmente
n 1,1simtricos
/ 2 , (n 1)s
2
1.2.1
aritmtica
para2Media
la varianza
poblacional
viene determinado por
es decir, el IC al 100(1 - )%
2
/ n2de
(n 1)s
/ n21, / 2en
], la muestra. A diferencia de
[(n a1)s
1,1los
/ 2 ,datos
cuyos
lmites
pueden
calcularse
partir
observados
cuando el tamao muestral es reducido.
cuyos
lmites
pueden
calcularse
a
partir
de
los
datos
observados
muestra.
A confianza
media
aritmtica,
por
,los
selaintervalos
define
como
la suma de cada uno de l
los intervalos de confianza paraLa
, que
estn
centradosdenotada
alrededor
de x ,en
de
2
2
2
2
2
2 / 2 , (n 1)s / n 1, / 2 ],
/

[(n

1)s
2
2
1
,
1
n

para
Deno
sonforma,
simtricos
alrededor
de determinada
sde, particularmente
cuando
tamao
= 0 Amuestral
frente a es
igual
el calcularse
contraste
de
una
nulaenHla0el: muestra.
cuyos
lmites
pueden
a partir
los datoshiptesis
observados
, que estn
de x , losrealizadas. Si deno
diferencia de los intervalos de
confianza
para dividida
valores
muestrales
porcentrados
el nmeroalrededor
de observaciones
reducido.

/2 6.1
de laFuncin
distribucin
chi-cuadrado
con n - 1chi-cuadrado
grados de libertad,
porlibertad.
n 1, / 2
Figura
de densidad
de la distribucin
con 1, 2, 3denotados
y 5 grados de
2

2 datos observados en2 la muestra.


cuyos
lmites
pueden
calcularse
a 1partir
Ala xhiptesis
,hiptesis
que realizarse
estnnula
centrados
, los
diferencia
dealternativa
los
de una
confianza
para
02 el
frente
ade
Dehiptesis
igual
forma,
elintervalos
contraste
determinada
Hmediante
la
bilateral
H
: tamao
2 de
los
estadstico
0 puede
0: =alrededor
por
n
el
muestral
y
por
x
el
valor
observado
para el sujeto i-simo, i =
i
2
2
alternativa bilateral H1: 0 puede realizarse mediante el estadstico
estn centrados alrededor de x , los
diferencia de los intervalos de confianza para , que
la media vendra
(n dada
1) s 2por
2
6
=
,
2

82

x + x 2 + ... + x n 6
1 n
.
x = xi = 1
n i =1 de libertad. As,
n el
que
bajo
H
sigue
una
distribucin
chi-cuadrado
con
n
1
grados
Pastor-Barriuso R. 0
6
valor P del test se obtiene como
doblees
dellarea
a la de
izquierda
de este
estadstico
bajo y de ms fcil
Laelmedia
medida
tendencia
central
ms utilizada

2
s2 > 02 . Eslaimportante
notar
subyacente dista mucho de ser
n21que,
, si ssi2 la distribucin
distribucin
0 , o como el doble del rea a la derecha del estadstico, si
menos fiables que para la media, en cuyo caso conviene proceder con cautela.
Comparacin
de medias
en dos muestras independientes
normal, los 2intervalos
de confianza y los contrastes para la varianza
poblacional
son
s > 02 . Es importante notar que, si la distribucin subyacente dista mucho de ser
6.5 Utilizando
desviacin
menos fiables que para la media, en cuyoEjemplo
caso conviene
procederlacon
cautela. tpica s = 0,29 mmol/l del colesterol HDL
normal, los intervalos de confianza y los contrastes para la varianza poblacional son
que bajo H0 sigue una distribucin chi-cuadrado con n 1 grados de libertad. As, el valor P del
en los n = 539 controles del EURAMIC, el IC al 95% para la varianza poblacio
test se obtiene como el doble del rea a la izquierda de este estadstico bajo la distribucin 2n1,
menos
fiables
que paradesviacin
la media, tpica
en cuyo=caso
proceder
con cautela.
Ejemplo
0,29conviene
mmol/l
del
colesterol
2
si s2 6.5
0Utilizando
, o como elladoble
del rea a la sderecha
del estadstico,
si s2 >HDL
02 . Es importante notar
viene determinado por
que, si la distribucin subyacente dista mucho de ser normal, los intervalos de confianza y los
en loscontrastes
n = 539 controles
del EURAMIC,
el ICson
al 95%
parafiables
la varianza
poblacional
para6.5
la Utilizando
varianza
poblacional
menos
que para
la media, HDL
en cuyo caso
Ejemplo
la desviacin
tpica
s =2 0,29
mmol/l
del colesterol
2
2
2
(5380,29
/

,
5380,29
/

538; 0 , 975
538; 0 , 025 )
conviene proceder con cautela.
viene determinado por
en los n = 539 controles del EURAMIC, el IC al 95% para la varianza poblacional
45,25/475,62)
= (0,075;
Ejemplo 6.5 Utilizando la desviacin tpica s==(45,25/604,16;
0,29 mmol/l del
colesterol HDL
en los0,095),
2
2
2
2
/ 538;0,975por
, 5380,29
/ 538;0el
) al 95% para la varianza poblacional viene
n(5380,29
= 539
controles
del
EURAMIC,
, 025IC
viene
determinado
determinado por
ya que los percentiles 2,5 y 97,5 de la distribucin chi-cuadrado con 538 grado
= (45,25/604,16;
45,25/475,62)
2
2 =2(0,075; 0,095),
2
(5380,29 / 538;0,975 , 5380,29 / 538;0,025 )
2
2
de libertad son respectivamente 538
; 0 , 025 = 475,62 y 538; 0 , 975 = 604,16. As, el
= (45,25/604,16; 45,25/475,62) = (0,075; 0,095),
ya que los percentiles 2,5 y 97,5 de la distribucin chi-cuadrado con 538 grados
95% de
para
la desviacinchi-cuadrado
tpica del colesterol
HDL endelalibertad
poblacin de referenc
ya que los percentiles 2,5aly 97,5
la distribucin
con 538 grados
2
2
de libertad son
son respectivamente 538
=
475,62
y

=
604,16.
As,
el
IC
el
IC
al
95%
para
la
; 0 , 025
538; 0 , 975
ya que los percentiles 2,5esy 97,5 de la distribucin chi-cuadrado con 538 grados
desviacin tpica del colesterol HDL en la poblacin de referencia es
Para
determinartpica
si los del
niveles
de colesterol
en los2controles
del EURAMIC
al 95% para
la desviacin
colesterol
la poblacin
de referencia
2 HDL enHDL
de libertad son respectivamente 538
025 = 475,62 y 538; 0 , 975 = 604,16. As, el IC
( 0,075 ; 0;0,,095
) = (0,27; 0,31).
son compatibles con una desviacin tpica poblacional de 0,30 mmol/l, se
es
Para
determinar
si los niveles
controles de
delreferencia
EURAMIC son
al
95%
para la desviacin
tpicade
delcolesterol
colesterolHDL
HDLen
enlos
la poblacin
compatibles con una desviacin tpica poblacional
2
2 de 0,30 mmol/l, se contrast
( 0,075 ; contrast
0,095 ) =bilateralmente
(0,27; 0,31). la hiptesis nula H0: = 0,30 mediante el estadstico
bilateralmente la hiptesis nula H0: 2 = 0,302 mediante el estadstico
es

(n 1) s 2 538 0,29 2
( 0,075 ; 0,095 ) = (0,27;
2 = 0,31).
=
= 502,73.
02
0,30 2
1.2 MEDIDAS
1.2 MEDIDAS
DE TENDENCIA
DE TENDENCIA
CENTRAL
CENTRAL
7
2
Como s < 0, el valor P corresponde a 2P(
502,73)
=DE
20,140
= 0,280; es
decir,
el
1.2538
MEDIDAS
1.2
MEDIDAS
TENDENCIA
DE TENDENCIA
CENTRAL
CENTRAL
2
contraste
estadsticamente
significativo,
careciendo
entonces
de
evidencia
para
Como
s <no
0result
, Las
el valor
P
corresponde
a
2P(

502,73)
=
20,140
=
0,280;
es
538
medidas
Las medidas
de tendencia
de tendencia
central
central
informan
informan
acerca
acerca
de cul
de cul
es el es
valor
el valor
ms ms
representativo
representat
7
rechazar la hiptesis nula. La conclusin de este contraste es consistente con el intervalo
Las
medidas
Las medidas
de
tendencia
de
tendencia
central
central
informan
informan
acerca
acerca
de cul
de cu
es
0,30
mmol/l.
de confianza
para
,
queestadsticamente
stevariable
incluye
el
nulo
de
de una
dedado
determinada
una determinada
variable
o, valor
dicho
o, dicho
de forma
forma
equivalente,
equivalente,
estosestos
estimadores
estimadores
indican
indican
decir,
el contraste
no
result
significativo,
careciendo
entonces
0 =

de una
de determinada
una determinada
variable
variable
o, dicho
o, dicho
de forma
de forma
equivalente,
equivalene
alrededor
alrededor
de qu
valor
qu valor
senula.
agrupan
se agrupan
los datos
los datos
observados.
observados.
Las medidas
Las
de tendencia
de tendencia
de evidencia para
rechazar
lade
hiptesis
La conclusin
de este
contraste
es medidas
6.3 COMPARACIN DE MEDIAS EN DOS
MUESTRAS
alrededor
alrededor
de qu
deINDEPENDIENTES
valor
qu valor
se agrupan
se agrupan
los datos
los datos
observados.
observados.
Las m
L
central
de lade
muestra
muestra
sirven
sirven
tantotanto
para
resumir
losincluye
resultados
los resultados
observados
observados
comocomo
para para
consistente concentral
el intervalo
delaconfianza
para
,para
dado
queresumir
ste
el valor
Hasta ahora se han revisado las tcnicas estadsticas para realizar inferencias sobre el valor de
central
central
de lademuestra
la muestra
sirven
sirven
tantotanto
parapara
resumir
resumir
los resultados
los resulta
un parmetro
unarealizar
poblacin.
Sin
embargo,
una
situacin
muchopoblacionales
mspoblacionales
frecuente
en correspondientes.
la prctica A A
realizar
inferencias
inferencias
acerca
acerca
de los
deparmetros
los parmetros
correspondientes.
= 0,30
mmol/l.
nulo 0 en
es la comparacin de un determinado parmetro entre dos poblaciones distintas. En este apartado
realizar
realizar
inferencias
inferencias
acerca
acerca
de los
deparmetros
los parmetros
poblacionales
poblacionale
co
se presentan los mtodos
para comparar
la media
poblacional
deestimadores
una variable
cuantitativa
acentral
continuacin
continuacin
se describen
se describen
los principales
los
principales
estimadores
de lade
tendencia
la tendencia
central
de una
de una
partir de dos muestras independientes, donde las observaciones de una muestra no estn
continuacin
continuacin
se describen
se describen
los principales
los principales
estimadores
estimadores
de ladete
relacionadas
o emparejadas
con las observaciones
de la otra muestra.
6.3
COMPARACIN
DE
MEDIAS
EN DOS MUESTRAS
INDEPENDIENTES
variable.
variable.
En adelante, la media y la varianza de la variable
aleatoria
variable.
variable.en la primera poblacin se denotan
Hasta
revisado
lasMedia
tcnicas
realizar
inferencias
sobrelaeldiferencia
y 12, yseenhan
la segunda
poblacin
porestadsticas
2 y 22. Elpara
objetivo
se centra
en estimar
por 1 ahora
1.2.11.2.1
Media
aritmtica
aritmtica
entre ambas medias poblacionales 1 2 a partir de dos muestras independientes de dichas
1.2.11.2.1
Media
Media
aritmtica
aritmtica2
valor
de un parmetro
una
poblacin.
Sin
embargo,
situacin
mucho
Laen
media
media
aritmtica,
aritmtica,
denotada
denotada
por una
xpor
, se
xdefine
, se define
como
como
la ms
suma
la 2suma
de cada
de cada
uno de
unolos
de los
poblaciones
de tamaos
nLa
1 y n2 con medias respectivas 1 y 2 y varianzas s1 y s2 .

media
La media
aritmtica,
aritmtica,
denotada
denotada
por por
x 1,sex 2define
, se
comocomo
la suma
la s
quedefine
Como cabra esperar, el estimador puntual es laLa
diferencia
de las
medias
muestrales
frecuente en la prctica
es
lamuestrales
comparacin
dedividida
unpor
determinado
parmetro
entre dosrealizadas.
valores
valores
muestrales
dividida
elpor
nmero
el nmero
de observaciones
de observaciones
realizadas.
Si denotamos
Si denotamos
representa adems un estimador insesgado y consistente de la diferencia subyacente 1 2 en la
valores
valores
muestrales
muestrales
dividida
dividida
por el
por
nmero
elnecesario
nmero
de observaciones
de observacion
r
poblacin. Para
realizar
inferencias
sobre
esta
diferencia
de medias
poblacionales,
es
poblaciones
distintas.
este
semuestral
presentan
los
para
comparar
media
porEnnpor
el tamao
n apartado
el tamao
muestral
y poryxpor
xvalor
observado
observado
para para
el la
sujeto
el
sujeto
i-simo,
i-simo,
i = 1,i ...,
= 1,n,..., n
i el mtodos
i el valor

por npor
el ntamao
el tamao
muestral
muestral
y pory xpor
el xvalor
observado
observado
parapara
el su
i el valor
poblacional de una variable
cuantitativa
a dada
partir
de dos muestras independientes, idonde
la media
la media
vendra
vendra
dada
por por
Pastor-Barriuso R.

la media
la media
vendra
vendra
dadadada
por por
las observaciones de una muestra no estn relacionadas no emparejadas
con las
n
x1 + x12 ++ x...2 ++ x...n + x n
1 1
.
.
= x i
= xi =
x = x

83

continuacin
continuacin
se describen
seaproximadamente
describen
los principales
los
principales
estimadores
estimadores
de la tendenc
de la ten
distribuciones
normales
N(1, muestrales
n12 /n
, x222 /n
As,
allas
tratarse
1) y N(x
2), respectivamente.
centraltamaos
del lmite),
las medias
seguirn
1 2y
y
son
suficientemente
grandes
(recurdese
el la
teorema
ambos
muestrales
n
1
2
de muestras independientes (vase Apartado 3.4), la distribucin
muestral de
variable.
variable.
variable.
variable.
Inferencia
sobre medias
de
muestras
independientes
Apartado
la2),
distribucin
muestral de la
12 /n
x 222 /n
respectivamente.
distribuciones
normales
N((vase
1,muestrales
1) y N(
x12y,3.4),
seguirn
aproximadamente
central
del de
lmite),
lastambin
medias
diferencia
medias
ser
aproximadamente
normal
con media As, allastratarse
1.2.11.2.1
Media
Media
aritmtica
aritmtica
diferencia
de
medias tambin(vase
ser aproximadamente
normal
con media
1.2.1 Media
1.2.1
aritmtica
2 Media
de muestras independientes
3.4),
laaritmtica
distribucin
muestral de la
1x, -12 x/nApartado
distribuciones
normales N(E(
1) y N(2, 2 /n2), respectivamente. As, al tratarse
)
=
E(
x
)
E(
x
)
=

2x define
1como
x 1,se
,2. Si
se ambos
define
como
la2suma
lamuestrales
suma
uno
de
los
de los
Laconocer
media
La media
aritmtica,
aritmtica,
denotada
denotada
por
1de cada
2de cada
la
distribucin
muestral
de1por
tamaos
n1 y nuno
2 son suficientemente
La
media
La
media
aritmtica,
aritmtica,
denotada
denotada
por
x
, se xdefine
, se define
como como
la suma
la suma
de ca
grandes
(recurdese
el
teorema
central
del
lmite),
las
medias
muestrales
1 y
2 seguirn
diferencia
deindependientes
medias tambin
media depor
E((vase
x1ser
- x 2aproximadamente
) = E( x1 )3.4),
- E(2la
x 2 distribucin
)normal
= 1 - con
2 2 muestral
de
muestras
Apartado
la
valores
valores
muestrales
muestrales
dividida
dividida
por el
pornmero
elnormales
nmero
de observaciones
de observaciones
realizadas.
realizadas.
Si denotamos
Si denotamos
aproximadamente
las distribuciones
N(
1, 1 /n1) y N(2, 2 /n2), respectivamente. As, al
y varianza
valores
valores
muestrales
muestrales
dividida
dividida
por
el
por
nmero
el nmero
observaciones
de observaciones
realizad
re
tratarse de muestras independientes (vase Apartado 3.4), la distribucin muestral
de
la de
diferencia
diferencia
de
medias
tambin
ser
aproximadamente
normal
con
media
E(
x
x
)
=
E(
x
)
E(
x
)
=

1
2
1
2
1
2
yelvarianza
por
ntamao
el tambin
tamao
muestral
muestral
y pory xpor
observado
observado
para
para
el sujeto
el sujeto
i-simo,
i-simo,
i = 1,i =...,1,n,..., n,
i elxvalor
i el valor
denpor
medias
ser aproximadamente
normal
con
media
2
2
var( x1 - x 2 ) = var( xpor
)
+
var(
x
)
=

/n
+

/n
.
el valor
observado
observado
para elpara
sujeto
el su
i
n
por
el
tamao
n
el
tamao
muestral
muestral
y
por
y
x
xi el valor
1
2
1
2
1
2 i por
la media
lay media
vendra
vendra
dadadada
por por E( x1 x 2 ) = E( x1 ) E( x 2 ) = 2 1 2 2
varianza
var( x1 - x 2 ) = var( x1 ) + var( x 2 ) = 1 /n1 + 2 /n2.
la media
la media
vendra
vendra
dada por
dada por
En
consecuencia,
se
tiene que
y varianza
n
x n+ x2n/n + 2 /n .
1 n xx1 )++xx1var(
2++x...
2x +)...
yEn
varianza
var(
x1x=
x1x2 )
1
2 =
2
2
. 1 .1
== xvar(
consecuencia, se
tiene
que

i = xi =
1 n 1 n x1 + xx2 1++...x 2+ +x n... + x n
n i =1n i =1
n n 2
2
.
.
=
= xi =
x
x=x i

~ N , 1 + 2
En consecuencia, se tiene que x1 x 2
n i =1 n i =1
n
n
1
2
2
2

x1 - que
x 2 ) = var( x1 ) + var( x 2 )n=
2 1 n/n
2 + 2 /n2.
En consecuencia, var(
se tiene
11
22 1
~

utilizada
N
+ y deyms
La media
La media
es laesmedida
la medida
de tendencia
dextendencia
central
de ms
fcilfcil
1 x 2 central
1 ms
2 , utilizada
ms
n
nmedida
1
2
La media
La media
es
la
es
la
medida
de
tendencia
de tendencia
centralcentral
ms utilizada
ms utilizada
y de my
2
2
En
consecuencia,
se tiene que de una

o,
aplicando
la
estandarizacin
distribucin
normal,
1
2
~
interpretacin.
Corresponde
al centro
centro
gravedad
de gravedad
de los
de+datos
los datos
la muestra.
Su Su
de lademuestra.
xal
x 2de
N

normal,
o, interpretacin.
aplicando laCorresponde
estandarizacin
de
distribucin
1 una
2,
1 interpretacin.
n
n
interpretacin.
Corresponde
Corresponde
al
centro
al
centro
de gravedad
de gravedad
de losde
datos
los da
de
1
2

o, aplicando la estandarizacin de una distribucin


normal,
2
2
principal
principal
limitacin
limitacin
es que
es que
est est
muy
los
por valores
losvalores
extremos
y, eny,este
en este
2 extremos
x1 muy
influenciada
x ~influenciada
( 1 por
2 ) ~ 1
1 principal
2limitacin
, N (+limitacin
x1
x 2 2
Nprincipal
. queesest
0, 1)es

que
muy
est
influenciada
muy
influenciada
por lospor
valores
los valo
ex
2
n2
1
1 22 2 ) ~nnormal,

o,
aplicando
la
estandarizacin
de
una
distribucin
1

(
1
2
caso,caso,
puede
puede
no ser
no un
serfiel
un reflejo
fiel reflejo
de ladetendencia
la tendencia
central
central
+
de
N (la
0de
, distribucin.
1)la. distribucin.
2 caso,
2 puede
n
n
1
2
caso,
puede
no
ser
no
unser
fielunreflejo
fiel reflejo
de la tendencia
de la tendencia
centralcentral
de la distrib
de la
1 2
+
o,
aplicando
la estandarizacin
normal,
2 )la~comparacin
x1 de
xuna
distribucin
( 1n 2para
2n la
Esta
distribucin
muestral constituye
de dos medias poblacionales
1 base
sobre
N (sobre
0,estimadores
1) . estimadores
Ejemplo
Ejemplo
1.4 En
1.4este
En este
y enylos
en sucesivos
los sucesivos
ejemplos
ejemplos
muestrales,
muestrales,
se se
2
2
a partir
de muestras
independientes.
No
para
hacer
uso de este de
resultado,
es necesario
Esta
distribucin
muestral constituye
la
para
la1.4
comparacin
dos
medias
1obstante,
2base
Ejemplo
Ejemplo
En
1.4
este
En
y
este
en
los
y
en
sucesivos
los
sucesivos
ejemplos
ejemplos
sobre sobre
estimae
+
2
2
estimar
previamente
las
varianzas
desconocidas

de
ambas
poblaciones.
La
estimacin
x
x
1
2n ( 1n
2 1) y
~
2
utilizarn
utilizarn
los valores
los valores
del colesterol
delconstituye
colesterol
HDL
en
losprimeros
10 primeros
sujetos
sujetos
del del
1HDL
2obtenidos
Esta
distribucin
muestral
la
baseobtenidos
para
la
comparacin
de 2dos
medias
No
Nen
(0obstante,
,los
1) .10
2
poblacionales
a partir desimuestras
para
deHDL
esteHDL
se simplifica
notablemente
se asumeindependientes.
varianzas
iguales
colesterol
= uso
cuyo
caso obtenidos
2
1 del
2 , en
utilizarn
utilizarn
losson
valores
los
valores
delhacer
colesterol
obtenidos
en losen
10lo
1que
las22 dos
+
es posible
obtener
una
estimacin
combinada
de
la
varianza
comn
para
ambas
poblaciones.
estudio
estudio
European
European
on Antioxidants,
on Antioxidants,
Myocardial
Myocardial
Infarction
Infarction
and
and
Cancer
Cancer
of
of
poblacionales
a partirStudy
de2 Study
muestras
independientes.
Nolaobstante,
para
hacer
de
n1 poblacional
nla2 base
2 uso
2 este
distribucin
para
comparacin
de
medias
2estimar
, cadaconstituye
varianza
deber
estimarse
por
separado,
Porresultado,
elEsta
contrario
si 12 muestral
es necesario
previamente
las
varianzas
desconocidas
dos
yon
Antioxidants,
1Antioxidants,
2 de siendo
estudio
estudio
European
European
Study Study
on
Myocardial
Myocardial
InfarctI
entonces
ms
impreciso
el
proceso
de
inferencia.
Parece
razonable
pensar
que
la
comparacin
2
2
the Breast
the Breast
(EURAMIC),
(EURAMIC),
un estudio
un estudio
multicntrico
multicntrico
de casos
de
casos
y controles
y controles
resultado,
necesario
estimar
previamente
las
desconocidas
realizado
y realizado
de
1 uso
2 de
poblacionales
acomplicada
partir
de
muestras
independientes.
No obstante,
para
hacer
este
de ambas
medias
es es
ms
enconstituye
distribuciones
convarianzas
distinta
variabilidad
que
enmedias
distribuciones
La
estimacin
se simplifica
notablemente
si
se asume
lasestudio
dos
Estapoblaciones.
distribucin
muestral
la base
para
comparacin
de
dosque
the
Breast
thelaBreast
(EURAMIC),
(EURAMIC),
un
estudio
un
multicntrico
multicntrico
de casos
de ca
y
con entre
una entre
misma
varianza.
La
igualdad
de
varianzas
no
es
una
asuncin
puramente
terica,
sino
1991
1991
y 1992
y 1992
en
en ocho
pases
pases
Europeos
Europeos
e Israel
e Israel
parapara
evaluar
evaluar
efecto
el efecto
de los
de
los
2que
2 dos
ambas
poblaciones.
La ocho
estimacin
se
simplifica
notablemente
si seelasume
resultado,
es necesario
previamente
las
varianzas
desconocidas

y pases
las
quepoblacionales
tiene implicaciones
como
puede
apreciarse
el
siguiente
ejemplo.
1 uso
2 de
a partirprcticas
deestimar
muestras
independientes.
No en
obstante,
para
hacer
de
este
entre
1991
entre
y1991
1992
y en
1992
ocho
en
pases
ocho
Europeos
Europeos
e Israel
e Israel
para evalu
para
9
2 dos
ambas
poblaciones.
estimacin
se simplifica
notablemente
si se asume
las
Ejemplo
EnLa
elestimar
ensayo previamente
clnico
del Ejemplo
6.2 sedesconocidas
pretende
comparar
resultado,
es6.6
necesario
las varianzas
12 que
y las
de5 5 de
2 medias
9
presin arterial sistlica entre el grupo placebo y el grupo bajo tratamiento antihipertensivo.
Si este
tratamiento
unasereduccin
nivel de presin
ambas
poblaciones.
Laprodujera
estimacin
simplificadel
notablemente
si searterial
asume aproximadamente
que las dos
igual en todos los pacientes, cabra esperar que la distribucin de la presin arterial en9los
tratados presentara un nivel medio inferior que en el grupo placebo manteniendo
inalterable la variabilidad. En tal caso, estaramos ante una comparacin de medias
9 en
distribuciones con igual varianza (Figura 6.2(a)). En caso contrario, si el tratamiento
produjera una disminucin de la presin arterial sistlica proporcional al nivel basal de
cada paciente (esto es, mayor reduccin en los sujetos con niveles ms altos), la presin
arterial en el grupo tratado tendra menor nivel medio y dispersin que en el grupo placebo.
Bajo esta circunstancia, nos encontraramos con una comparacin de medias en
distribuciones con distinta varianza (Figura 6.2(b)).

84

Pastor-Barriuso R.

Comparacin de medias en dos muestras independientes

Tratamiento

Placebo

trat

plac

(a) Efecto constante

Tratamiento

Placebo

6.3.1 Comparacin de medias en distribuciones con igual varianza


Si se asume que las varianzas poblaciones son iguales 12 = 22 , resulta natural estimar
una nica varianza combinada a partir de la informacin disponible en ambas muestras.
trat
plac
As, se obtendr un estimador ms estable
de la varianza
poblacional, lo que redundar
(b) Efecto proporcional

en una mayor precisin de la estimacin de la diferencia de medias y en una mayor


Figura 6.1

Figura 6.2 Distribucin de la presin arterial sistlica en los grupos placebo y tratamiento de un hipottico
ensayo clnico asumiendo un efecto constante (a) o proporcional (b) del tratamiento antihipertensivo.

potencia del contraste.

6.3.1 LaComparacin
de mediasmuestrales
en distribuciones
igual
varianza
s12 y s 22 con
podra
utilizarse
como estimador
media de las varianzas
Si se asume que las varianzas poblacionales son iguales 12 = 22, resulta natural estimar una
combinado
la varianza.
Esta media
sin embargo,
ineficiente
que otorga
el As, se
nica
varianzade
combinada
a partir
de la es,
informacin
disponible
en ya
ambas
muestras.
obtendr un estimador ms estable de la varianza poblacional, lo que redundar en una mayor
mismo peso a ambas varianzas muestrales, aun cuando la varianza estimada a partir de
precisin de la estimacin de la diferencia de medias y en una mayor potencia del contraste.
s22 podra
s12 ydar
utilizarse
como estimador
combinado
de
La
de las
varianzas
muestrales
unamedia
muestra
mayor
sea ms
fiable. Para
ms peso
a los resultados
obtenidos
con
la varianza. Esta media es, sin embargo, ineficiente ya que otorga el mismo peso a ambas
varianzas
muestrales,
aun cuando
la varianza
estimada
de una
muestracomo
mayorlasea ms
mayor tamao
muestral,
la estimacin
combinada
dealapartir
varianza
se obtiene
fiable. Para dar ms peso a los resultados obtenidos con mayor tamao muestral, la estimacin
2
2 varianza
2
ponderada
por sus correspondientes
combinada
se obtiene como la media de s12 y s2grados
media dedesla
de libertad
1 y s 2 ponderada por sus correspondientes
grados de libertad
s2 =

(n1 1) s12 + (n 2 1) s 22
n1 + n 2 2
n1

n2

i =1

j =1

( xi x1 ) 2 + ( x j x 2 ) 2
n1 + n 2 2

El numerador de s2 es simplemente la suma de las desviaciones al cuadrado respecto de la


El numerador
de s2 yeselsimplemente
la corresponde
suma de las desviaciones
cuadrado
respectopara
de el
media
de cada grupo,
denominador
al nmero dealgrados
de libertad
clculo de este estimador: n1 1 grados de libertad en la primera muestra y n2 1 en la segunda,
media
y el denominador corresponde al nmero de grados de libertad
(n1 la
1)
+ (n2de cada
1) = ngrupo,
1 + n2 2.
para el clculo de este estimador: n1 1 grados de libertad en la primera muestra y n2
1 en la segunda, (n1 1) + (n2 1) = n1 + n2 2.

Pastor-Barriuso R.

En la distribucin muestral de la diferencia de medias, las varianzas desconocidas

85

A partir
de esteyaresultado,
y siguiendo
un procedimiento
anlogo al utilizado
para una
de la diferencia
de medias
no ser normal,
sino que
seguir aproximadamente
una
Inferencia sobre medias

un intervalo
de confianza
al 100(1 - )% para
distribucin media
t de
con n5.3.2),
+ medias
n2 puede
2 grados
de libertad,
1de
deStudent
la(Apartado
diferencia
yaderivarse
no ser
normal,
sino que
seguir aproximadamente
una

la diferencia
detmedias
poblacionales
2 comode libertad,
distribucin
de
+ n~
2 1 -2grados
x1 Student
muestral
x 2 ( con
En la distribucin
den1la
de medias, las varianzas desconocidas 12 y 22
1
2 ) diferencia
t n1 + n2 2 .
pueden
entonces sustituirse
combinada
la varianza
s2. Sin embargo,
de la diferencia
de medias
ya
noestimacin
ser normal,
sino quede
seguir
aproximadamente
unacomo
1 por
1 la
2
s
+
esta estimacin s est sujeta al error
del muestreo, la~1distribucin
de la diferencia de medias ya
1
n1 x1n2 xx12 xt 2n1 +n2(2,11 /2 2s)
t
n1 + n2 2, .
+
nodistribucin
ser normal,t de
sinoStudent
que seguir
una
distribucin
t de Student con n1 + n2 2
grados
de
conMEDIDAS
naproximadamente
1.2
1 + n2
1 2 DE
1 TENDENCIA
n1libertad,
n 2 CENTRAL
s
+
grados
de
libertad,
1.2 MEDIDAS DE TENDENCIAn1CENTRAL
n2
A partir de este resultado, y siguiendo un procedimiento
anlogo
al1.2
utilizado
para
una
1.2 MEDIDAS
MEDIDAS
DE TENDENCIA
DE TENDENCIA
informan
acerca
de cul CENTRAL
es el CENTRAL
valor ms represen
x 2 de( tendencia
medias
2 ) ~central
1de
que est centrado alrededorLas
de medidas
lax1diferencia
muestrales
y
cuya
amplitud

t
n1 + n2 2 .
Las
medidas
de
tendencia
central
informan
cul es
valor ms representativo
media (Apartado
5.3.2),
derivarse
un
intervalo
de confianza
- el
)%
1 un
1 acercaalde100(1
A partir
depuede
este resultado,
y siguiendo
procedimiento
anlogo
al para
utilizado para una
de una determinada
o, dicho
detendencia
forma
equivalente,
estos estimadores
indic
+ variable
s
Las
medidas
Las
medidas
de
de
tendencia
central
informan
acerca
acerca
de cul
de es
c
intervalo
es informan
depende de su error estndar SE( x1 - xn2 1) = sn 2 1 / n1 + 1 / n 2 . Notar que este central
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
la diferencia demedia
medias
poblacionales
(Apartado
5.3.2),alrededor
puede
derivarse
un
intervalo
de confianza
alobservados.
100(1 - )%
para
1 - 2 como
de un
quprocedimiento
valor
se una
agrupan
los
datos
Las
medidas
de
tendencia
de
dedeterminada
una
determinada
variable
variable
o,
dicho
o,
dicho
de
forma
de forma
equivalente,
equivale
A
partir
de
este
resultado,
y
siguiendo
anlogo
al
utilizado
para
una
media
una generalizacin
bastante
natural
del
intervalo
para
la
media
de
una
poblacional.
alrededor
de puede
qu valor
se
agrupan
los
datos
medidas
tendencia
(Apartado
5.3.2),
derivarse
un intervalo
deobservados.
confianzaanlogo
alLas
100(1
)%depara
la diferencia
Alapartir
de
este
y siguiendo
procedimiento
al utilizado
para
una
diferencia
deresultado,
medias
poblacionales
un
1 - 2 como
central
de
la
muestra
sirven
tanto
para
resumir
los
resultados
observados
como Las
par
alrededor
alrededor
de
qu
de
valor
qu
valor
se
agrupan
se
agrupan
los datos
los datos
observados.
observados
1
de medias poblacionales 1 2 como 1
x
x
t
s

+
,
n
+
n

1
2
2
,
1
/
2
1
2
central de la muestra sirven tanto para
resumir
los resultados observados como para
n1 un
nla2intervalo
Ejemplo
6.7 En
el estudio
media y la
del - )% para
media
(Apartado
5.3.2),
puedeEURAMIC,
derivarse
dedesviacin
confianza tpica
al 100(1
realizar inferencias acerca
de
parmetros
poblacionales
central
central
de la
muestra
la muestra
sirven
sirven
tantotanto
paracorrespondientes.
resumir
para resumir
los resultados
los A
resul
1los
1de
x 2 parmetros
t n1 + n2 2,1 / poblacionales
+
, correspondientes. A
2 s
realizar inferencias acercax1de los
infarto
miocardio
fueron x ca =
colesterol HDL
entrepoblacionales
los nca = 462 casos
ncuya
la diferencia
- 2decomo
1 de n
2
continuacin
se1muestrales
describen
los
principales
estimadores
la
central
de unc
que est centrado
alrededorde
demedias
la diferencia
de medias
yrealizar
amplitud
realizar
inferencias
inferencias
acerca
acerca
de losdeparmetros
lostendencia
parmetros
poblacionales
poblacion
continuacin
se
describen
los
principales
estimadores
de
la
tendencia
central
de
una
que est centrado alrededor de la diferencia de medias muestrales y cuya amplitud depende de
0,98 y sca = 0,25 mmol/l,
y entre los nco = 539
controles
fueron
co = 1,09 y sco =
continuacin
continuacin
describen
seyxdescriben
los
principales
los principales
estimadores
estimadores
de la dt
que est
centrado
medias
cuya
amplitud
x1 xvariable.
s la1 /diferencia
n1 + 1 / n 2 de
. Notar
SE(alrededor
depende de su error
estndar
que
este
intervalo
es una
generalizacin
2 ) =de
1 muestrales
1 se
x
x
t
s

+
,
variable.
n1 + nde
1
1 / 2poblacin.
2 2 ,una
bastante natural del intervalo para
la2media
n1 n 2 puntual de la diferencia
0,29 mmol/l. De estos datos se deduce que la
estimacin
variable.
xpara
xla
= s variable.
1 de
/ n1una
+ 1 /poblacional.
n 2 . Notar que este intervalo es
depende
de sunatural
error estndar
SE(
una generalizacin
bastante
del1.2.1
intervalo
Media
1 - aritmtica
2 ) media
Ejemplo
6.7
En el
EURAMIC,
desviacin
colesterol
1.2.1
aritmtica
x camedia
- x co y=la0,98
- 1,09 =tpica
-0,11del
mmol/l.
Si HDL
en el Media
nivel
medio
deestudio
colesterol
HDL es la
que
est
centrado
alrededor
de
la
diferencia
de
medias
muestrales
y
cuya
amplitud
La
media
aritmtica,
denotada
por
x
,
se
define
como
la
suma
de cada
entre
los
n
=
462
casos
de
infarto
de
miocardio
fueron
=
0,98
y
s
=
0,25
mmol/l,
y uno de los
1.2.1
1.2.1
Media
Media
aritmtica
aritmtica
una generalizacin
bastante natural del intervalo
para
la media
una poblacional.
ca
ca de
ca
Ejemplo 6.7La
En
el
estudio
EURAMIC,
la
media
y
la
desviacin
tpica
del
media
denotada
por x co, se
define
la suma
de De
cada
unodatos
de los
entre
los naritmtica,
= 539 controles
fueron
= 1,09
y scomo
= 0,29
mmol/l.
estos
se deduce
asumimoscouna misma variabilidad del
colesterolco HDL en casos y controles, la
valores
muestrales
dividida
por
el
nmero
de
observaciones
realizadas.
Si denotam
media
aritmtica,
denotada
denotada
por
xdefine
, se
como
como
la sum
l
que ladeestimacin
puntual de
el
colesterol
HDL
es xpor
es
= define
s La
1 /nivel
nmedia
+ 1medio
/ aritmtica,
n 2 . de
Notar
que
este
intervalo
depende
su error estndar
SE(laxdiferencia
1 La
1 - x 2 ) = en
ca, se
co
=
462
casos
de
infarto
de
miocardio
fueron
x
=
colesterol HDL
entre
los
n
cammol/l,
Ejemplo
6.7
elmmol/l.
estudio
EURAMIC,
la
media
y lavariabilidad
desviacin
tpica
del
caEndividida
valores
muestrales
por
el
nmeroesde
observaciones
realizadas.
Si
denotamos
0,98

1,09
=
0,11
Si
asumimos
una
misma
del
colesterol
HDL
en
es
decir,
la
desviacin
tpica
combinada
s
=
0
,
074
=
0,272
cuyo
varianza combinada de ambas muestras vendra determinado por
por natural
n el combinada
tamao
muestral
y por
ximedia
el muestrales
valor
para
elpor
sujeto
i = 1, ..
valores
valores
muestrales
dividida
dividida
por
elpor
nmero
el
nmero
dei-simo,
observaciones
de observaci
y controles,
la varianza
de ambas
muestras
vendra
una casos
generalizacin
bastante
del intervalo
para
la
deobservado
unadeterminado
poblacional.
0,98 y sca =por
0,25
y entre
los nalos
=ndesviacin
539
controles
fueron
xpara
=enel
1,09
y scoi-simo,
=fueron
casos
de
infarto
miocardio
x=ca1,=..., n,
colesterol
HDL
entre
n mmol/l,
elest
tamao
muestral
ycolapor
x=i el462
valor
observado
sujeto
code
ca
valor
ms
prxima
tpica
observada
los
controles
quei en
2
2
la
media
vendra
dada
por
(n ca 1) s ca + (n co 1) s conpor
el tamao
n el tamao
muestral
muestral
y poryxpor
xi el valor
observado
observado
para el
pa
i el valor
s2 =
la De
media
vendra
dada
por
0,29 mmol/l.
estos
datos
se
deduce
que
la
estimacin
puntual
de
la
diferencia
0,98
y
s
=
0,25
mmol/l,
y
entre
los
n
=
539
controles
fueron
x
=
1,09
y
s
=
co
los
casos ca
(mayor
muestral
el error estndar
la co
co
2primeros).
n ca + de
n colos
Ejemplo
6.7 En tamao
el estudio
EURAMIC,
la media As,
y la desviacin
tpicadedel
la
media
vendra
dada
dada
por
por
es decir, la desviacin tpica combinada es sla=media
0,074
=
0,272
mmol/l,
cuyo
n vendra
x + x 2 + ... + x n
12
2
(462
ca1se
)-0x,deduce
25
+0,98
(539

1estimacin
) 0x=,=
29
= 1 Si
xpuntual
x
1,09
-0,11
mmol/l.
en el nivel medio
demmol/l.
colesterol
HDL
es
diferencia
de
medias
puede
calcularse
como
n =
co
0,29
Deentre
estos
datos
que
la
la diferencia

i
=
462
casos
de
infarto
de
miocardio
fueron
x ca .=
colesterol
HDL
los
n
x1 + x 2 + ... +n xi==n1 0,074; de
=
ca 1
n
= 2
x = 462
+xi539
valor est ms prxima a la desviacin
en.los controles que 1enn 1 n x1 + xx21 + ...
x 2++x...
n +
n i =1 tpica observada
n
.
= x
= xSi
= xi =
xmmol/l.
asumimos una0,98
misma
variabilidad
del
colesterol
HDL
en
la
x
x
0,98
1,09
=
-0,11
en
ely nivel
medio
de
colesterol
HDL
es
i
cacasos
co y=controles,
=
0,25 mmol/l,
ycombinada
entre
controles
fueron
x co = cuyo
1,09
sn =
1 los1nco
1 =10,272
ca desviacin
n yivalor
n
n
es
tpica
es=s 539
es decir,
decir,sla
la
desviacin
tpica
combinada
=
0
,
074
mmol/l,
=1 co
i =est
1
)muestral
=media
+lalos
= 0,272
+ el error
= 0,017.
s
SE( xtamao
La
es
medida
de tendencia
central
ms utilizada
ca - x co
los casos (mayor
de
primeros).
As,
estndar
de la y de ms fcil
ms
prximo
a
la
desviacin
tpica
en
los
controles
que
en
los
casos (mayor
462
539
n
n
ca observada
co
varianza combinada
de ambas
muestras
determinado
La
media
esuna
la medida
de vendra
tendencia
central
mspor
utilizada
de ms
fcil
asumimos
misma
variabilidad
del
colesterol
HDL en ycasos
y controles,
la
0,29 est
mmol/l.
De
datos
se deduce
que observada
laestndar
estimacin
puntual
de de
laque
diferencia
tamao
muestral
deestos
los
primeros).
As,
eltpica
error
de
lalos
diferencia
medias
puede
valor
ms
prxima
a
la
desviacin
en
controles
en
12
interpretacin.
Corresponde
al
centro
de
gravedad
de
los
datos
decentral
lams
muestra.
Su
La media
es la es
medida
la medida
de tendencia
de tendencia
central
utilizada
ms util
diferencia de medias puede calcularse como La media
calcularse
como
interpretacin.
Corresponde
al
centro
de gravedad
deerror
los datos
de la
muestra. Su
Avarianza
partir decombinada
diferencia
medias
y de su
estndar,
y teniendo
ambas
muestras
vendra
determinado
por
2 de
2 muestrales
(nlamedio
) sde
(de
nmuestral
ca 1tamao
ca +
co 1) sHDL
code los
x
=
0,98
1,09
=
-0,11
mmol/l.
Si extremos
encasos
els nivel
colesterol
es
2 (mayor
ca - x co As,
los
primeros).
el
error
estndar
lavalores
principal
limitacin
es
que
est
muy
influenciada
por
losal
y,
=
interpretacin.
interpretacin.
Corresponde
Corresponde
al de
centro
centro
de gravedad
de gravedad
deen
loses
ded
1
1
1
1
n
+
n

2
ca
co
t
de
Student
con
n
+
n

2
=
999
grados
de
en cuenta
que
la
distribucin
principal
limitacin
es
que
est
muy
influenciada
por
los
valores
extremos
y,
en
este
ca
co
2
SE( x ca x co ) =
= 0,272
+
= 0,017.
(n cascalcularse
n1cano
) s+ca2ser
+cocomo
(un
ncolesterol
1reflejo
) sprincipal
co
co 462
diferencia
medias
puede
asumimosdeuna
misma
HDL
en
casos
y es
controles,
2 variabilidad
ndel
539
caso,
de
la
tendencia
central
de la
la
distribucin.
2 puede
2fiel
principal
limitacin
limitacin
es que
est
que muy
est
muy
influenciada
influenciada
por los
porval
lo
s
=
(462 1) 0,25 + (539 1) 0,29
n
+
n

2
libertad
virtualmente
acauna
distribucin
normal
co
=es no
= 0,074
; de estandarizada,
caso,
puede
ser un fielidntica
reflejo de
la tendencia
central
la distribucin.el IC al
Avarianza
partir de combinada
la diferencia
de
medias
muestrales
y de su
error estndar,
y teniendo en cuenta
462
+ambas
539
2muestras
de
vendra
determinado
por
caso,caso,
puede
puede
no2 ser
nounser
fiel
unreflejo
fiel reflejo
de la de
tendencia
la tendencia
central
centra
de l
2
1) muestrales
1
1
1
A
partir
de
la
diferencia
de
medias
y
de
su
error
estndar,
y teniendo
que
la
distribucin
t
de
Student
con
n
+
n

2
=
999
grados
de
libertad
es virtualmente
(
462

0
,
25
+
(
539

1
)
0
,
29
ca En=
coeste
y en los +sucesivos
ejemplos
sobre estimadores muestral
95% para SE(
xcoca viene
- x co=)dado
=Ejemplo
0,272
= 0,017.
s por +1.4
ca -
=
0
,
074
;
idntica
a una distribucin
alsobre
95%
para ca comuestrales,
viene dado se
por
n caestandarizada,
n co+ 539ejemplos
462
539estimadores
462
2el2 IC
Ejemplo
1.4 En este ynormal
en los
sucesivos
2
(
n

1
)
s
+
(
n

1
)
s
en cuenta que la distribucin
t
de
Student
con
n
+
n

2
=
999
grados
de
ca
ca
co
co
ca
co
2
utilizarn los valores del
colesterol
obtenidos
lossucesivos
10 primeros
sujeto
Ejemplo
Ejemplo
1.4 HDL
En
1.4este
En
yeste
en los
y enen
sucesivos
los
ejemplos
ejemplos
sobre
x ca s x=co t999;0,975
SEn( x ca 2 x co )
12
n
+
ca
co HDL obtenidos en los 10 primeros sujetos del
utilizarn
los
valores
del
colesterol
A partiresdevirtualmente
la diferenciaidntica
de =
medias
muestrales
y =de(normal
su
error
estndar, y teniendo
libertad
a una
distribucin
IC al
0,11
1,960,017
0,14;
0,08).
estandarizada,
estudio
European
Study
onutilizarn
Antioxidants,
Myocardial
Infarction
andobtenid
Cancer
utilizarn
los valores
delelcolesterol
del
colesterol
HDLHDL
obtenidos
en
2
2 los valores
(
462

1
)
0
,
25
+
(
539

1
)
0
,
29
12
estudio
European
Study
on
Antioxidants,
Myocardial
Infarction
and
Cancer
of
=
0,074
;
t de Student con nca + nco 2 == 999
grados
de
en cuenta
la distribucin
95%
para que
ca - co viene dado
462(EURAMIC),
+ 539 2estudio
the por
Breast
un
estudio
multicntrico
casos
y controles
reali
estudio
European
European
StudyStudy
on de
Antioxidants,
on
Antioxidants,
Myocardial
Myoca
De los
del estudio
EURAMIC
puede
entonces
concluirse
el nivel
theresultados
Breast
(EURAMIC),
una estudio
multicntrico
de
casos
y que
controles
realizado
libertad
es
virtualmente
idntica
una distribucin
normal
estandarizada,
el IC
al
86 Pastor-Barriuso R.
entre
1991
y
1992
en
ocho
pases
Europeos
e
Israel
el
efecto de
the Breast
(EURAMIC),
(EURAMIC),
un para
estudio
un evaluar
estudio
multicntrico
multicntric
x ca - x co t999;0,975 SE( x ca - x co )the Breast
medio de 1991
colesterol HDL
en
los pases
casos de
infarto es
inferiorpara
en 0,11
mmol/l
al de los
ocho
Europeos
e Israel
evaluar
el efecto
95% entre
para ca - yco1992
vieneendado
por
12 Europeos
entre
1991
1991
y 1992
y 1992
en ocho
en ocho
pasespases
Europeos
e Israel
e Isra
pa
= -0,11 1,960,017 =entre
(-0,14;
-0,08).

medio de colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al


Comparacin de medias en dos muestras independientes
nivel medio de los sujetos libres de la enfermedad,
estando esta diferencia

que sigue aproximadamente una distribucin t de Student con n1 + n2 - 2 grados de


comprendida entre 0,08 y 0,14 mmol/l con una confianza del 95%.
De los resultados del estudio EURAMIC puede entonces concluirse que el nivel medio de
libertad si la hiptesis nula H0: 1 = 2 es cierta. Por tanto, el valor P se obtiene como el
colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al nivel medio de los
En
el caso
de la
de medias
poblaciones,
la hiptesis
sujetos
libres
decomparacin
la enfermedad,
estandoentre
esta dos
diferencia
comprendida
entrenula
0,08ms
y 0,14
rea bajo
la
distribucin
t
n1 +n2 2 para valores ms extremos que el valor observado de t.
mmol/l con una confianza del 95%.
natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta
Esta prueba de hiptesis se conoce genricamente como el test de la t de Student para
En el caso de la comparacin de medias entre dos poblaciones, la hiptesis nula ms natural
hiptesis nula H0: 1 = 2 frente a la hiptesis alternativa bilateral H1: 1 2 a partir de
es
la
igualdad
de ambas medias
poblacionales.
muestras
independientes
con igual
varianza. Para realizar el contraste de esta hiptesis nula
H0: 1 = 2 frente a la hiptesis alternativa bilateral H1: 1 2 a partir de dos muestras
dos muestras independientes de igual varianza, se emplea el siguiente test estadstico
independientes de igual varianza, se emplea el siguiente test estadstico
Ejemplo 6.8 Un nivel medio de colesterol HDL significativamente ms bajo en
x1 x 2
x1 x 2
t=
=
,
( x1 libres
x 2 ) de enfermedad
los casos de infarto que en losSE
sujetos
sera compatible con
1
1
que sigue aproximadamente una distribucin t de Student con ns 1 + n+
2
grados
de
n1 2 n 2
la hiptesis de que el colesterol HDL es un factor protector en el infarto de
libertad si laque
hiptesis
nula H0: 1 = 2 esuna
cierta.
Por tanto,t de
el valor
P secon
obtiene
el
sigue aproximadamente
distribucin
Student
n1 + ncomo
2 2 grados de libertad si
la hiptesis
nula En
H0:este
1 =ejemplo,
2 es cierta.
Por tanto,
el valor
se obtiene
comode
el los
rea bajo la
miocardio.
se pretende
contrastar
estaP hiptesis
a partir
valores ms
msextremos
extremosque
queelelvalor
valor
observado
rea bajo la distribucin t n1 +n2 2 para valores
observado
de de
t. t. Esta prueba de
13
niveles
de colesterol
HDL observados
y controles
del estudio
hiptesis
se conoce
genricamente
como el testendelos
la tcasos
de Student
para muestras
independientes
igual varianza.
Esta prueba con
de hiptesis
se conoce genricamente como el test de la t de Student para
EURAMIC. El resultado de este contraste, junto con la estimacin puntual y por
muestras independientes
varianza.
Ejemplo con
6.8igual
Un nivel
medio de colesterol HDL significativamente ms bajo en los
intervalo
obtenida
en
ejemplo
evaluar
nocompatible
slo la
casos de infarto que enellos
sujetosanterior,
libres depermiten
enfermedad
sera
con la hiptesis
de que el colesterol HDL es un factor protector para el infarto de miocardio. En este
Ejemplo 6.8significacin
Un nivelse
medio
de colesterol
HDL
mslos
en pblica
estadstica
sino tambin
la relevancia
clnica
y bajo
deniveles
salud
del HDL
ejemplo,
pretende
contrastar
estasignificativamente
hiptesis
a partir
de
de colesterol
observados en los casos y controles del estudio EURAMIC. El resultado de este contraste,
los casos dehallazgo.
infarto
que
los sujetos
libresyde
enfermedad
sera compatible
con anterior, permiten
junto
con
la en
estimacin
puntual
por
intervalo obtenidas
en el ejemplo
evaluar no slo la significacin estadstica sino tambin la relevancia clnica y de salud
la hiptesis Asumiendo
de
que eldel
colesterol
es un factor
protector enelelcontraste
infarto de
igualdadHDL
de varianzas
poblacionales,
bilateral de la
pblica
hallazgo.
Asumiendo
igualdad
de varianzas
poblacionales,
contraste
miocardio. En
este ejemplo,
contrastar
esta hiptesis
a partir bilateral
de los de la hiptesis nula
H0se
: pretende
realiza
mediante
elelestadstico
hiptesis
nula
ca = co se
H0: ca = co se realiza mediante el estadstico
niveles de colesterol HDL observados en los casos y controles del estudio
x ca x co
0,11
= 6,35.
t=
=
SE (junto
x ca con
x co ) la estimacin
0,017
EURAMIC. El resultado de este contraste,
puntual y por
Si ambas medias poblacionales fueran iguales, la distribucin de este estadstico sera t999 o
intervalo obtenida
en medias
el ejemplo
anterior, permiten
evaluar la
nodistribucin
slo la
Si
ambas
poblacionales
fueran El
iguales,
de este
estadstico
aproximadamente
normal estandarizada.
valor P bilateral
se obtiene
entonces
como el doble
de la probabilidad a la izquierda de 6,35 en la distribucin normal estandarizada, que corresponde
significacinsera
estadstica
sino tambin la relevancia
clnica y de salud
pblica
del se obtiene
normal
estandarizada.
El muy
valor
P bilateral
a P < t0,001.
As, puede concluirse
que existen
diferencias
significativas
en el nivel medio
999 o aproximadamente
de colesterol HDL entre los infartados y los sujetos libres de enfermedad. Esta diferencia
hallazgo. entonces como el doble de la probabilidad a la izquierda de -6,35 en la
significativa es perfectamente consistente con el intervalo de confianza calculado en el ejemplo
anterior,
que stepoblacionales,
no contena al cero
(valor nulo
para la de
diferencia
medias).
Asumiendo distribucin
igualdadpuesto
de varianzas
el corresponde
contraste
bilateral
la As,depuede
normal estandarizada,
que
a P < 0,001.
mtodos
en este apartado
extenderse a la comparacin de tres o ms medias
hiptesis Los
nula
H0: ca descritos
=que
co existen
se realiza
mediantepueden
el estadstico
concluirse
diferencias
muy
significativas
el nivelindependientes
medio de
poblacionales. Las tcnicas para comparar medias en mltiplesen
muestras
se conocen
con el nombre de anlisis de la varianza de una va y pueden consultarse en los libros referenciados
colesterol
HDL
entre
los
y los sujetos
enfermedad. Esta
x ca estos
x coinfartados
- 0,11
al final
del tema.
procedimientos
no selibres
tratandeexplcitamente
en este texto, la
t Aunque
=
=
= -6,35.
comparacin de mltiples
de datos independientes tambin puede abordarse mediante
SE (medias
x ca xacopartir
) 0,017
los modelos de regresin lineal que se presentarn ms adelante (Temas 10 y 11).
14
Si ambas medias poblacionales fueran iguales, la distribucin de este estadstico

sera t999 o aproximadamente normal estandarizada. El valor P bilateral se obtiene


entonces como el doble de la probabilidad a la izquierda de -6,35 en la

Pastor-Barriuso R.

87

para contrastar estadsticamente la hiptesis de homogeneidad de varianzas en dos


Inferencia sobre medias

muestras independientes.

El test para la igualdad de varianzas poblacionales se basa en la comparacin de las


6.3.2 Contraste para la igualdad de varianzas
varianzas muestrales s12 y s 22 . Como se apunt anteriormente (Apartado 6.2.2), si la
La comparacin de medias
presentada en el apartado anterior se fundamenta en la asuncin de
igualdad de varianzas. Esta asuncin es determinante para poder calcular una estimacin
distribucin
de En
la variable
es normalseenpresentan
ambas poblaciones,
los estadsticos
combinada
de subyacente
la varianza.
este apartado
los mtodos
para contrastar
estadsticamente
la hiptesis de homogeneidad de varianzas en dos muestras independientes.
(n1 1) s12 / 12 y (n2 1) s 22 / 22 se distribuyen como una chi-cuadrado con n1 - 1 y n2 El test para la igualdad de varianzas poblacionales se basa en la comparacin de las varianzas
2
s22. Como
se apunt anteriormente
(Apartado
6.2.2), si ladedistribucin
subyacente
muestrales
1 gradoss1deylibertad,
respectivamente.
Combinando
la distribucin
estos
estadsticos
2
2
de la variable es normal en ambas poblaciones, los estadsticos (n1 1)s1 /1 y (n2 1)s22/22 se
distribuyen
una independientes,
chi-cuadrado con
n2 1 grados de libertad, respectivamente.
1 1 yque
en ambascomo
muestras
se nobtiene
Combinando
la distribucin
de estosseestadsticos
en ambas
independientes,
se obtiene
A la derecha
de esta expresin
tiene el cociente
de muestras
dos variables
independientes
chi- que

A la derecha de estacuadrado
expresin
se tiene por
el cociente
de
n2 1de
/(independientes
nlibertad,
s12 dos
/ 12variables
1 1)
divididas
sus respectivos
grados
que sechiconoce como la
1
.
~
2
2
2
s 2 / 2 n2 1 /(n 2 1)
uadrado divididas distribucin
por sus respectivos
grados
de
libertad,
que de
se libertad
conoce como
la
F de Fisher con n1 - 1 grados
en el numerador
y n2 - 1 en el
A la derecha de esta expresin se tiene el cociente de dos variables independientes chiistribucin F decuadrado
Fisher con
n1 - 1 grados
libertad en el numerador
y n2 que
- 1 en
2 el
2
2como
2 la distribucin
divididas
pordenota
susderespectivos
de libertad,
se
conoce
15
denominador,
y se
por Fn1 1, n2grados
1 . As, la razn entre s1 / 1 y s 2 / 2 sigue una
F de Fisher con n1 1 grados de libertad en el numerador y n2 1 en el denominador, y
2
2
enominador, y se
denota por
/ 1212y ys22s/22 2/2sigue
2 sigue
sedenota
por Fn1 1, n2 1 . As, la razn entre ss112/
unauna
distribucin F con n1 1 y
distribucin F con n1 - 1 y n2 - 1 grados de
libertad,
n2 1 grados de libertad,
istribucin F con n1 - 1 y n2 - 1 grados de libertad,
s12 / 12
~ Fn1 1, n2 1 .
2
2
2
2

s
/
2
2
s1 / 1
~ Fn1 1, n2 1 .
2
2
s 2 de
/ Fisher
La distribucin F
toma slo valores positivos y est sesgada positivamente con un
2
F de Fisher
toma
valores
positivos
sesgada
positivamente
valor La
msdistribucin
frecuente (moda)
menor
de 1slo
y una
media
mayor ydeest
1. Al
aumentar
los grados de
libertad del numerador y denominador, tanto la media como la moda se aproximan al valor 1
La distribucin Fcon
de Fisher
toma slo
valores
positivos
y est
positivamente
valor
frecuente
menor
deF1sesgada
una media
de grados
1. Al aumentar
(Figuraun
6.3).
Losms
percentiles
de(moda)
la distribucin
dey Fisher
paramayor
distintos
de libertad del
numerador y denominador se presentan en la Tabla 7 del Apndice.
on un valor ms frecuente
(moda)
menordel
de numerador
1 y una media
mayor de 1. Al
aumentar
los grados
de libertad
y denominador,
tanto
la media como la moda se

os grados de libertad
del0,8
numerador
la
media como
moda se F de Fisher para F
0,8lala
F
aproximan
al valory 1denominador,
(Figura 6.3). tanto
Los percentiles
de
distribucin
5,5

5,5

F5,10
F10,5
proximan al valor distintos
1 (Figuragrados
6.3). Los
percentiles
de
la
distribucin
F
de
Fisher
para
F
F30,5
de libertad del numerador5,30y denominador se presentan en la Tabla 7 del
0,6

0,6

istintos grados de libertad


del numerador y denominador se presentan en la Tabla 7 del
Apndice.
f(x)

Apndice.

0,4

0,4

[Figura 6.3 aproximadamente


aqu]
0,2

0,2

[Figura 6.3 aproximadamente aqu]


0

Ejemplo 6.9 Utilizando la Tabla 7 del Apndice, el percentil 97,5 de una


0

Ejemplo 6.9 Utilizando


la TablaF7de
delFisher
Apndice,
percentil
97,5 de en
unael numerador y denominador
distribucin
con 5elgrados
de libertad
x

distribucin F de Fisher
grados
libertad
en el numerador
7,15, de
y (a)
para
30 grados
de libertadyendenominador
ambos es F
es F con 5 =
5;5;0,975

(b)
30;30;0,975

= 2,07.

Funcin
de densidad
de la distribucin
al aumentar los grados de libertad del de= 7,15,6.3
yAunque
para
30esta
grados
libertad
ambos Fesdeinferiores,
FFisher
es F5;5;0,975Figura
30;30;0,975 = 2,07.
tabladeno
facilitaenpercentiles
puede comprobarse que el
nominador (a) y del numerador (b).

Figura 6.1

Aunque esta tabla no facilita percentiles inferiores, puede comprobarse que el


percentil en una distribucin F con d1 y d2 grados de libertad es igual al inverso
88

Pastor-Barriuso R.

percentil en una distribucin F con d1 y d2 grados de libertad es igual al inverso


del percentil 1 - en una distribucin F con d2 y d1 grados de libertad, Fd1 , d 2 , =
del percentil 1 - en una distribucin F con d2 y d1 grados de libertad, Fd1 , d 2 , =

or y denominador, la distribucin F

rica alrededor del valor 1.

distribucin F de Fisher con 5 grados de libertad en el numerador y d

Comparacin
medias
en dosde
muestras
independientes
es F5;5;0,975 = 7,15,
y parade30
grados
libertad
en ambos es F30;30;0,975

distribucin F30,30 entre 0,48 y 2,07.


Puede
que, al aumentar
Aunque
estaentonces
tabla no observarse
facilita percentiles
inferiores, puede comprobar

2
cociente entre s12 / 12Ejemplo
y s 22 / 26.9
,
Tabla 7del
delnumerador
Apndice, yeldenominador,
percentil 97,5ladedistribucin
una distribucin
F
el nmero deUtilizando
grados delalibertad
F
en una ydistribucin
F con
grados
1 y d2 =
de Fisher con 5 grados de libertadpercentil
en el numerador
denominador
es Fd5;5;0,975
7,15, de
y libertad es igu
para
grados
de libertad
en ambosy ms
es F30;30;0,975
= alrededor
2,07. Aunque
esta 1.
tabla no facilita
ara la razn de dos varianzas
de30
Fisher
se hace
menos dispersa
simtrica
del valor

en
una
distribucin
F con dF
d1 grados
de libertad
del
percentil
1
2 ycon
percentiles inferiores, puede comprobarse que el percentil en una distribucin
d1
y d2 grados de libertad es igual al inverso del percentil 1 en una distribucin F con d2
utilidad prctica, nos centraremos
2 en
Fnd1 2 1,d, n12,11entonces
. As,
el
percentil
distribuciones
anteriores es F5;
y dpartir
libertad, Fmuestral
elobservarse
percentil
en2las
las
del
d1 , d 2 , = 1/F
1 grados
cociente
entre 2,5
s2,5
s 22distribuciones
/ 22 ,
A
de lade
1 / 1al y
y 2,07. Puede
que,
aumentar
distribucin
Fdistribucin
30,30 entre 0,48
anteriores
es
F
=
1/F
=
1/7,15
=
0,14
y
F
=
1/F
=
1/2,07
=
0,48.
traste bilateral de la hiptesis nula 5;5;0,025
5;5;0,975
30;30;0,025
30;30;0,975
Por
tanto,
el
95%
central
de
la
distribucin
F
est
comprendido
entre
0,14
y 30;30;0,975
7,15,
y de
1/F
=
1/7,15
=
0,14
y
F
= 1/F
= 1/2,07 = 0,48.
5;5;0,975 5,5 para
30;30;0,025
el nmero
decalcular
grados de
y denominador,
distribucin
F
resulta
sencillo
un libertad
intervalodel
denumerador
confianza
la razn de la
dos
varianzas
e basa en la razn de la
lasdistribucin
varianzas F30,30 entre 0,48 y 2,07. Puede entonces observarse que, al aumentar el
nmero
del ynumerador
y de
denominador,
la valor
distribucin
F de Fisherentre 0,14 y 7,15
95%
la
distribucin
F5,5 est
2
2 de libertad
de Fisherdesegrados
menos
dispersa
mscentral
simtrica
alrededor
del
1. comprendido
hace
poblacionales
1 / 2 . No obstante, por su mayor utilidad prctica, nos centraremos
se hace menos dispersa y ms simtrica alrededor del valor 1.

aqu en el test para la igualdad de varianzas. El contraste bilateral


de la hiptesis
nula
2 2 2 2 22
2
A partir de la
del cociente
cociente entre
entre ss121/
/1 y1 sy2/s 22,/
resulta
sencillo
la distribucin
distribucin muestral
muestral Fn1 1, n2 1 del
2 ,
2 2
2 intervalo
2
calcular
de confianza para la razn2 de dos2 varianzas poblacionales 1/2 . No obstante,
H0: un
1 = 2 frente a la alternativa H1: 1 2 se basa en la razn de las varianzas
por
su
mayor
utilidad
prctica,
nos centraremos
aqu
en la
el razn
test para
la igualdad
de varianzas. El
resulta sencillo calcular
un intervalo
de confianza
para
de dos
varianzas
2
2
2
contraste bilateral de la hiptesis nula H0: 1 = 2 frente a la alternativa H1: 1 22 se basa en la
muestrales 2 2
razn de las varianzas
1 / 2 muestrales
. No obstante, por su mayor utilidad prctica, nos centraremos
22 es cierta, lapoblacionales
razn

s12
aqu en el test para la igualdad de varianzas.F El
contraste
bilateral de la hiptesis nula
= 2.
que este estadstico se distribuir
s2
H0: 12 = 22 frente a la alternativa H1: 12 2 22 se
basa en la razn de las varianzas
en el numerador
- 1 en elnula de igualdad de varianzas 1 = 22 es cierta, la razn (s12/12)/(s22 /22 ) se reduce
Siylan2hiptesis
2
a s12Si
/s22la
, de
tal forma
que
estadstico
se distribuir
una F de
Fisher con n1 1 grados
hiptesis
nula
deeste
igualdad
de varianzas
12 = segn
la razn
2 es cierta,
muestrales
tonces como el de
doble
de
la
libertad en el numerador y n2 1 en el denominador. El valor P del contraste se calcula
2
2
2
2
entonces
de la probabilidad
a la izquierda de este estadstico bajo la distribucin
( s12 / 1como
)/( 2s 22el/ doble
2 ) se reduce a s1 / s 2 , de tal forma que este estadstico se distribuir
2
2 2
s2, so2 como
el doble del rea a sla12 derecha del estadstico, si s12 > s22.
la distribucin Fn1 1, n2 1, si ss1 1
,
F=
.
segn una F de Fisher con n1 - 1 grados des 22libertad en el numerador y n2 - 1 en el
2
2
Ejemplo 6.10 En los Ejemplos 6.7 y 6.8 se compar la media del colesterol HDL entre s ca 0,25
o, si s12 > s 22 .
F= 2 =
los casos y El
controles
la asuncin
decomo
homogeneidad
denominador.
valor Pdel
delEURAMIC
contraste sebajo
calcula
entonces
el doble dede
la varianzas. La s co 0,29 2
2
2
Si la hiptesis
nula
deresultados
igualdad de
varianzasdel cumplimiento
la razn
1 = 2 es cierta,
validez de
estos
depender
de dicha
hiptesis. Para contrastar
2
2
2
2
bilateralmente
la
hiptesis
nula
H
:

,
se
calcula
el
test
estadstico
ompar la media del
colesterol
HDL
probabilidad a la izquierda de este estadstico
0
ca
cobajo la distribucin Fn1 1, n2 1 , si s1 s 2 ,
que
sigue
una
distribucin
F con nca 1 = 461
2
2
2
2
2
2
( s1 / 1 )/( s 2 / 2 ) se reduce a s1 / s 2 , de tal forma que este estadstico se distribuir
s ca2
0,25 2
jo la asuncin de homogeneidad de
s 22 . H0. Como sca < sco, el valor P es igual a 2
o como el doble del rea a la derecha
estadstico,
si s12 > bajo
=
= 0,74,
F = del
2 libertad
2 en el numerador
y n2 - 1 en el
segn una F de Fisher con n1 - 1 grados sde
0,29
co
ender del cumplimiento de dicha
0,001.
Notar
este valor
P0.sera idntico si
que sigueEluna
distribucin
F conse
ncacalcula
1 = 461
y nco como
1 = 538
grados
de
libertad
bajo H
denominador.
valor
P del
contraste
entonces
el
doble
decolesterol
laque
Ejemplo
6.10
En
los
Ejemplos
6.7
y
6.8,
se
compar
la
media
del
HDL
2 Como
2
con naca2P(F
1=
461y0,74)
nco =1 20,0005
= 538 grados
de libertad
sco,distribucin
el valor P esFigual
= 0,001.
Notar que este
ca <una
461,538
ptesis nula H0: ca =que
cosigue
, sse
2
2
F
=
s
valor
P
sera
idntico
si
se
hubiera
utilizado
el
estadstico
inverso
co /2 s ca =2 1,35. En tal caso, el val
probabilidad
alos
la izquierda
de este estadstico
bajo la
distribucin
Fnde
1 1, n
2 1 , si s1 s 2 ,de
entre
casos
y
controles
del
EURAMIC
bajo
la
asuncin
homogeneidad
bajocaso,
H0. Como
, el valoraPpartir
es igual
a 2P(F
0,74)
20,0005
tal
el valorscaP<sesco
obtendra
de la
distribucin
2P(F=538,461 1,35)
461,538 F
538,461=como
= 20,0005 = 0,001.
distribucin F538,461 como 2P(F538,461 1,35)
La
validez
de estosdel
resultados
depender
de dicha
s12 > del
s 22utilizado
.cumplimiento
o como
elvarianzas.
doble
delque
rea
a lavalor
derecha
estadstico,
sihubiera
0,001.
Notar
este
P
sera
idntico
si
se
el estadstico
La variabilidad del colesterol HDL resulta significativamente menor
entre los casos de
Lalovariabilidad
colesterollaHDL resulta sig
2delaceptarse
infarto
que entre
los
individuos libres de la enfermedad, con
cual2no puede
hiptesis.
Para
2
2contrastar bilateralmente la hiptesis nula H0: ca = co , se
inverso
F
=
s
/
s
=
1,35.
En
tal
caso,
el
valor
P
se
obtendra
a
partir
de
la
co
ca
hiptesis 6.10
de igualdad
de varianzas.
consecuencia,
procedimientos
utilizados
Ejemplo
En los
Ejemplos
6.7 yEn6.8,
se compar los
la media
del colesterol
HDL en los
17
casos
de
infarto
que
entreHDL
los individuos libre
Ejemplos
y 6.8
son inadecuados para comparar los niveles medios de colesterol
calcula 6.7
el test
estadstico
distribucin
como 2P(F
= 20,0005
= 0,001.
538,461
538,461 1,35)
entre
casos
yFcontroles.
entre
los
casos
y controles
del EURAMIC
bajo
la asuncin
de homogeneidad de
puede aceptarse la hiptesis de igualdad de va
La variabilidad
del colesterol
resultadepender
significativamente
menor entre
los
varianzas.
validez
de
estos HDL
resultados
del cumplimiento
de dicha
Existen
otrasLatcnicas
estadsticas
para la comparacin
de varianzas
en muestras
procedimientos
utilizados
en los Ejemplos 6.7
.
En
general,
estas
tcnicas
independientes,
tales
como
el
test
de
Bartlett
o
la
prueba
de
Levene
17
casos de infarto
que entre bilateralmente
los individuos la
libres
de la nula
enfermedad,
2 con lo
hiptesis.
Para contrastar
hiptesis
H
co2 niveles
,cual
se nomedios
0: ca = los
comparar
de colesterol HD
puede aceptarse la hiptesis de igualdad de varianzas. En consecuencia, losPastor-Barriuso R. 89
calcula el test estadstico
otras tcnicas
procedimientos utilizados en los Ejemplos 6.7 y 6.8 sonExisten
inadecuados
para estadsticas para la compa

As, sustituyendo 12 por s12 y 22 por s 22 en la distribucin muestral de la

Inferencia sobre medias

diferencia de medias, se obtiene el estadstico


permiten comparar varianzas entre dos
y, en el caso del test de Levene, la
x1 ox 2ms
( grupos
1 2 )
. la variable sea normal. Los lectores
comparacin no requiere que la distribucin subyacente de
2
2
s
s
1
2
interesados pueden consultar estos procedimientos
+ en las referencias incluidas al final del tema.
n1 n 2
2
6.3.3 As,
Comparacin
distinta varianza
sustituyendode
1medias
por s12eny distribuciones
22 por s 22 en lacon
distribucin
muestral de la
Aunque resulta complicado derivar la distribucin exacta de este estadstico, existen
Cuando las varianzas poblacionales son distintas, carece de sentido calcular una estimacin
diferencia de medias, se obtiene el estadstico
combinada
la varianza, yaque
quefuncionan
sta infraestimar
o sobreestimar
la variabilidad
especfica
diversas de
aproximaciones
bien en la
prctica. El mtodo
ms utilizado
es de
cada poblacin. En este caso, aun perdiendo algo de precisin, es preferible estimar porseparado las
2
As,poblacionales
sustituyendo
s12 permite
y x1 22sus
por
muestral
la s12 y s22 .
xaproximar
s(22en
la2distribucin
)distribucin
2 correspondientes
1 la
varianzas
121y por
22que
mediante
varianzas
la aproximacin
de Welch,
demuestrales
este de
estadstico
.
2
s 22
muestral de la diferencia de medias,
As, sustituyendo 12 por s12 y 22 por s22 en sla1 distribucin
+
diferenciauna
de medias,
se obtiene
estadsticogrados de libertad
mediante
t de Student
con loselsiguientes
se obtiene
el estadstico
n1 n 2

x1 (s 2x 2/ n (+ s1 2/n2 )) 2
1
1
2
2 .
Aunque resulta complicado
la distribucin
exacta
de este estadstico,
existen
d = derivar
.
2
2 2
2
2
s
s
1
2
( s1 / n1 ) /(n1 1)++ ( s 2 / n 2 ) 2 /(n 2 1)
n1 enn 2la prctica. El mtodo ms utilizado es
diversas aproximaciones que funcionan bien

Aunque
complicado
la distribucin
exacta
Puederesulta
comprobarse
que dderivar
es siempre
inferior o igual
a nde
n2 estadstico,
2; es decir, existen
esta diversas
1 +este
la aproximacin de Welch, que permite aproximar la distribucin
de este estadstico
Aunque resulta
complicado
exacta de
este
estadstico,
aproximaciones
que
funcionan derivar
bien en la
la distribucin
prctica. El mtodo
ms
utilizado
es laexisten
aproximacin
t de Student
ser ms
dispersa quede
la este
empleada
en el mediante
caso de igualdad
de distribucin
Welch, que permite
aproximar
la distribucin
estadstico
una t dede
Student
mediante una t de Student con los siguientes grados de libertad
diversas
aproximaciones
que
funcionan
bien
en
la
prctica.
El
mtodo
ms
utilizado
es
con los siguientes grados de libertad
varianzas. Esto es lo que cabra esperar ya que, al estimar por separado las varianzas, la
2
la aproximacin de Welch, que permite
de este estadstico
( s12 aproximar
/ n1 + s 22 / nla2 )distribucin
d
=
.
distribucin resultante ha de
conllevar una
( s12reflejar
/ n1 ) 2 /(mayor
n1 1)incertidumbre.
+ ( s 22 / n 2 ) 2 /(nEsto
2 1)
mediante una t de Student con los siguientes grados de libertad
disminucin
tantoque
en la
precisin
los intervalos
en la
potencia
de t
Puede
comprobarse
d es
siempredeinferior
o igual de
a nconfianza
es decir,
esta
distribucin
1 + n2 2; como
que d que
es siempre
inferior
o
igual
a
n
+
n

2;
es
decir,
esta
de Puede
Studentcomprobarse
ser ms dispersa
la empleada
en
el
caso
de
igualdad
de
varianzas.
Esto
es
lo que
1
2
( s12 / n1 + s 22 / n 2 ) 2
los contrastes.
cabra
esperar ya que, al destimar
la distribucin
resultante ha de
= 2 por 2separado las varianzas,
.
s 22disminucin
( sEsto
/ n1 conllevar
)dispersa
/(n1 1que
) +una
(la
/ n 2 ) 2 /(n 2en tanto
1) casoendelaigualdad
distribucin
de Student ser
empleada
el
de de los
1 ms
reflejar
mayor tincertidumbre.
precisin
En eldecaso
de distribuciones
distinta
el intervalo de confianza al 100(1 intervalos
confianza
como en lacon
potencia
devarianza,
los contrastes.
varianzas. Esto es lo que cabra esperar ya que, al estimar por separado las varianzas, la
Puede
comprobarse
que d es con
siempre
inferior
o igual
n1 + n2 de2;confianza
es decir, esta
En el caso
de distribuciones
distinta
varianza,
el aintervalo
al 100(1 )%
)% para la diferencia de medias poblacionales 1 - 2 vendr determinado por
2 vendr determinado
por
para
la diferencia
de medias
1 incertidumbre.
distribucin
resultante
ha poblacionales
de reflejar mayor
Esto conllevar
una
distribucin t de Student ser ms dispersa que la empleada en el caso de igualdad de
2

90

s2
disminucin tanto en la precisin de los intervaloss1de confianza
como en la potencia de
x 2 ya
+
,por separado las varianzas, la
t d ,1que,
varianzas. Esto es lo que cabrax1esperar
/ 2 al estimar
n1 n 2
los contrastes.
distribucin
de reflejar
mayor incertidumbre.
Esto
conllevar
una forma, para
donde
d son losresultante
grados dehalibertad
calculados
segn la frmula
anterior.
De igual
donde
dlason
los
segn
laelfrmula
De de
igual
forma,
contrastar
hiptesis
nulade
H0libertad
: 1 =con
2calculados
frente
alternativa
H1: 1 anterior.
de
2 aconfianza
partir
dos
muestras
En el
caso
degrados
distribuciones
distintaa la
varianza,
intervalo
al 100(1
disminucin
tanto
en
la
precisin
de
los
intervalos
de
confianza
como
en
la
potencia
de
independientes con distinta varianza, se emplea el estadstico
H1: 1 por
para
contrastar
la hiptesis
nula Hpoblacionales
0: 1 = 2 frente
2 a partir de

)%contrastes.
para la diferencia
de medias
1 a- la
2alternativa
vendr determinado
los
x1 x 2
,
t=
dos muestras independientes con distinta varianza,
el estadstico
s12 s 22 2se emplea
En el caso de distribuciones con distinta varianza,
+ s1 els 22intervalo de confianza al 100(1 ,
x1 x 2 t d ,1n1 / 2 n 2 +
n1 n 2
)% para
la diferencia
poblacionales
1 - 2 vendr
determinado
porcon d grados
quebajo
la hiptesis
nula,de
se medias
distribuye
aproximadamente
segn una
t de Student
19
bajo As,
la hiptesis
se distribuye
segn una
t de ms
Student
con d que
de que
libertad.
el valor nula,
P viene
dado por laaproximadamente
probabilidad de obtener
valores
extremos
dondeobservado
d son los de
grados
calculados
la frmula
anterior.
igual forma,
el valor
t bajodelalibertad
distribucin
td. Estesegn
contraste
se conoce
con elDe
nombre
de test de
s12 s 22
grados
de
libertad.
As,
el
valor
P
viene
dado
por
la
probabilidad
de
obtener
valores
ms

+
,
x1 x 2 t d ,1 / con
la t de Student para muestras independientes
distinta varianza.
2
2
H1: 1 2 a partir de
para contrastar la hiptesis nula H0: 1 = 2 frentena1 la nalternativa
extremos R.que el valor observado de t bajo la distribucin td. Este contraste se conoce
Pastor-Barriuso
dos
muestras
independientes
con distinta
varianza,
estadstico
donde
d son los
grados de libertad
calculados
segnselaemplea
frmulaelanterior.
De igual forma,
con el nombre de test de la t de Student para muestras independientes con distinta

Ejemplo 6.11 En el Ejemplo 6.10 se contrast que


HDL difiere significativamente entre los casos de infarto y los sujetos libres de la
independientes con distinta varianza. La estimacin puntual
de la significativamente
diferencia de
HDL difiere
entre los casos de i
enfermedad. Por ello, la comparacin del nivel medio
de colesterol
entreindependientes
Comparacin
de medias en HDL
dos muestras

medias es x ca - x co = 0,98 - 1,09 = -0,11 mmol/l, cuyo


error estndar
se estima
enfermedad.
Por ello,
la comparacin del nivel med
casos y controles ha de realizarse mediante la prueba t de Student para muestras

directamente
casos
y controlesdel
ha colesterol
de realizarse
mediante la prue
Ejemplo
6.11porcon
En el
Ejemplo
6.10 seLacontrast
quepuntual
la variabilidad
HDL
independientes
distinta
varianza.
estimacin
de la diferencia
de
difiere significativamente entre los casos de infarto y los sujetos libres de la enfermedad.
conydistinta
varianza.
Por ello, la comparacin del nivel2 medio2 de colesterol
HDL2 entre casos
controles
ha de La estimacin
2 independientes
medias es x ca - x co = 0,98 - 1,09
0,25 cuyo
0,error
29 estndar se estima
s ca= -0,11
s co mmol/l,
realizarse mediante
t
de
Student
para
muestras
independientes
con
distinta
SE( x ca la
- xprueba
)
=
+
=
+
=
0,017.
co
462de medias
539 es x ca x co == 0,98 - 1,09
co
1,09 ==-0,11 mmol/l, c
varianza. La estimacin puntualn cade landiferencia
directamente por
0,11 mmol/l, cuyo error estndar se estima directamente por
directamente
En el caso de varianzas heterogneas, los grados de libertad
para lapor
distribucin
2
2
2
2
0,25
0,29
s ca s co
+
=
+
= 0,017.
SE( x ca x co ) =
de la diferencia de medias vienen
por la aproximacin
de Welch, a
462
539
n cadeterminados
n co
0,25 2
s ca2
s co2
+
=
SE( x ca - x co ) =
462
n cala n co
En
el caso de varianzas heterogneas, los grados de libertad para la distribucin de
saber
En el caso de
de medias
varianzas
heterogneas,
los grados
de libertad para
distribucin
diferencia
vienen
determinados
por la aproximacin
delaWelch

En el caso de varianzas heterogneas, los grados de


( s ca2vienen
/ n ca +determinados
s co2 / n co ) 2 por la
de la diferencia de medias
aproximacin de Welch, a
d
=
2
2
2 de libertad
2
Notar que, en(este
ejemplo,
los
grados
son
casi
s ca / n ca ) (n ca 1) + ( s co / n co ) (n co 1) iguales a los obtenidos
de la diferencia de medias vienen determinados po
saber
2
2
2
bajo
asuncin
de igualdad
de grados
(nca/ +
ncoson
= 999).
A partir
de estos
(0,25
/varianzas
462 + de
0,29
539
) 2casi
Notarlaque,
en
los
libertad
iguales
a los,97
obtenidos
= este ejemplo,
=
998
.
saber
2
2
2 / 539)
(0,25 2 / 462( s) 22 /(462
s1)2 +/ n(0,29
(539 1)
n
+
)
ca
ca IC co
co para ca - co como
resultados,
calcular
al 95%
bajo la asuncin
de igualdad
deunvarianzas
(nca2 + nco 2 = 999). A partir de estos
d es
= posible
2
2
2
Notar que, en (este
ejemplo,
los
grados
de
son 1casi
(n co
) iguales a los obtenidos
s ca / n ca ) (n ca 1) + ( s co / nlibertad
co )
( s ca2 / bajo
n ca +las co2 / n co ) 2
d = de estos resultados es
asuncin
de varianzas
(nca 95%
+ ncopara
2 = 999).
A partir
resultados,deesigualdad
posible
2un IC alSE
x ca - calcular
x co(0,25
t998,97;0,975
(29
x ca2 /-539
x co)ca
)2 - co como ( s ca2 / n ca ) 2 (n ca 1) + ( s co2 / n co ) 2 (n co
/
462
+
0
,
posible calcular
para ca co como
= un 2IC al 95%
= 998,97.
2
(0,25 / 462) (462 1) + (0,29 2 / 539) 2 (539 1)
20 2 / 462 + 0,29 2 / 539)
(0,25
-0,11 1,960,017
=)(-0,14; -0,08),=
x ca x co =
t998,97;0,975
SE ( x ca x co
(0,25 2 / 462) 2 (462 1) + (0,29 2 / 539
= 0,11 1,960,017 = (0,14; 0,08),
y contrastar la hiptesis nula H0: ca = co mediante el estadstico
y contrastar la hiptesis nula H0: ca = co mediante el estadstico
20
y contrastar la hiptesis nula Hx0ca: cax=co co mediante
0,11 el estadstico
= 6,44,
t=
=
SE ( x ca x co ) 0,017
x co estandarizada,
- 0,11
que bajo la distribucint t=998,97 xocanormal
corresponde a un valor P menor
=
= -6,44,
SE
x

x
(
)
0,017
ca
co
que bajo
0,001.
As,
se
pone
de
manifiesto
que
los
casos
de
infarto presentan
un nivel
a un valor
P medio
la distribucin t998,97 o normal estandarizada, corresponde
de colesterol HDL significativamente inferior que los sujetos libres de la enfermedad
(P
0,001),
con una
estimada
en 0,11
mmol/l
(IC
95%
0,08-0,14
mmol/l).
menor
que
As,diferencia
set poneode
manifiesto
que los
casos
de al
infarto
presentan
normal
estandarizada,
corresponde
a un
valor Pun
que<bajo
la 0,001.
distribucin
998,97
En este caso, los resultados obtenidos asumiendo homogeneidad o heterogeneidad de
varianzas
idnticos
debido, que
en parte,
a que
tamaos
muestrales
nivel
devirtualmente
colesterol
HDL
significativamente
inferior
que
los sujetos
libres
menormedio
queson
0,001.
As, se pone
de
manifiesto
los
casos
de ambos
infarto
presentan
un
no difieren sustancialmente.
de
la enfermedad
(P < 0,001),
una diferencia estimada
en 0,11
mmol/llibres
(IC al
nivel
medio de colesterol
HDLcon
significativamente
inferior que
los sujetos

En resumen, la comparacin de medias en muestras independientes requiere contrastar en


mmol/l).
En este
resultados
obtenidos
asumiendo
delugar
la 0,080,14
enfermedad
(Pde
< 0,001),
concaso,
una los
diferencia
estimada
en 0,11
mmol/l
(IC de
al la t de
primer95%
la igualdad
varianzas,
para
despus
utilizar
segn
proceda
el test
Student con igual o distinta varianza. Esta distincin no es meramente acadmica: si la
homogeneidad
ommol/l).
heterogeneidad
varianzas
son virtualmente
debido,
variabilidad
difiere entre
ambas
procedimientos
estimacin
y contraste
95% 0,080,14
Enpoblaciones,
este de
caso,
loslos
resultados
obtenidosdeidnticos
asumiendo
asumiendo igualdad de varianzas pueden ser muy engaosos, particularmente en muestras
en
parte,
a que ambos
no difieren
sustancialmente.
n2 difieran
sustancialmente.
pequeas
o moderadas
cuyostamaos
tamaosmuestrales
nde
homogeneidad
o heterogeneidad
son
virtualmente
idnticos debido,
1 yvarianzas

en parte, a que ambos tamaos muestrales no difieren sustancialmente.


En resumen, la comparacin de medias en muestras independientes requiere
contrastar
en primer
lugar la igualdad
de varianzas,
paraindependientes
despus utilizar
segn proceda
En resumen,
la comparacin
de medias
en muestras
requiere
el
test de laent de
Student
con
o distinta
varianza.
Esta
distincin
no es
meramente
contrastar
primer
lugar
la igual
igualdad
de varianzas,
para
despus
utilizar
segn
proceda
Pastor-Barriuso R.
acadmica:
la Student
variabilidad
difiere
entre ambas
poblaciones,
los procedimientos
de
el test de la si
t de
con igual
o distinta
varianza.
Esta distincin
no es meramente

91

Inferencia sobre medias

6.4 COMPARACIN DE MEDIAS EN DOS MUESTRAS DEPENDIENTES


Los datos dependientes surgen cuando las observaciones recogidas en el estudio estn
correlacionadas entre s. A continuacin se presentan algunos mecanismos y diseos
epidemiolgicos que generan datos dependientes:
yy La obtencin de dos o ms determinaciones de la misma variable en un mismo sujeto da
lugar a datos dependientes, que pueden presentarse como:
Diferentes medidas de la misma variable en un momento determinado, habitualmente
para aumentar la fiabilidad del instrumento de medida.
Determinaciones de la misma variable en diferentes localizaciones anatmicas.
Medidas repetidas en el mismo sujeto a lo largo del tiempo, bien sea en comparaciones
antes y despus de un tratamiento, en ensayos clnicos cruzados o en estudios de medidas
repetidas con visitas sucesivas.
yy La seleccin de los participantes en un estudio emparejndolos por determinadas
caractersticas pronsticas genera datos dependientes entre los sujetos emparejados. El
ejemplo ms habitual es el emparejamiento en el diseo de los estudios de casos y controles.
yy Los datos de estudios procedentes de sujetos de una misma familia o de animales
pertenecientes a la misma camada suelen ser tambin dependientes.
En todos estos casos, la correlacin se limita a los grupos especficos donde se genera la
dependencia, que suelen ser habitualmente parejas. As, en un estudio de casos y controles
emparejados, los datos de cada pareja son dependientes, pero los datos de las distintas parejas
son independientes entre s. Igualmente, en un estudio de medidas repetidas, los datos de un
mismo individuo son dependientes, mientras que los resultados en diferentes individuos son
independientes entre s.
Las muestras dependientes estn constituidas por observaciones en los mismos sujetos o en
distintos sujetos emparejados segn ciertas caractersticas pronsticas de inters. De esta forma,
la distribucin de dichas caractersticas ser similar en ambas muestras, eliminando as la
posibilidad de que estos factores influyan en la comparacin objeto de estudio. En general, el
emparejamiento es una tcnica frecuentemente utilizada en el diseo de estudios clnicos o
epidemiolgicos con el propsito de controlar por determinados factores de confusin (ver
textos de mtodo epidemiolgico referenciados al final del tema). Estos diseos requieren de
tcnicas especficas de anlisis que preserven el emparejamiento. En este apartado se revisan
los mtodos estadsticos para el tratamiento de un caso especfico de dependencia, en el que se
dispone de dos determinaciones de una variable continua para cada pareja de datos dependientes.
Ejemplo 6.12Supongamos que en el estudio EURAMIC se seleccionan
aleatoriamente50casos de infarto de miocardio. Como la edad es un importante factor
pronstico de enfermedades coronarias, cada uno de estos casos se emparej por grupos
quinquenales de edad a un control libre de la enfermedad. As, por ejemplo, para un caso
de 62 aos de edad se seleccion aleatoriamente un control entre todos los controles
disponibles con edades comprendidas entre 60 y 64 aos. La muestra resultante de aplicar
este procedimiento constituira un estudio de casos y controles emparejados. En este
estudio, cabra esperar un cierto grado de correlacin en la informacin recogida para
cada pareja, dado que tanto el caso como el control se encuentran en el mismo rango de
edad. En la Tabla 6.1 se presentan los niveles de colesterol HDL en las 50 parejas de casos
y controles.
92

Pastor-Barriuso R.

Comparacin de medias en dos muestras dependientes

Tabla 6.1 Colesterol HDL en 50 casos y controles del estudio EURAMIC emparejados
segn grupos quinquenales de edad.
Colesterol HDL (mmol/l)
Pareja
1

Colesterol HDL (mmol/l)

Caso

Control

d*

Pareja

0,81

0,63

0,18

26

2
0,91
0,91
0,00
27
3
0,98
0,76
0,22
28
4
0,91
1,19
0,28
29
5
0,55
0,99
0,44
30
6
0,62
1,14
0,52
31
7
0,79
0,73
0,06
32
8
0,89
1,08
0,19
33
9
1,24
0,87
0,37
34
10
1,76
1,04
0,72
35
11
1,35
1,03
0,32
36
12
0,72
1,09
0,37
37
13
0,94
1,12
0,18
38
14
1,01
1,20
0,19
39
15
0,98
1,62
0,64
40
16
0,92
1,25
0,33
41
17
0,68
1,31
0,63
42
18
1,48
1,00
0,48
43
etar el problema, supongamos
que
se
dispone
de
n
pares
de
observaciones
19
1,23
0,78
0,45
44
20
0,83
0,95
0,12
45
e aleatoria continua. 21
En cada pareja
de datos1,13
dependientes,
una 46
0,92
0,21
22
0,82
0,97
0,15
47
corresponde a la primera muestra y la otra observacin x2 a la segunda
23
1,21
0,74
0,47
48
24
0,78
0,88
0,10
49
jetivo se centra en comparar las medias poblacionales 1 y 2 a partir de
25
0,88
1,14
0,26
50

Control

d*

0,96

1,29

0,33

1,33
0,93
0,32
0,86
0,93
1,40
1,50
0,92
0,88
0,82
1,52
1,68
0,81
0,60
1,16
0,75
0,96
1,46
0,76
0,76
1,12
1,01
0,99
0,75

0,72
1,04
1,54
1,08
1,12
1,75
1,29
1,17
0,93
0,88
0,74
1,45
1,02
1,15
1,49
0,98
1,31
1,15
1,51
1,01
1,26
0,91
1,63
1,45

0,61
0,11
1,22
0,22
0,19
0,35
0,21
0,25
0,05
0,06
0,78
0,23
0,21
0,55
0,33
0,23
0,35
0,31
0,75
0,25
0,14
0,10
0,64
0,70

Caso

* Diferencia de colesterol HDL entre caso y control.


stras dependientes.

imientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta


Para concretar el problema supongamos que se dispone de n pares de observaciones de una
variable
En cada pareja de
dependientes,
una observacin x1 corresponde
ue las medias de ambasaleatoria
muestrascontinua.
no son independientes
pordatos
provenir
de
a la primera muestra y la otra observacin x2 a la segunda muestra. El objetivo se centra en
comparar
las medias
poblacionales
1 y 2 a partir
de estas dos muestras dependientes.
correlacionadas.
Sin embargo,
la comparacin
se simplifica
notablemente

Los procedimientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta situacin, ya


las diferencias dque
= x1las
- x2medias
en cadadeuna
de lasmuestras
n observaciones
ambas
no son emparejadas.
independientes por provenir de observaciones
correlacionadas. Sin embargo, la comparacin se simplifica notablemente si se calculan las
omo las distintas
parejas nodestn
entre
diferencias emparejadas. Por un lado, como las
x2 en cada una
des,lasestas
n observaciones
diferencias
= x1 relacionadas
distintas parejas no estn relacionadas entre s, estas diferencias son independientes. Por otro
lado, la
la media
media de
de las
las diferencias
diferencias d coincide
entes. Por otro lado,
coincide con
con la
la diferencia de medias muestrales,

medias muestrales,

d=
=

1 n
1 n
=
d
( x i1 x i 2 )
i
n
n i =1
i =1
1
1
x i1 xi 2 = x1 x 2

n i =1
n i =1
n

Pastor-Barriuso R.

93

i =1

i =1

n
son independientes.
otro lado,
la
media1den las diferencias d coincide con la
rrollados en el Apartado
6.3 no puedenPor
aplicarse
a 1esta
=
x i1 xi 2 = x1 x 2

Inferencia sobre medias


n i =1
n i =1
diferencia
de medias muestrales,
de ambas muestras
no son independientes
por provenir de
donde sd es la desviacin tpica de las diferencias observadas. De igual forma, la
consecuencia,
d es un estimador
insesgado
de la diferencia de medias
das. Sin embargo, y,
la en
comparacin
se simplifica
notablemente
1 n
1 n
= d i = H: (x i1=x i 2puede
)
hiptesis de igualdad de mediasdpoblacionales
contrastarse frente a la
0
1
2
n i =1 de la
n comparacin
i =1
poblacionales
de medias en dos muestras
1 - 2. As, el problema
s d = x - x en cada
una de las n observaciones
emparejadas.

1 n el estadstico
1 n
hiptesis alternativa H1: 1 2 mediante
x i1 inferencia
x1 xla
dependientes
a=una
simple
2 media de una nica
tas parejas no estn
relacionadasqueda
entrereducido
s, estas diferencias
xi 2 = sobre
n i =1
n i =1

muestra
de n diferencias
independientes.
d de la diferencia de medias poblacionales 1 2.
d es
coincide
con la insesgado
o lado, la mediay,deen
las
diferencias
consecuencia,
un estimador
.
t=
s d en dosde
As,y,elenproblema
de la comparacin
de medias
muestras
dependientes
queda reducido a
consecuencia,
d es un estimador
insesgado
la diferencia
de medias
Los mtodos
delsobre
Apartado
6.2.1de
para
media
de unade
muestra
pueden independientes.
entonces
n muestra
rales,
una simple
inferencia
la media
unalanica
n diferencias
poblacionales
1 -Apartado
2. As, el6.2.1
problema
demedia
la comparacin
de medias
en dos
muestras
Los
mtodos
para
de
muestra
pueden
entonces
utilizarse
utilizarse
paradel
calcular un intervalo
de la
confianza
al una
100(1
- )% para

1 - 2 como
n
n
la hiptesis
nula, las de
diferencias
distribuiran
para calcular
un intervalo
confianzaobservadas
al 100(1 se
)%
para aleatoriamente
1
1Bajo
2 como
d = di =
( x i1 x i 2 ) queda reducido a una simple inferencia sobre1 la media
dependientes
de una nica
n i =1
n i =donde
1
la desviacin
tpica de
diferenciassobservadas.
Dedistribucin
igual forma,t de
la
d esvalor
d seguira una
alrededor sdel
0, de tal forma
quelas
deste
testadstico
,
n 1,1 / 2
n
nmuestra de n diferencias independientes.
1
1
n
= x i1 Student
= x1de
- igualdad
xi 2 con
x12 grados de
contrastarse
frente a la
hiptesis
medias
poblacionales
H0: 1 = 2 puede

n
de
liberad.
El
valor
P
corresponder,
por tanto,
a la
n i =1
n i =1
donde
sd esmtodos
la desviacin
tpica de
las para
diferencias
observadas.
De igual
forma,
la hiptesis de
Los
del Apartado
6.2.1
la media
de una muestra
pueden
entonces
igualdad
de medias
1 =valores
2 el
puede
contrastarse
frente
la hiptesis
alternativa
hiptesis
alternativa
H1: 1 t2H
mediante
estadstico
0:para
probabilidad
bajo lapoblacionales
distribucin
ms
extremos que
el avalor
observado
n-1
H
:

mediante
el
estadstico
para calcular
un intervalo de confianza al 100(1 - )% para 1 - 2 como
1 utilizarse
1 de 2la diferencia
n estimador insesgado
de medias
24
de t. Esta prueba se denomina habitualmente como el test de la t de Student para
d
.s d
el problema de la comparacin de medias en dos muestrast =
s
d
d
t

,
n 1,1 / 2
muestras dependientes.
n n
o a una simple inferencia sobre la media de una nica
Bajo la hiptesis nula, las diferencias observadas se distribuiran aleatoriamente alrededor del
Ejemplo
6.13 nula,
Para
preservar
el emparejamiento
entre
los casos
yStudent
controles
Bajo
la
las diferencias
observadas
distribuiran
aleatoriamente
0,
dehiptesis
tal forma
que este
estadstico
seguira
unase
distribucin
t de
conde
n la1 grados
dependientes. valor
libertad. Elque
valor
corresponder,
a la probabilidad bajo la distribucin tn1 para
ar el problema,de
supongamos
se P
dispone
de n parespor
detanto,
observaciones
d = xca una
-sexcodenomina
en cada pareja.
Tabla
6.1,
se
calcula
la
diferencia
de
colesterol
alrededor
del
valor
0,
de
tal
forma
que
este
estadstico
distribucin
t de 24
do 6.2.1 para la valores
media dems
unaextremos
muestra pueden
que el entonces
valor observado de t. HDL
Estaseguira
prueba
habitualmente
comoEn
el cada
test de
la t de
para muestras
aleatoria continua.
pareja
de Student
datos dependientes,
una dependientes.
Como
puede
apreciarse,
predominan
las
parejas
donde el caso
un nivel
Student
con
n
1
grados
de
liberad.
El
valor
P corresponder,
porpresenta
tanto, a la
ntervalo de confianza al 100(1 - )% para 1 - 2 como
Ejemplo
6.13y laPara
el emparejamiento
corresponde a la primera
muestra
otrapreservar
observacin
x2 a la segundaentre los casos y controles de la Tabla 6.1,
inferior debajo
colesterol
HDL quetn-1
supara
correspondiente
control
(diferencias
negativas).
probabilidad
la distribucin
valores
extremos
que el
valor
observado
se
calcula
la
diferencia
de
colesterol
HDL
d = xca ms
xco en
cada pareja.
Como
puede
apreciarse,
sd
d
t

,
n 1en
,1 comparar
/ 2 predominan
las parejas
donde el caso
presenta
undenivel inferior de colesterol HDL que su
1 y
etivo se centra
las medias
poblacionales
2 a partir
hecho,
la media
de estashabitualmente
diferencias
nEsta
de tDe
.correspondiente
prueba
secontrol
denomina
como
el hecho,
test delalamedia
t de Student
(diferencias negativas). De
de estas para
diferencias
tras dependientes.
muestras dependientes. 1 50
0,18 + 0,00 + ... 0,70
d=
di =
= 0,12

mientos desarrollados en el Apartado 6.3 no50


pueden
aplicarse a esta
50
i =1
24
Ejemplo
6.13 Para
el en
emparejamiento
entre los casos y controles de la
es muestras
una
estimacin
lapreservar
diferencia
nivel medio
ue las medias de ambas
no sonde
independientes
porelprovenir
de de colesterol HDL entre los casos de
50
es
una estimacin
la1diferencia
en el nivelLa
medio
de colesterol
HDL entre
losdada por
infarto
y los sujetos2delibres
de la enfermedad.
varianza
de las diferencias
viene
(d i d ) 2de colesterol HDL d = xca - xco en cada pareja.
s d = la
Tabla 6.1, se calcula
diferencia
49 ise
correlacionadas. Sin embargo, la comparacin
=1 simplifica notablemente
1 50 libres de2 la enfermedad. La varianza de las
casos de infarto y los
sujetos
2
(d i d2 ) las parejas donde2 el caso presenta un nivel
sd =

Como puede apreciarse,


predominan
(n49
0observaciones
,18
+ (0,70 + 0,12)
i =1+ 0,12) + ...
as diferencias d = x1 - x2 en cada una de las
emparejadas.
=
= 0,16,
diferencias viene dada por
49
2
2
inferior de colesterol
control
(diferencias negativas).
(0HDL
,18 + 0que
,12)su +correspondiente
... + (0,70 + 0,12
)
mo las distintas parejas no estn relacionadas
= entre s, estas diferencias
= 0,16,
49
De el
hecho,
media de estas
luego
error la
estndar
d es diferencias
error
de d es
ntes. Por otro lado, laluego
mediaelde
las estndar
diferencias
coincide con la
luego el error estndar de d es
1 50
,00 + ... 0,70
s0d,18 +0,040
medias muestrales,
d = SE
(dd)i ==
=
= 0,057 . = 0,12
50 i =1
n
50 50
sd
0,40
SE (d ) =
=
= 0,057 .
25
1 n
1 n
n
50
d = d i = ( x i1 x i 2 )
es
una
estimacin
de
la
diferencia
en
el
nivel
medio
de
colesterol
HDL
entre
los
elR.
94 Pastor-Barriuso
n i =As,
nICi =1al 95% para la diferencia de medias poblacionales ca - co se obtiene
1
=

n
1 ncomo
ca - co de
se las
obtiene
As,
el 1ICde
alinfarto
95% para
diferencia
dede
medias
poblacionales
casos
y loslasujetos
libres
la enfermedad.
La varianza

x
xi 2 = x1 x 2
1
i

n i =1
n i =1

SE (d ) =

=
= 0,057 .
n
50
As, el IC al 95% para la diferencia de medias poblacionales ca - co se obtiene
As, el IC al 95% para la diferencia de medias poblacionales ca - co se obtiene
como

Referencias

como
As, el IC al 95% para
d la
t diferencia
SE( d de
) medias poblacionales ca co se obtiene como
49;0,975

d t49;0,975
SE( d) 2,010,057 = (-0,23; -0,01),
= -0,12
= 0,12 2,010,057 = ( 0,23; 0,01),

y la hiptesis nula H0: ca = co se contrasta mediante el test estadstico


y la hiptesis nula H0: ca = co se contrasta mediante el test estadstico
y la hiptesis nula H0: ca = co se contrasta mediante el test estadstico
d
0,12
t=
= 2,13,
=
SE (d ) 0,057
d
0,12
t=
=
= -2,13,
cuyo valor P asociado en la distribucin
es P = 2P(t49 2,13) = 20,019 = 0,038. De
SE (d ) t049,057
cuyoestudio
valor Pdeasociado
la distribucin
t49 espuede
P = 2P(t
= 20,019
este
casos y en
controles
emparejados
entonces
concluirse
que =la media del
49 -2,13)
colesterol HDL en los casos de infarto es inferior en 0,12 mmol/l al nivel medio de
= 2P(t49
-2,13)
= 20,019
=
cuyo
valor P asociado
en la0,01-0,23
distribucin
t49 es Psiendo
0,038.
los
controles
(IC al 95%
mmol/l),
esta
diferencia
estadsticamente
significativa (P = 0,038). Esta conclusin es consistente con la obtenida en el Ejemplo
0,038.
De
este
de casos
y controles
emparejados, de
puede
concluirse
que cabe
6.11
paraestudio
las muestras
completas
e independientes
casosentonces
y controles.
No obstante,
destacar las siguientes particularidades. Por un lado, esta estimacin est sujeta a mayor
este estudio
de casos
y controles
emparejados,
puede
entonces
concluirse
laDemedia
del aleatoria
colesterol
en los
de50
infarto
es de
inferior
en
0,12
mmol/l
al
variabilidad
yaHDL
que
tan
slocasos
utiliza
parejas
casos
y controles.
Porque
otro lado,
el diseo emparejado permite comparar casos con controles de similar edad y, en
la media
delde
colesterol
HDL(IC
en los
casos0,010,23
de infartommol/l),
es inferior
en 0,12
al
nivel
medio
losestimacin
controles
95%
siendo
estammol/l
diferencia
consecuencia,
la
seral menos
propensa a posibles
sesgos
derivados de la
diferencia de edad entre casos y controles.
nivel medio de los
controles (IC
95% 0,010,23
mmol/l),essiendo
esta diferencia
estadsticamente
significativa
(P =al0,038).
Esta conclusin
consistente
con la
Los procedimientos presentados en este apartado se limitan a la comparacin de una variable
estadsticamente
significativa
(P las
= 0,038).
Esta conclusin
es consistente con
obtenida
Ejemplo
6.11emparejadas
para
muestras
independientes
de la de dos
continua
a partirendeeldos
muestras
sujeto acompletas
sujeto. Eleanlisis
de la varianza
vas permite extender esta comparacin a casos ms generales de dependencia, tales como el
obtenida
en el Ejemplo
6.11 para lasdestacar
muestraslascompletas
e independientes dePor
y controles.
siguientes
diseocasos
de parejas
con msNo
deobstante,
un sujetocabe
por muestra (por
ejemplo, unparticularidades.
estudio de casos y controles
donde cada caso se empareja con 2 controles) o la comparacin de tres o ms muestras
casos
y controles.
No obstante,
cabe
destacar
las siguientes
particularidades.
Por
un
lado,
estaejemplo,
estimacin
sujeta
a mayor
variabilidad
aleatoria
que tantratamientos
solo
dependientes
(por
un est
ensayo
clnico
donde
cada paciente
recibeya
diversos
alternativos). Los mtodos de anlisis de la varianza de dos vas pueden consultarse en los
un lado,
estimacin
est
sujeta a mayor
variabilidad
aleatoria
ya que tan solo
50esta
parejas
de acasos
y controles.
Por otro
lado, el diseo
emparejado
textosutiliza
estadsticos
citados
continuacin.
utiliza 50 parejas de casos y controles. Por otro lado, el diseo emparejado
6.5REFERENCIAS

26

1. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, 26


Fourth
Edition. Oxford: Blackwell Science, 2001.
2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
4. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole,
2001.
5. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.
6. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley &
Sons, 1986.

Pastor-Barriuso R.

95

Inferencia sobre medias

7. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research: Principles and


Quantitative Methods. New York: John Wiley & Sons, 1982.
8. Kleinbaum DG, Kupper LL, Muller KE, Nizam A. Applied Regression Analysis and Other
Multivariable Methods, Third Edition. Belmont, CA: Duxbury Press, 1998.
9. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press,
1999.
10. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.
11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
12. Stuart A, Ord JK, Arnold S. Kendalls Advanced Theory of Statistics, Volume 2A, Classical
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.

96

Pastor-Barriuso R.

7.1 INTRODUCCIN
En el anlisis de datos epidemiolgicos es frecuente el estudio de variables dicotmicas,
que reflejan la presencia o ausencia deTEMA
una determinada
7 caracterstica en los miembros
de una poblacin. El inters radica fundamentalmente en estimar la proporcin de

INFERENCIA SOBRE PROPORCIONES

individuos o elementos de la poblacin que presentan dicha caracterstica.

Esta proporcin poblacional es un parmetro desconocido que se estima mediante


7.1 INTRODUCCIN
la proporcin muestral p = k/n, donde k es el nmero observado de individuos que
En el anlisis de datos epidemiolgicos es frecuente el estudio de variables dicotmicas, que
reflejan
la presencia
o ausencia
de unaendeterminada
en losn.miembros
de una
presentan
la caracterstica
de inters
una muestra caracterstica
aleatoria de tamao
La
poblacin. El inters radica fundamentalmente en estimar la proporcin de individuos o
elementos
de lamuestral
poblacin
dicha
caracterstica.
distribucin
deque
unapresentan
proporcin
ya se
discuti en el Apartado 4.3.4.

Esta proporcin
eesindependientes.
un parmetro Para
desconocido
que sedeestima
mediante la
partir
de muestraspoblacional
dependientes
cada problema
inferencia
Brevemente,
recordamos
una
muestral
p tiende
distribuirse
depresentan
forma
proporcin
p = k/n,que
donde
kproporcin
esproblema
el nmero
de aindividuos
que
la
de muestras dependientes
emuestral
independientes.
Para
cada
de observado
inferencia
sobre
proporciones
se
presentar
un
estimador
puntual
del
parmetro
poblacional
objeto
caracterstica de inters en una muestra aleatoria de tamao n. La distribucin muestral de una
normal con
y varianza
(1parmetro
- )/n,
ya
se
discuti
en el Apartado
4.3.4. poblacional
Brevemente,objeto
recordamos que una proporcin
proporciones seproporcin
presentar
unmedia
estimador
puntual
del
de
estudio,
un
intervalo
de
confianza
y
una
prueba
de
significacin.
muestral p tiende a distribuirse de forma normal con media y varianza (1 )/n,
partir de muestras dependientes e independientes. Para cada problema de inferencia
udio, un intervalo de confianza y una prueba de significacin.
~ N , (1 ) ,
p
del parmetro poblacional objeto

sobre
proporciones
se
presentar
un
estimador
puntual
n POBLACIONAL
7.2 INFERENCIA SOBRE UNA PROPORCIN

NFERENCIA SOBRE
UNA
PROPORCIN
POBLACIONAL
cuando
el tamao
muestral
suficientemente
grande
y la proporcin poblacional no es
de estudio,
un
intervalo
de es
confianza
y una prueba
de significacin.
Con frecuencia
se muestral
desea
conocer
la
lade
individuos
unaaproximacin
cierta
cuando
el tamao
es suficientemente
y la proporcin
no es
excesivamente
extrema,
de tal
forma
queproporcin
se cumplagrande
condicin
n(1que
)poseen
poblacional
5. Esta
se utilizar
de esteque
tema
de inferencia
sobre datos de carcter binario o
recuencia se desea
conocerrepetidamente
la proporcin alo
delargo
individuos
poseen
una cierta
caracterstica
enextrema,
la poblacin.
Como
ya
enlaPOBLACIONAL
elcondicin
Apartado n5.2,
dicotmico.
7.2 INFERENCIA
SOBRE
PROPORCIN
(1 la
- proporcin
) 5. Esta
excesivamente
de talUNA
forma
queseseapunt
cumpla
erstica en la poblacin.
Como
el Apartado
5.2,medias,
la proporcin
Al igual
que ya
en se
el apunt
tema deeninferencia
sobre
este captulo aborda la estimacin de
muestral p es un
buen
estimador
puntual adelolalargo
proporcin
poblacional,
ya quesobre
p es el
aproximacin
se
utilizar
repetidamente
de
estaproporciones
tema que
de inferencia
unaCon
proporcin
poblacional,
as como
la comparacin
de
a partir
muestras
frecuencia
se desea conocer
la proporcin
de individuos
poseen
una de
cierta
ral p es un buendependientes
estimador puntual
de la proporcin
ya quede
p es
el
e independientes.
Parapoblacional,
cada problema
inferencia
sobre proporciones se
estimador
insesgado
ypuntual
consistente
de con menor
error estndar.
datos
deun
carcter
binario
o dicotmico.
presentar
estimador
del
parmetro
poblacional
objeto de
estudio,
un intervalo de
caracterstica
en la poblacin.
Como
ya se apunt
en el Apartado
5.2,
la proporcin
ador insesgado confianza
y consistente
de prueba
con menor
error estndar.
y una
de significacin.
Al
igual quelaen
el tema de inferencia
sobre
medias, este
captulo
aborda
la la
Utilizando
aproximacin
normal a la
distribucin
muestral
de p,
se tiene
muestral p es un buen estimador puntual de la proporcin poblacional, ya que p es el
lizando la aproximacin
normal a la distribucin
muestral
de p, se tiene
la
7.2estimacin
INFERENCIA
SOBRE UNA
PROPORCIN
de una proporcin
poblacional,
as comoPOBLACIONAL
la comparacin de proporciones a
siguiente relacin
estimador insesgado y consistente de con menor error estndar.
nte relacin Con frecuencia se desea conocer la proporcin de individuos que poseen una cierta caracterstica
en la poblacin. Como ya se apunt en el Apartado 5.2, la proporcin muestral p es un buen
Utilizando la aproximacin
normal apladistribucin
de p, se tiene la

ya que p esmuestral
estimador puntual de la proporcin
estimador insesgado y consistente
P z1 / 2poblacional,

z1 / el
1
2 1 ,

(1 ) / n
p estndar.

de con menor error

relacin
Psiguiente
z

z1 / 2 1 ,
1 / 2

(1 ) / n normala la distribucin muestral de p, se tiene la siguiente relacin


Utilizando
la aproximacin

donde z1-/2 es el percentil


normal
1 - /2 de la distribucin
estandarizada. El mtodo
p
z1 / 2

z
/2 1 ,
z1-/2 es el percentil 1 - /2 de la distribucin
El1mtodo
normal estandarizada.

(
1

)
/
n
un intervalo de confianza consiste
en sustituir el error
ms sencillo para obtener

encillo para obtener


intervalo
confianza
en distribucin
sustituir el error
dondeunz1/2
es el de
percentil
1 consiste
/2 de la
normal estandarizada. El mtodo ms
estndar
de
p
por
su
estimacin
p
(
1

p
)
/
n
y
despejar
la estandarizada.
proporcin
sencillo
un intervalo
consistenormal
en sustituir
el error poblacional
estndar
de p por su
dondepara
z1-/2obtener
es el percentil
1 - de
/2 confianza
de la distribucin
El mtodo
estimacin p (1 p ) / n yy despejar
dar de p por su estimacin
despejar la
la proporcin
proporcin poblacional
poblacional
ms sencillo para obtener un intervalo de confianza consiste en sustituir el error

p (1 p)
p(1 p)
1 .
p z1 / 2
P p z1 / 2

n
n

(
1
)
(
1
)
p
p
p
p

de
p
por
su
estimacin
p
(
1

p
)
/
n
y
despejar
la
proporcin
poblacional

p
z
P p z1estndar
.
/2
1 / 2

n
n

R.
Pastor-Barriuso
viene
As, el intervalode confianza al 100(1 - )% para la proporcin poblacional
p (1 p)
p(1 p)

zpara
poblacional
p z1 / 2 viene
1 / 2la proporcin
l intervalo de confianza al 100(1P- p)%
1 .
n
n

dado por

97

zn

0 (1 0 )

n
As, el intervalo de confianza al 100(1 - )% para la proporcin poblacional viene

Inferencia sobre proporciones

cuya
distribucin
ser aproximadamente N(0, 1) si la hiptesis nula H0: = 0 es cierta.
dado
por
As, el intervalo de confianza al 100(1 )% para la proporcin poblacional viene dado por
El valor P del test corresponde entonces a la probabilidad bajo la distribucin normal
p(1 p )
p z1 / 2
.
estandarizada para valores ms alejados de 0 que el nvalor observado de z.
Para realizar el contraste de la hiptesis nula H0: = 0 frente a la alternativa bilateral H1: 0,
puedeEjemplo
emplearse
el A
estadstico
Para
realizar
el
contraste
de controles
la hiptesis
H0:
= 0 frente se
a la
alternativa
7.1
partir
de los
delnula
estudio
EURAMIC,
pretende
estimar
p 0
z el estadstico ,
puede emplearse
bilateral
H1:
la proporcin
de0, individuos
en la poblacin
de dicho estudio que
0 (1 de
0referencia
)

n
presentan niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles
2
cuya distribucin ser aproximadamente N(0, 1) si la hiptesis nula H0: = 0 es cierta. El
bajos
segn
el National
Cholesterol
Education
Program).
En kH=0normal
los
n=
valor
P
del
test
corresponde
entonces
a la probabilidad
la distribucin
:158
=de
0estandarizada
es cierta.
cuya
distribucin
ser aproximadamente
N(0, 1) si bajo
la
hiptesis
nula
para valores ms alejados de 0 que el valor observado de z.
539 controles
observaron entonces
valores inferiores
o igualesbajo
a este
El valor
P del testsecorresponde
a la probabilidad
la umbral,
distribucin normal
Ejemplo 7.1 A partir de los controles del estudio EURAMIC, se pretende estimar la
obtenindose
proporcin
muestral
estandarizada
valores
ms
de 0 que
el valor observado
z.
proporcin para
deuna
individuos
enalejados
la poblacin
de referencia
de dichode
estudio
que presentan
niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles bajos segn el
National Cholesterol Education
k = 158 de los n = 539 controles se
p = k/nProgram).
= 158/539 =En
0,293.
Ejemplo
7.1
A
partir
de
los
controles
del
estudio
EURAMIC,
se pretende
observaron valores inferiores o iguales a este umbral,
obtenindose
una estimar
proporcin
muestral
Dado
que np(1 - p)
111,7 5,enpuede
emplearse
aproximacin
normal
paraque
la proporcin
de =individuos
la poblacin
de la
referencia
de dicho
estudio
p = k/n = 158/539 = 0,293.
presentan
colesterol
HDL inferiores
olaiguales
a 0,90 mmol/l
como
calcular
unnp(1
ICniveles
al 95%
laproporcin
poblacional
Dado
que
p) =depara
111,7
5, puede
emplearse
aproximacin
normal(niveles
para calcular
un IC al 95% para la proporcin poblacional como
bajos segn el National Cholesterol Education Program). En k = 158 de los n =
0,293(1 0,293)
0,293 z 0,975
539 controles se observaron valores539
inferiores o iguales a este umbral,
= 0,293 1,960,020 = (0,255; 0,332);
obtenindose una proporcin muestral
es decir, la proporcin poblacional de sujetos con niveles bajos de colesterol HDL est
comprendida entre el 25,5 y el 33,2%
con=una
confianza
del 95%. Asimismo, para determinar
p = k/n
158/539
0,293.
es decir, la proporcin poblacional
de sujetos
con=niveles
bajos de colesterol HDL
si los datos muestrales son compatibles con una proporcin subyacente del 30%, se
contrast la hiptesis H0: = 0,30 versus H1: 0,30 mediante el estadstico
estDado
comprendida
25,5 y 5,
el puede
33,2% emplearse
con una confianza
del 95%.normal
Asimismo,
que np(1 entre
- p) =el111,7
la aproximacin
para
p 0
0,293 0,30
z=

= 0,35,
para
determinar
datos
muestrales
son
compatibles
una proporcin
para
0,30
(1 0,30) con
0 (1
0)
como
calcular
un ICsiallos
95%
laproporcin
poblacional
n
539
subyacente del 30%, se contrast la hiptesis H0: = 0,30 versus H1: 0,30
que corresponde a un valor P = 2P(Z
0,35)
= 2{1
0,293
(1 0,293
) (0,35)} = 0,726 en las tablas de
0
,
293

z
0 , 975
la distribucin
normal
estandarizada
Apndice).
Por= tanto,
que
corresponde
a un valor
P = 2P(Z (Tabla
-0,35)
= 2{1
- (0,35)}
0,726 puede
en las concluirse
mediante
el estadstico
5393 del
que la prevalencia poblacional de niveles bajos de colesterol HDL no es significativamente
distintadedel
tablas
la 30%.
distribucin normal=estandarizada
(Tabla=3(0,255;
del Apndice).
0,293 1,960,020
0,332); Por tanto,
concluirse que
prevalencia
poblacional
niveles
bajosasumen
de colesterol
Lospuede
procedimientos
de la
inferencia
presentados
en de
este
apartado
que el tamao
es
decir,
la
proporcin
poblacional
de
sujetos
con
niveles
bajos
de
colesterol
HDL
3 ha de
muestral es suficientemente grande para aplicar la aproximacin normal; es decir,
HDLelnorequerimiento
es significativamente
distinta
del 30%.
cumplirse
mnimo de
que n(1
) 5. No obstante, en el Apndice de este
est
comprendida
entre
el
25,5
y
el
33,2%
unamtodos
confianza
95%. Asimismo,
tema (Apartado 7.8) se facilitan correcciones de con
estos
quedelpermiten
aumentar la
cobertura de los intervalos de confianza y reducir la probabilidad de un error de tipo I en los
para
determinardesiinferencia
los datoselmuestrales
son
con
proporcin
Los procedimientos
presentados
en compatibles
este
asumen
que el
tamao
contrastes,
particularmente
cuando
tamao muestral
es apartado
moderado
o una
pequeo.
Esta
correccin
98

muestral subyacente
es suficientemente
para aplicar
la aproximacin
normal;
de
versusesHdecir,
0,30
del 30%,grande
se contrast
la hiptesis
H0: = 0,30
1: ha
Pastor-Barriuso R.

el estadstico
cumplirsemediante
el requerimiento
mnimo de que n(1 - ) 5. No obstante, en el Apndice de

Comparacin de proporciones en dos muestras independientes

de la aproximacin normal se conoce como correccin por continuidad y es aplicable a la


mayora de los procedimientos estadsticos descritos en este tema. En adelante, se tratarn los
mtodos de inferencia sin correccin por continuidad. Las correspondientes versiones con
correccin se presentan en el Apndice al final del tema.
7.3COMPARACIN DE PROPORCIONES EN DOS MUESTRAS INDEPENDIENTES
Supongamos ahora que el inters radica en comparar la proporcin de sujetos con una
determinada caracterstica en dos muestras independientes. Este planteamiento general es
aplicable a las comparaciones realizadas en cualquiera de los siguientes diseos de un estudio:
yy Un estudio prospectivo es aquel en el que n1 individuos expuestos a una intervencin
(ensayo clnico) o a un potencial factor de riesgo (estudio de cohortes) y n2 individuos no
expuestos son seguidos a lo largo de un periodo de tiempo para determinar cuntos
desarrollan la enfermedad. Los tamaos muestrales de ambos grupos n1 y n2 estn fijados
de antemano y, en el caso de un ensayo clnico, la intervencin se asigna de forma aleatoria
a cada sujeto. El objetivo se centra en comparar la proporcin de sujetos que desarrollan
la enfermedad entre los expuestos y los no expuestos.
yy Un estudio retrospectivo (estudio de casos y controles) es aquel en el que m1 sujetos con
la enfermedad (casos) y m2 sujetos libres de ella (controles) son examinados para determinar
cuntos han estado previamente expuestos al potencial factor de riesgo. Bajo este diseo,
el nmero de casos y controles est predeterminado y, en consecuencia, ha de compararse
la proporcin de expuestos entre los sujetos con y sin la enfermedad.
yy Un estudio transversal es aquel en el que se selecciona un total de n individuos en un
instante determinado para establecer en cada sujeto la presencia o ausencia de la exposicin
y la enfermedad. A diferencia de los estudios prospectivos, donde se compara la incidencia
de nuevos casos de la enfermedad, los estudios transversales comparan la prevalencia de
la enfermedad en un instante determinado entre expuestos y no expuestos.
Ejemplo 7.2 En el Second National Health and Nutrition Examination Survey
(NHANES II), una encuesta llevada a cabo entre 1976 y 1980 en Estados Unidos, se
recogieron datos del nivel de colesterol srico total en una muestra representativa
de 7.712 sujetos entre 30 y 74 aos de edad sin diagnstico previo de enfermedad
cardiovascular o cncer. Tras un seguimiento medio de 15 aos, se determin el estatus
vital de cada sujeto y, en su caso, la causa de muerte. As, en este estudio de cohortes
prospectivo se registraron 254 muertes por enfermedad cardiovascular entre los 2.713
participantes con niveles de colesterol total superiores o iguales a 6,20 mmol/l (niveles
altos segn el National Cholesterol Education Program) y 309 muertes por enfermedad
cardiovascular entre los 4.999 participantes con niveles de colesterol total inferiores
a 6,20 mmol/l.
Ejemplo 7.3 En el estudio de casos y controles EURAMIC, se clasific a los sujetos
segn tuvieran valores superiores o inferiores al umbral de 0,90 mmol/l de colesterol HDL.
De los 462 casos de infarto de miocardio con datos disponibles, 193 tuvieron valores de
colesterol HDL inferiores o iguales a 0,90 mmol/l; mientras que de los 539 controles
libres de la enfermedad, 158 presentaron valores de colesterol HDL inferiores a dicho
umbral.

Pastor-Barriuso R.

99

valores de colesterol HDL


valores
inferiores
de colesterol
a dicho HDL
umbral.
inferiores a dicho umbral.
Inferencia sobre proporciones

n general, los resultados


Ende
general,
la comparacin
los resultados
de una
devariable
la comparacin
dicotmica
de una
en dos
variable dicotmica en dos

tras independientesmuestras
suelen organizarse
independientes
en una
suelen
tablaorganizarse
22 (Tabla en
7.1).
unaEntabla
este22 (Tabla 7.1). En este
Tabla 7.1Tabla 22 genrica de la
2(1 - 2)/n2). Adems, como ambas muestras son
asociacin entre exposicin y enfermedad.
ado suponemos queapartado
se analizan
suponemos
datos deque
un estudio
se analizan
prospectivo,
datos de un
en el
estudio
que seprospectivo, en el que se
Enfermedad
4), se tiene que
~ N( , (1 - )/n ). Adems, como ambas muestras son
1, en
) ydiferencia
p2 de

N(
Exposicin
1(1estimar
1)/n1la
2 la2 proporcin
2 expuestos
2 de No
nde estimar la diferencia
pretende
la- proporcin
enfermos
en
entreS
enfermos
y no Total
entre expuestos y no

S
a
b
n1
1 (1 1 ) 2 (1 2 )
. mtodos
estos.
pueden aplicarse
(vase
1 Estos
2,
independientes
Apartado
se tiene
que d a estudios
mtodos
expuestos.
Estos
igualmente
a3.4),
estudios
aplicarse
igualmente
peron
retrospectivos, pero
No pueden
c retrospectivos,

n1

n2

Total

m1

m2

arando la proporcin
comparando
de expuestos
la proporcin
entre casosdey expuestos
controles (ver
entre
controles
Ejemplo 7.5).
1Ejemplo
(1casos
2 (1 (ver
1 )y 7.5).

2)
~
p1 de
p 2de

p1 - p2 es un estimador
puntuallos
insesgado
lalaN comparacin
.
1 2 ,
En general,
resultados
de
en dos muestras
n1 una variable
n 2 dicotmica

~
independientes
suelen
organizarse
en
una
tabla
22
(Tabla
7.1).
En
este
apartado
suponemos
1(1 - 7.1
2, aqu]
- aproximadamente
2)/n2). Adems, como
ambas muestras son
N(1,[Tabla
1)/n
1) y p2 N(
2(1
aproximadamente
[Tabla
7.1
aqu]
y
no
expuestos,
E(p
p
)
=

1 - 2 entre expuestos
1
2
1
que se analizan datos de un estudio prospectivo, en el que se pretende estimar la diferencia en
De este resultado
se desprende
que p1 - p2 yesno
unexpuestos.
estimador puntual
insesgado
de la aplicarse
la independientes
proporcin
de enfermos
entre expuestos
Estos mtodos
pueden
(vase Apartado
3.4), se tiene que
0(1 - )% para igualmente

se
obtiene
siguiendo
el
mismo
estudios retrospectivos, pero comparando la proporcin
de expuestos entre= casos
1
2
proporcin de enfermos
La proporcin
ena la
muestra
de de
enfermos
sujetosen
expuestos
la muestra
viene
de sujetos
dada por
expuestos
p1 =
viene
dada por p1
1 - 2 entre expuestos y no
expuestos, E(p1 - p2) = 1 diferencia(ver
de Ejemplo
riesgos subyacente
y controles
7.5).
1 (1 1 ) 2 (1 2 )

roporcin como
y en la muestra de N(
sujetos
=~ la
c/n
y22,)/n
nsujetos
son
psuficientemente
= c/n2como
. Siviene
n1ambas
y ndada
suficientemente
a/n
a/n1 y en la
La
de 1enfermos
por
p1 = son
p~p22en

n-1 de
proporcin
(1la-expuestos
muestra
) ypde
p2sujetos

N(
Nno
,2.expuestos
). Adems,
muestras
2. son
1por
1(1
2 2por
2expuestos
1,yen
1no
1)/n
2muestra
2Si

.
El
intervalo
de
confianza
al
100(1

)%
para
siguiendo
el
mismo
n
n
2
1 1 - 2 se obtiene
2

muestra de sujetos no expuestos por p2 = c/n2. Si n1 y n2 son suficientemente grandes, estas


~ N(
~ N( ,
des, estas
proporciones
grandes,
tendern
a distribuirse
muestrales
tendern
forma
anormal,
distribuirse
pp11
de forma
normal,
1)/n1) ypp12
proporciones
tendern
a distribuirse
de
forma
p1 (1 p1 ) independientes
p 2 (1muestrales
pestas
) proporciones
(vase
Apartado
3.4), sede
tiene
quenormal,
2muestrales
1, 1(1
2

,
procedimiento
utilizado
para
unamuestras
proporcin
como
/ 2

(1

)/n
).
Adems,
como
ambas
son
independientes
(vase
Apartado
3.4),
se
tiene
que
2 De este
2n 2 2resultado se desprende que p1 - p2 es un estimador puntual insesgado de la
n1

~ , 1 (1 1 ) 2 (1 2 ) .
-1 entre
1 p 2 N
2p1 (1 expuestos
p1 ) p 2y(1no
expuestos,
p2 )
E(p1 - p2) = 1 diferencia de riesgospsubyacente
n1
n2 6 ,
p1 amplitud
p 2 z11 / 22
erencia de proporciones muestrales con una
6
n1
n2
Deeste
p1 p2- es
un para
estimador
insesgado
de laeldiferencia
intervalosededesprende
confianzaque
al 100(1
)%
1 - puntual
siguiendo
mismo de
2. Elresultado
2 se obtiene
macin de su error estndar.
De este
resultadose
que p1 - py2 no
es un
estimador
puntual
insesgado
deintervalo
la
riesgos
subyacente
2 entre expuestos
expuestos,
E(p
1 2. El
de
1 desprende
1 p2) =
que es simtrico
deuna
ladiferencia
decomo
proporciones
muestrales
con una amplitud

se
obtiene
siguiendo
el
mismo
procedimiento
utilizado
confianza
al 100(1utilizado
alrededor
)% para
procedimiento
para
proporcin
1
encias en la probabilidad subyacente de desarrollar
la2
para
una proporcin
como
diferencia
de riesgos
subyacente 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 directamente proporcional a la estimacin de su error estndar.
stos y no expuestos, se contrasta la hiptesis nula H0:
p1 (1 p1 ) p 2 (1 p 2 )
2. El intervalo de confianza
100(1
p1 pal
z1 / 2- )% para 1- 2 se obtiene
, siguiendo el mismo
2
Para determinar si existen diferencias en lan1probabilidadn 2subyacente de desarrollar la
tiva bilateral H1: 1 2. Bajo la hiptesis nula de
utilizado
para
una
proporcindecomo
queprocedimiento
es simtrico
alrededor
de expuestos
la diferencia
proporciones
muestrales
con una
amplitud
enfermedad
entre
los sujetos
y no expuestos,
se contrasta
la hiptesis
nula
H0:
directamente
proporcional
a
la
estimacin
de
su
error
estndar.
que
es
simtrico
alrededor
de
la
diferencia
de
proporciones
muestrales
con
una
amplitud
2 = , se cumple que
Para
hiptesis
2 (12.Bajo
de
pen
H
pprobabilidad
psubyacente
existenalternativa
diferenciasbilateral
de nula
desarrollar
la
1 = determinar
2 frente a la si
1 (1la
11): 1 p
2 ) la hiptesis
p1 a pla2 estimacin
z1 / 2
estndar. ,
directamente
proporcional
de
su
error
enfermedad
se contrasta
la hiptesis nula H0: 1 = 2
n1
n2
1 entre los sujetos expuestos y no expuestos,
~ N 0, (1 ) 1igualdad

,
se
cumple
que
de
proporciones
H
frente
a la hiptesis alternativa
H1: 1 2. Bajo la hiptesis nula de igualdad de

0 bilateral
1
2

diferencias en
la probabilidad subyacente de desarrollar la
n 2 determinar
n1 Para

H : = si existen
proporciones
=
,
se
cumple
que
0
1
2
que es simtrico alrededor de la diferencia de proporciones muestrales con una amplitud
enfermedad entre los sujetos expuestos
expuestos,
la hiptesis nula H0:

1 se1contrasta
~ N y0no
p1 p 2

,
,
(
1
)

dad de enfermar comn


para
expuestos
y
no
de su error
directamente proporcional a la estimacin
n 2
n1estndar.

1 = 2 frente a la hiptesis alternativa bilateral H1: 1 2. Bajo la hiptesis nula de


su
valor
puedea estimarse
ad es desconocida,
dondePara
corresponde
lasiprobabilidad
de enfermar
comn
para expuestos
y no expuestos.
Aunque
determinar
existen diferencias
en la
probabilidad
subyacente
de desarrollar
la esta
probabilidad

es
desconocida,
su
valor
puede
estimarse
mediante
la
proporcin
combinada
de
enfermos
donde

corresponde
a
la
probabilidad
de
enfermar
comn
para
expuestos
y
no
igualdad de proporciones H0: 1 = 2 = , se cumple que
p =los
=(a(asujetos
c)/(1nexpuestos
de enfermos enenambas
muestras
++c)/(n
+1 +
n2) = m1/n.
el estadstico
este test nula
es H0:
ambas
muestras
enfermedad
entre
y As,
no expuestos,
se propuesto
contrasta para
la hiptesis
p
p

1
2
su valor puede estimarse
expuestos. Aunque esta probabilidad es desconocida,
,1
z ~
1

uesto para este testes


H)1: 11
1 = 2 frente a la hiptesis
p1alternativa
, la hiptesis nula de
0, (11
p 2 N bilateral
2. Bajo
(1 p ) enambas
n1 n muestras
2
p = (a + c)/(n1 +
mediante la proporcin combinada depenfermos
n1 n 2
igualdad de proporciones H0: 1 = 2 = , se cumple que
quen2bajo
aproximadamente
una distribucin
normal
estandarizada, lo que permitir
) = mH1/0corresponde
n.sigue
As, el
estadstico
propuesto
este test
es para
donde
a la probabilidad
depara
enfermar
comn
expuestos y no
determinar
estadstica deuna
la distribucin
diferencia entre
proporciones.
que bajo la
H0significacin
sigue aproximadamente
normal
estandarizada, lo que
~ N 0, (1 ) 1 1 ,
p1 p 2
puede estimarse

es desconocida,
sun valor
expuestos.
Aunque
esta
probabilidad
permitir determinar la significacin estadstica
delan1diferencia
entre proporciones.
2

7
100

Pastor-Barriuso R.

mediante la proporcin combinada de enfermos en ambas muestras p = (a + c)/(n1 +


dondeEjemplo
corresponde
probabilidad
de enfermar
comn
expuestos
y no
7.4 EnalalaTabla
7.2 se presenta
el nmero
depara
muertes
por enfermedad
7
n ) = m /n. As, el estadstico propuesto para este test es

permitir determinar la significacin estadstica de la diferencia entre proporciones.


p2 es un estimador puntual insesgado de la

que bajo H0 sigue aproximadamente una distribucin


normal estandarizada, lo que
Comparacin de proporciones en dos muestras independientes
entre expuestos y no Ejemplo
expuestos,
- pTabla
- se presenta el nmero de muertes por enfermedad
2) = 17.2
7.4E(p
En1 la
permitir determinar la significacin estadstica de la diferencia entre proporciones.
)% para 1 - 2 se obtiene
siguiendoobservadas
el mismo durante el seguimiento del estudio NHANES II entre
cardiovascular
Tabla 7.2 Muertes por enfermedad cardiovascular
durante
el seguimiento
del estudio
Ejemplo
7.4con
En(ECV)
la Tablaaltos
7.2 ysemoderados-bajos
presenta
el nmero
muertes
por enfermedad
rcin como
los sujetos
niveles
de de
colesterol
srico
total (Ejemplo
NHANES II segn niveles del colesterol srico total.
cardiovascular
observadas
durante
seguimiento
del
II entre
Mortalidad
por
ECVestudio NHANES
7.2). La proporcin
de muertes
porelenfermedad
cardiovascular
es p1 = 254/2.713
Colesterol
p1 (1 p1 ) p 2 (1 p 2 )

,
total (mmol/l)
S
No
Total
n1
n 2 los
sujetos
niveles altos ycon
moderados-bajos
de colesterol
srico total
(Ejemplo
= 0,094
en con
los participantes
niveles de colesterol
total superiores
a 6,20

cia de proporciones

6,20
254
2.459
2.713
< 6,20
309
4.690
4.999
254/2.713
7.2).
La yproporcin
de muertes
porenenfermedad
cardiovascular
es p1a=6,20
pcon
309/4.999
= 0,062
aquellos
con
niveles inferiores
mmol/l.
mmol/l
2 = una
muestrales
amplitud
Total
563
7.149
7.712

=Por
0,094
enlalosestimacin
participantes
con niveles
de colesterol
total superiores
6,20
p - p2 =
tanto,
puntual
de la diferencia
de riesgos
subyacentea es
n de su error estndar.
Ejemplo 7.4 En la Tabla 7.2 se presenta el nmero de muertes por1 enfermedad
cardiovascular
observadas=durante
el aquellos
seguimiento
estudio NHANES II entre los sujetos
p2 = =309/4.999
0,062 en
con del
niveles
mmol/l
0,094 - y0,062
0,032 y su
de confianza
al 95% inferiores a 6,20 mmol/l.
s en la probabilidad subyacente
desarrollar
la intervalode
con nivelesde
altos
y moderados-bajos
colesterol srico total (Ejemplo 7.2). La proporcin
= 254/2.713
= 0,094 eneslos
de muertes
enfermedad
cardiovascular
es p1 de
p1 participantes
- p2 =
Por
tanto, lapor
estimacin
puntual
de la diferencia
riesgos subyacente
y no expuestos, se contrasta
la hiptesis
nula total
H0:0,superiores
094(1 0,094
) mmol/l
0,062(1yp02 ,=062
)
con niveles
de colesterol
a 6,20
309/4.999
= 0,062 en aquellos

0,032 z 0,975
con niveles
6,20
mmol/l.
tanto, laalestimacin
puntual de la diferencia de
2.713
495%
.999
0,094
- 0,062inferiores
= 0,032 ya su
intervalo
dePor
confianza
bilateral H1: 1 2. Bajo
la hiptesis
nula
riesgos
subyacente
es de
p1 p2 = 0,094 0,062 = 0,032 y su intervalo de confianza al 95%
cardiovascular en los sujetos con=niveles
de colesterol
total0,045).
excedi en 32
0,032 altos
1,960,007
= (0,019;
0,094(1 0,094) 0,062(1 0,062)
, se cumple que

0,032 z 0,975
2.713 con niveles4ms
.999bajos (IC al 95% entre 19
casos por 1.000 a la de los participantes
Para el contraste bilateral de la hiptesis nula de igualdad de proporciones
1
1
= diferencia
0,032 1,960,007
= (0,019;(0,045).
0, (1 ) y ,45 casos por 1.000), siendo esta
P < 0,001).
muy significativa
n
n
2 poblacionales
1
Para el contraste
H0:bilateral
1 = 2 de
se emplea
el
estadstico
la hiptesis nula de igualdad de proporciones poblacionales
H0: el
2 se emplea
el estadstico
1 =contraste
Para
bilateral
de la hiptesis nula de igualdad de proporciones
0,032
de enfermar comn para expuestos y no
z = [Tabla 7.2 aproximadamente aqu]= 5,13,
poblacionales H0: 1 = 2 se emplea el estadstico
1
1
0,073(1 0,073)

es desconocida, su valor puede estimarse


2.713 4.999
0la,032
Ejemplo
La
casos
de infarto
de miocardio
y lospor enfermedad
donde p 7.5
0,073 eslos
proporcin
global
muertes
= (563/7.712
a +Tabla
cz)/(=n17.3
+= muestra
nfermos en ambas muestras
= de
5,13,
1 NHANES
1 de
donde p = 563/7.712
0,073
es la proporcin
global
porP enfermedad
cardiovascular
en todos= los
participantes
El valor
del test se obtiene
del
II.muertes
0,073
(1valores
) colesterol
0,073de
HDL superiores o inferiores a
controles
del
EURAMIC
con
como
2P(Z

5,13)
=
2{1

(5,13)}
<
0,001.
En
resumen,
despus
de 15 aos de
para este test es
2.713 4.999
seguimiento,
incidencia
de del
muertes
por enfermedad
P del test se en los
cardiovascularlaen
todos losacumulada
participantes
NHANES
II. El valor cardiovascular
0,90
mmol/l.
A partiraltos
de esta
tabla 22, total
se pretende
la proporcin
sujetos
con niveles
de colesterol
excedicomparar
en 32 casos
por 1.000dea la de los
donde
= 563/7.712
= 0,073
es la- (IC
proporcin
global
de
muertes
enfermedad
participantes
con
ms
al 95%< entre
19En
y 45
casos por
por
1.000),desiendo
Z 5,13)
= bajos
2{1
(5,13)}
0,001.
resumen,
despus
15 esta
obtienepcomo
2P(niveles
sujetos
conmuy
niveles
bajos de colesterol
HDL ( 0,90 mmol/l) entre casos p1 = c/m1
diferencia
significativa
(P < 0,001).
P del test se
cardiovascular
en
todos
los
participantes
del NHANES
II. por
El valor
aos de seguimiento, la incidencia acumulada
de muertes
enfermedad
p2 = dlos
/m2 casos
= 158/539
= 0,293.
La diferencia
=
193/4627.5
= 0,418
y controles
Ejemplo
La Tabla
7.3 muestra
de infarto
de miocardio
y losdecontroles del
7= 2{1 - (5,13)} < 0,001. En resumen, despus de 15
P
(
Z

5,13)
obtiene
como
2
EURAMIC con valores de colesterol HDL superiores o inferiores a 0,90 mmol/l. A8 partir
p2 = 0,418la- 0,293
= 0,125
el IC alcon
95%niveles
para bajos
proporciones
es p1 - comparar
de esta tabla muestrales
22, se pretende
proporcin
deysujetos
de
1aos
de
seguimiento,
la
incidencia
acumulada
de
muertes
por
enfermedad
colesterol HDL ( 0,90 mmol/l) entre casos p1 = c/m1 = 193/462 = 0,418 y controles p2 =
d/m
dado por= 0,293. La diferencia de proporciones muestrales es p1 p2 = 0,418
2 viene
2 = 158/539
8
0,293 = 0,125 y el IC al 95% para 1 2 viene dado por
p1 p 2 z 0,975

p1 (1 p1 ) p 2 (1 p 2 )

m1
m2

= 0,125 1,96

0,418(1 0,418) 0,293(1 0,293)

462
539

= 0,125 1,960,030 = (0,065; 0,184).


Pastor-Barriuso R.

El estadstico para el contraste bilateral de la hiptesis nula H0: 1 = 2 se calcula

101

viene dado por


p1 (1 p1 ) p 2 (1 p 22 )

,
Inferencia
n1
n 2 sobre proporciones

p1 (1 p1 ) p 2 (1 p 2 )
z 0,975
= 0,351
es la proporcin total de sujetos con niveles
donde p p=1 n2/pn2=351/1.001
m1
m2
ia de proporciones muestrales con una amplitud
Tabla 7.3 Colesterol HDL en los casos de infarto
bajos de colesterol
HDL.
La significacin
estadstica del
es por tanto P =
agudo de
miocardio
y (los
del(contrate
0,418
1 0controles
,418) 0,293
1estudio
0,293)
n de su error estndar.
= 0,125 1,96

EURAMIC.
539 son
2{1 - (4,12)} < 0,001. As, los casos 462
de infarto de miocardio
Infarto
de
miocardio
en la probabilidad subyacente de desarrollar
la
Colesterol
HDL
= (mmol/l)
0,125
1,960,030
= (0,065;
0,184).bajosTotal
Caso
Control
significativamente
ms propensos
a presentar
niveles
de colesterol HDL que
y no expuestos, se contrasta la hiptesis nula H0:
> 0,90

269

381

650

0,001),
con nula
una diferencia
los sujetos para
libres
la enfermedad
(Pde< la
0,90
193
158
H0351
: 1 = de
El estadstico
elde
contraste
bilateral
hiptesis
2 se calcula
ilateral H1: 1 2. Bajo
la hiptesis nula
de
Total
462
539
1.001

, se cumple que

proporciones del 12,5% (IC al 95% 6,518,4%).


como

El estadstico para el contraste bilateral de la hiptesis nula H0: 1 = 2 se calcula como


p1 p 2
1
z [Tabla 7.3 aproximadamente aqu]
1
0, (1 ) ,
1
1
n1 n 2
p (1 p )

m1 m 2

0,125
e enfermar comn 7.4
paraASOCIACIN
expuestos y no ESTADSTICA EN
UNA TABLA DE
4CONTINGENCIA
,12,

1
1
0,351(1 0,351)

s desconocida, su valor puede estimarse


462 539 estadstica para evaluar de
En este apartado se presenta una prueba de significacin

donde p == n(a/n+ =c)/(


351/1.001
= 0,351 es la proporcin total de sujetos con niveles bajos de
n1 +
fermos en ambas muestras
forma genrica 2la presencia o ausencia de asociacin entre las variables dicotmicas
colesterol HDL. La significacin estadstica del contraste es por tanto P = 2{1 (4,12)} <
9
0,001. As, los casos de infarto de miocardio son significativamente ms propensos a presentar
para este test es
representadas en una tabla 22. Este procedimiento no facilita estimaciones de efecto,
niveles bajos de colesterol HDL que los sujetos libres de la enfermedad (P < 0,001), con
una diferencia de proporciones del 12,5% (IC al 95% 6,5-18,4%).
sino nicamente valores P, y es aplicable a estudios prospectivos (marginales n1 y n2

y m2UNA
fijos)TABLA
y transversales
(tamao muestral n fijo).
retrospectivos
(marginales m1 EN
7.4fijos),
ASOCIACIN
ESTADSTICA
DE CONTINGENCIA
En este
apartado
se presenta
una
significacin
estadstica para
de las
forma
Para
contrastar
si las variables
de unadetabla
22 son independientes,
se evaluar
comparan
7 prueba
genrica la presencia o ausencia de asociacin entre las variables dicotmicas representadas en
unafrecuencias
tabla 22. observadas
Este procedimiento
no celda
facilita(i,estimaciones
sino nicamente
valores
Oij en cada
j) de la tabla de
conefecto,
sus frecuencias
esperadas
P, y es aplicable a estudios prospectivos (marginales n1 y n2 fijos), retrospectivos (marginales
y ijmbajo
y transversales
muestraldonde
n fijo).i = 1, 2 denota la fila y j = 1, 2 la
m1 E
la hiptesis
nula de(tamao
independencia,
2 fijos)
Para contrastar si las variables de una tabla 22 son independientes, se comparan las
Eij j)sede
calculan
el producto
de esperadas
sus
columna.observadas
Estas frecuencias
esperadas
celda (i,
la tablacomo
con sus
frecuencias
Eij bajo
frecuencias
Oij en cada
la hiptesis nula de independencia, donde i = 1, 2 denota la fila y j = 1, 2 la columna. Estas
ni y mcomo
por el tamao
muestral total n, marginales n
correspondientes
marginales
j, dividido
frecuencias
esperadas
Eij se calculan
el producto
de sus correspondientes
i
y mj, dividido por el tamao muestral total n,
nm
Eij = i j .
n
As, por ejemplo, si en un estudio prospectivo no hubiera asociacin entre exposicin y
As, por ejemplo,
si en un
estudiode
prospectivo
asociacin
entre exposicin
y al
enfermedad,
la frecuencia
esperada
expuestos no
quehubiera
desarrollan
la enfermedad
sera igual
producto del nmero de expuestos n1 por la proporcin combinada de enfermos m1/n, E11 =
la frecuencia esperada de expuestos que desarrollan la enfermedad sera
n1menfermedad,
1/n. Igualmente, en un estudio retrospectivo la frecuencia esperada de casos que han estado
expuestos al factor de riesgo correspondera al producto del nmero de casos m1 por la proporcin
n1 por la proporcin
combinada
de enfermos
igual al producto
del nmero
m1n1/n. Asimismo,
en un estudio
transversal
la frecuencia
combinada
de expuestos
n1/n, E11de=expuestos
esperada de sujetos a la vez expuestos y enfermos sera igual al producto del nmero total de
10
102

Pastor-Barriuso R.

Ejemplo 7.6 La Tabla 7.2 muestra los valores observados de la asociacin entre la

mortalidad por enfermedad cardiovascular y el colesterol


total en el estudio
Asociacin estadstica en una tabla de contingencia
prospectivo NHANES II. Si ambas variables fueran independientes, la
sujetosprobabilidad
n por las proporciones
expuestoscardiovascular
n1/n y de enfermos
m1/n,enElos
n(n1/n)(m1/n) =
11 =sujetos
de morir por de
enfermedad
sera igual
n1m1/n. Notar, por tanto, que los valores esperados bajo la hiptesis nula de independencia
coinciden
en los distintos
tipos de
de colesterol
diseo. total. Esta probabilidad podra entonces
con niveles
altos y bajos
Ejemplo
La Tabla
7.2 muestra
los valores
observados
de lamuestras
asociacin entre la
estimarse7.6
mediante
la proporcin
combinada
de muertes
en ambas
mortalidad por enfermedad cardiovascular y el colesterol total en el estudio prospectivo
NHANES
Si ambas
variables
fueran
independientes,
la probabilidad
563/7.712 =II.0,073.
As, entre
los 2.713
participantes
con niveles
altos de de morir por
enfermedad cardiovascular sera igual en los sujetos con niveles altos y bajos de
colesterol total,
total.cabra
Esta probabilidad
podra =entonces
estimarse
mediante la proporcin
esperar 2.7130,073
198,1 muertes
por enfermedad
combinada de muertes en ambas muestras 563/7.712 = 0,073. As, entre los 2.713
participantes
altos de
total, cabra
esperar este
2.7130,073
cardiovascularcon
bajoniveles
la hiptesis
nulacolesterol
de independencia.
Aplicando
mismo = 198,1
muertes por enfermedad cardiovascular bajo la hiptesis nula de independencia.
Aplicando
estelosmismo
los valores
esperados
en por
cada celda vendran
razonamiento,
valoresrazonamiento,
esperados en cada
celda vendran
dados
dados por

2.713 563
Estos valores esperados se
en la=Tabla
E11representan
=
198,1,7.4. Notar que los marginales
7.712
de la tabla de frecuencias observadas
2.713 7(Tabla
.149 7.2) y esperadas (Tabla 7.4)
= 2.514,9,
E12 =
7
.
712
coinciden. De hecho, una vez calculado el valor esperado en una cualquiera de las
4.999 563
=
E21esperados
= 364,9,
celdas, los restantes valores
7.712de la tabla 22 quedan determinados por
dichos marginales.

E22 =

4.999 7.149
= 4.634,1.
7.712

Estos valores esperados se representan en la Tabla 7.4. Notar que los marginales de la
[Tabla
7.4 aproximadamente
aqu] 7.4) coinciden. De hecho,
tabla de frecuencias observadas
(Tabla
7.2) y esperadas (Tabla
una vez calculado el valor esperado en una cualquiera de las celdas, los restantes11
valores
esperados de la tabla 22 quedan determinados por dichos marginales.
Para evaluar la independencia de las variables de una tabla 22, se comparan las
Para
evaluarobservadas
la independencia
de las mediante
variables el
deestadstico
una tabla 22, se comparan las frecuencias
frecuencias
y esperadas
observadas y esperadas mediante el estadstico

2 =

(Oij E ij ) 2
Eij .
i 1 j 1
2

Cuanto mayor seaTabla


la diferencia
entre los valores
observados
esperados, mayor ser la
7.4 Frecuencias
esperadas
bajo layhiptesis
de independencia entre la mortalidad por
magnitud del estadstico
y, en consecuencia,
se tendr
evidencia en contra de la
enfermedad
cardiovascular
(ECV)mayor
y el colesterol
total en el estudio NHANES II.
hiptesis nula de independencia. En particular, puede probarse que si las variables de la
Colesterol
total (mmol/l)

Mortalidad por ECV

S
No
Total una distribucin
tabla 22 son independientes, este estadstico
sigue aproximadamente

chi-cuadrado con 1

6,20
< 6,20 de
grado
Total

libertad

198,1
364,9
(slo
una
563

2.514,9
4.634,1
frecuencia
7.149

2.713
4.999de
esperada
7.712

la tabla 22 es

independiente). El valor P del contraste corresponde entonces a la probabilidad a la


el nombre R.
derecha del estadstico 2 bajo la distribucin 12 . Esta prueba se conoce conPastor-Barriuso
de test chi-cuadrado de independencia o asociacin de Pearson, y puede aplicarse

103

Inferencia sobre proporciones

Cuanto mayor sea la diferencia entre los valores observados y esperados, mayor ser la magnitud
del estadstico y, en consecuencia, se tendr mayor evidencia en contra de la hiptesis nula de
independencia. En particular, puede probarse que si las variables de la tabla 22 son
independientes, este estadstico sigue aproximadamente una distribucin chi-cuadrado con 1
grado de libertad (slo una frecuencia esperada de la tabla 22 es independiente). El valor P del
contraste corresponde entonces a la probabilidad a la derecha del estadstico 2 bajo la
distribucin 21. Esta prueba se conoce con el nombre de test chi-cuadrado de independencia
o asociacin de Pearson, y puede aplicarse siempre que los marginales de la tabla sean
suficientemente grandes, de tal forma que todas las frecuencias esperadas sean superiores o
iguales a 5.
Ejemplo 7.7 A partir de los valores observados y esperados bajo la hiptesis de
independencia entre la mortalidad por enfermedad cardiovascular y el colesterol srico
total, se obtiene el test estadstico
(254 198,1) 2 (2.459 2.514,9) 2
=

198,1
2.514,9
2

(309 364,9) 2 (4.690 4.634,1) 2

364,9
4.634,1

= 15,80 + 1,24 + 8,58 + 0,68 = 26,30.


Como las frecuencias esperadas son claramente superiores a 5, este estadstico se
Como
las frecuencias
esperadas
son claramente
superiores
este estadstico
se bajo la
distribuir
aproximadamente
como
una chi-cuadrado
cona15,grado
de libertad
hiptesis nula de independencia. Utilizando la Tabla 6 del Apndice, puede comprobarse
2 libertad bajo
distribuir
como una
chi-cuadrado
1 gradode
que el valoraproximadamente
calculado del estadstico
es muy
superior con
al percentil
1;0,995 = 7,88, de lo cual
2
se deduce que P = P( 1 26,30) < 0,005. As, los niveles altos de colesterol total estn
la
hiptesis nula deasociados
independencia.
Tabla
6 del Apndice,
puede
significativamente
con laUtilizando
mortalidadlapor
enfermedad
cardiovascular.

comprobarse que el valor calculado del estadstico es muy superior al percentil


La hiptesis nula de independencia entre las variables de una tabla 22 equivale a la
igualdad
dos proporciones poblacionales. De hecho,2 puede probarse que el estadstico 2 de
12;0de
, 995 = 7,88, de lo cual se deduce que P = P( 1 26,30) < 0,005. As, los
Pearson es igual al cuadrado del estadstico z de la comparacin de proporciones en muestras
independientes, de tal forma que los valores P resultantes de ambos procedimientos son
niveles altos de colesterol total estn significativamente asociados con la
idnticos (la distribucin chi-cuadrado con 1 grado de libertad es, por definicin, igual al
cuadrado de una distribucin normal estandarizada). Cabra preguntarse entonces cul es la
mortalidad por enfermedad cardiovascular.
aportacin del test de independencia de Pearson. En primer lugar, los clculos de este test no
dependen del diseo utilizado para generar los datos. En segundo lugar, esta prueba puede
generalizarse de forma sencilla a la comparacin de mltiples proporciones en una tabla con r
La hiptesis nula de independencia entre las variables de una tabla 22 equivale a la
filas y c columnas.
igualdad
de dos proporciones
poblacionales.
De hecho,
puede probarse
Para contrastar
la independencia
de dos variables
categricas
en una que
tablaelrc, se calcula el
estadstico
estadstico 2 de Pearson es igual al cuadrado del estadstico z de la comparacin de
r
c
(Oij E ij ) 2
2 =
,
proporciones en muestras independientes,
de tal forma
E ij que los valores P resultantes de
i 1 j 1

104

ambos procedimientos son idnticos (la distribucin chi-cuadrado con 1 grado de


donde las frecuencias esperadas Eij = nimj/n se calculan de la misma forma que en una
libertad es, por definicin, igual al cuadrado de una distribucin normal estandarizada).
tabla 22.R.Bajo la hiptesis nula de independencia, dicho estadstico se distribuye
Pastor-Barriuso
Cabra preguntarse entonces cul es la aportacin del test de independencia de Pearson.
aproximadamente segn una chi-cuadrado con (r - 1)(c - 1) grados de libertad. Los
En primer lugar, los clculos de este test no dependen del diseo utilizado para generar

celdas tengan valores esperados inferiores a 5.


Asociacin estadstica en una tabla de contingencia

Ejemplo 7.8 La Tabla 7.5 muestra las muertes por enfermedad cardiovascular
donde las frecuencias
Eij =del
nimestudio
de laIImisma
que en
una tabla
j/n se calculan
entre los esperadas
participantes
NHANES
con unforma
colesterol
srico
total 22.
Bajo la hiptesis nula de independencia, dicho estadstico se distribuye aproximadamente segn
una chi-cuadrado
cona(r5,20
1)(c
1) (nivel
gradosdeseable),
de libertad.
Los5,20
grados
de libertad
corresponden
inferior
mmol/l
entre
y 6,19
mmol/l (nivel
limtrofeal
nmero de frecuencias esperadas independientes para el clculo del estadstico, una vez
determinadosalto)
los marginales
la tabla
rc.mmol/l
La aproximacin
chi-cuadradoPara
a la determinar
distribucinsidel
y superior de
o igual
a 6,20
(hipercolesterolemia).
la
estadstico ser vlida si el tamao muestral es suficientemente grande. En concreto, el criterio
ms aceptadoincidencia
para aplicar
test es
ningn valor
esperado sea
inferior
a 1los
y que
ms
de este
muertes
porque
enfermedad
cardiovascular
difiere
entre
tres no
grupos,
del 20% de las celdas tengan valores esperados inferiores a 5.
se calculan en primer lugar las frecuencias esperadas mediante el producto de sus
Ejemplo 7.8 La Tabla 7.5 muestra las muertes por enfermedad cardiovascular entre los
participantes
del estudio NHANES
con un colesterol
srico
total inferior
a 5,20 mmol/l
correspondientes
marginalesIIdividido
por el tamao
muestral
total. Estas
(nivel deseable), entre 5,20 y 6,19 mmol/l (nivel limtrofe alto) y superior o igual a 6,20
mmol/lfrecuencias
(hipercolesterolemia).
Para
determinar
la incidencia
muertes
por
esperadas se
presentan
entresiparntesis
en de
la Tabla
7.5.
Aenfermedad
cardiovascular difiere entre los tres grupos, se calculan en primer lugar las frecuencias
esperadas
mediante el
producto de
correspondientes
marginales
divididoel por el
continuacin,
se comparan
los sus
valores
observados y esperados
mediante
tamao muestral total. Estas frecuencias esperadas se presentan entre parntesis en la
Tabla 7.5.
A continuacin, se comparan los valores observados y esperados mediante el
estadstico
estadstico

2 =

(254 198,1) 2 (2.459 2.514,9) 2

198,1
2.514,9

(174 175,8) 2 (2.234 2.232,2) 2

175,8
2.232,2

(135 189,1) 2 (2.456 2.401,9) 2

189,1
2.401,9

14

= 15,80 + 1,24 + 0,02 + 0,00 + 15,50 + 1,22 = 33,79.


Dado que las frecuencias esperadas son superiores a 5, puede utilizarse la distribucin
chi-cuadrado
conlas
(3frecuencias
1)(2 1)esperadas
= 2 grados
libertad a(Tabla
6 del
Apndice)
Dado que
son de
superiores
5, puede
utilizarse
la para
2
obtener un valor P = P( 2 33,79) < 0,005. Esto es, la incidencia de muertes por
enfermedad
cardiovascular
difierecon
significativamente
losde
tres
grupos,
obtenindose
distribucin
chi-cuadrado
(3 - 1)(2 - 1) = 2entre
grados
libertad
(Tabla
6 del
una incidencia acumulada en los 15 aos de seguimiento de 52, 72 y 94 muertes por
cada 1.000
participantes
con niveles
altoses,
delacolesterol
33,79) <altos
0,005.y Esto
Apndice)
para obtener
un valordeseables,
P = P( 22 limtrofes
total, respectivamente.

incidencia de muertes por enfermedad cardiovascular difiere significativamente


Tabla 7.5Frecuencias observadas (esperadas) de
entre
los tres por
grupos,
obtenindose
una incidencia
acumulada
muertes
enfermedad
cardiovascular
(ECV)
entre en
loslos 15 aos de
participantes del NHANES II con niveles de colesterol
seguimiento
de 52,
72 y 94ymuertes
por cada 1.000 participantes con niveles
total < 5,20,
5,20-6,19
6,20 mmol/l.
Mortalidad por ECV
Colesterol
deseables,
limtrofes altos y altos
de colesterol total, respectivamente.
total (mmol/l)

6,20
5,20-6,19
< 5,20
Total

254 (198,1)
174 (175,8)
[Tabla
7.5
135 (189,1)
563

No

2.459 (2.514,9)
2.234 (2.232,2)
aproximadamente
2.456 (2.401,9)
7.149

Total

2.713
2.408
aqu]
2.591
7.712

7.5 TEST DE TENDENCIA EN UNA TABLA r2


Pastor-Barriuso R.

A partir de una tabla r2, el test chi-cuadrado de Pearson permite contrastar la hiptesis

105

p1se
(1 desprende
p1 )que pp21que
(-1 p2ppes
De este
Deresultado
este resultado
se desprende
p2 estimador
es un estimador
puntual
puntual
insesgado
insesgado
de la de la
1 2-)un
p1 p 2 z1 / 2

,
n
n
1
2
Inferencia sobre proporciones
1 - 2entre
entre expuestos
y no expuestos,
y no expuestos,
E(p1 -E(p
p2)1=- p12)- = 1 diferencia
diferencia
de riesgos
de riesgos
subyacente
subyacente
1 - 2 expuestos

e es simtrico alrededor de la diferencia de proporciones muestrales con una amplitud


. El intervalo
de confianza
de confianza
al 100(1
al 100(1
- )%-para
)%para
2 se obtiene
siguiendo
siguiendo
el mismo
el mismo
2. El intervalo
1 - 2se
1 - obtiene
7.52 TEST
DE TENDENCIA EN UNA TABLA r2
ectamente proporcional a la estimacin de su error estndar.
utilizado
utilizado
para
para
proporcin
una proporcin
como
comopermite contrastar la hiptesis nula de
Aprocedimiento
partirprocedimiento
de una tabla
r2,
el
testuna
chi-cuadrado
de
Pearson
1 = 2 = ... =subyacente
r frente a de
la hiptesis
alternativa
H1: i j, donde
de diferencias
proporciones
Para determinarigualdad
si existen
en H
la0:probabilidad
desarrollar
la
i y j son 2 muestras cualesquiera. Un resultado
indicara que al
p1 (1 ppsignificativo
) pp12)(1 ppde
) esta
p 2 prueba
)
1 1(1
2 2(1
p

z
p

,
,
menos
2
de
las
r
proporciones
En
el
caso
de
que
los grupos o
1 pp2poblacionales
1
12
/ 2 z1 / 2son heterogneas.
fermedad entre los sujetos expuestos y no expuestos, se contrasta
lanhiptesis
nula
H0:
n
n
n
1los grupos.
1
2
2
simplemente tomar
los
valores
1,
2,
...,
r
indicando
el
orden
de
A
muestras estn intrnsecamente ordenados, cabra preguntarse adems si estas proporciones

siguen
alguna
tendencia
determinada
largo la
dehiptesis
los grupos.
= 2 frente a la
hiptesis
alternativa
bilateral
H1: 1 alo
nulaEndeeste apartado se presenta un
2.pBajo
con
sus
correspondientes
continuacin,
setest
relacionan
las
proporciones
observadas
i
especfico
para
detectar
gradiente
omuestrales
componente
(creciente
o
que
esque
simtrico
es simtrico
alrededor
alrededor
delalaexistencia
diferencia
de2,la...,
diferencia
deun
proporciones
de
proporciones
muestrales
conlineal
una
una amplitud
simplemente
tomar
los
valores
1,
r de
indicando
el orden
de los
grupos.
Aconamplitud
decreciente) entre las proporciones de los sucesivos grupos.
ualdad
de proporciones
H0el: estadstico
1 = 2 = , se cumple que
puntuaciones
si mediante
directamente
directamente
proporcional
proporcional
a lalas
estimacin
a puntuacin
la estimacin
de su
error
de su estndar.
errorpiestndar.
continuacin,
se relacionan
proporciones
con sus correspondientes
En primer
lugar,
se asigna
una
sobservadas
i a cada una de las muestras ordenadas. Esta
puntuacin puede representar un atributo numrico del grupo (ver Ejemplo 7.9), o simplemente
2
1 en
1 diferencias
r ...,
Para
Para determinar
si
existen
si el
existen
diferencias
la probabilidad
en la probabilidad
subyacente
subyacente
de desarrollar
de desarrollar
la
la
estadstico
puntuaciones
s~i1,mediante
tomar
lospdeterminar
valores
2,
, de los grupos. A continuacin, se relacionan las
0n, (r(p1indicando
p))( s
els )orden

1 p 2 N

n1i correspondientes
n2
proporciones observadas
puntuaciones si mediante el estadstico
i pi i con sus
i 1

2
enfermedad
enfermedad
entre
los
entre
sujetos
los
sujetos
expuestos
expuestos
y
no
expuestos,
y
no
expuestos,
se contrasta
la hiptesis
la hiptesis
nula Hnula
H0:
0:
=
,
2 se contrasta
r
r 2

p (1 p ) ni ( s i
s ) ni ( p i p )( s i s )
nde corresponde
de
comn
para expuestos
1 a=la2probabilidad
= 2 frente
a la hiptesis
a laenfermar
hiptesis
bilateral
H1: 1Hy1:no
2.1 Bajo
2. la
Bajo
hiptesis
la hiptesis
nula de
nula de
ialternativa
1
i 1bilateral

1frente
2 alternativa
=
,
r
2
p (1valor
ni (cumple
sestimarse
i s)
es desconocida,
puede
puestos. Aunque igualdad
esta probabilidad

,2sep=)cumple

,
se
que
que
igualdad
de proporciones
de proporciones
H0: 1H=0:2su
1==
1 proporcin
donde ni es el tamao de cada muestra, n = ni, p = nipi/n esi la

dondecombinada
ni es el tamao
de cadaenmuestra,
n = ni, p == n
/n)/(es
(a +
n1 la
+ proporcin combinada en
diante la proporcin
de enfermos
ambas muestras
ipic

1
1
1
1

~puntuacin
combinada en todas
las
yy s ==n
n
esla
lapuntuacin
Notar
si las
todas
lasmuestras
muestras
/n
Notar
si las
i/nes
deispiiscada
muestra,
, )(p1 =
/nque
la
donde
ni es el tamao
i
i
pN2
media.
n
,es
,proporciones observadas
0~n, =N(1n
0,media.
) ipque
proporcin
1 pp
21

tienden
a
aumentar
o
disminuir
con
las
puntuaciones,
el
numerador
del
n
n
n
n
1 21 2 estadstico ser grande.
= m1/n. As, el estadstico propuesto para este test es

Si, por el tienden


contrario,
las proporciones
no varan
en funcin de laelpuntuacin de cada grupo, el
proporciones observadas
a aumentar
o disminuir
combinada en todas
las muestras
y s =con
nilas
si/npuntuaciones,
es la puntuacin media. Notar que si las
numerador estar prximo a 0. Bajo la hiptesis
nula de ausencia de una componente lineal en
donde
corresponde
grande.
corresponde
aSi,
la por
probabilidad
a la
de enfermar
de
enfermar
comncomn
para
expuestos
para
expuestos
y no chi-cuadrado
y no
ladonde
tendencia,
estadstico
anterior
seguir
aproximadamente
una
distribucin
numerador del estadstico
serel
el probabilidad
contrario,
las
proporciones
no varan
en
proporciones
observadas
tienden
a
aumentar
o
disminuir
con
las
puntuaciones,
el
con 1 grado de libertad. Esta prueba se conoce genricamente como test chi-cuadrado
de

es
desconocida,

es
desconocida,
su
valor
su
puede
valor
puede
estimarse
estimarse
expuestos.
expuestos.
Aunque
Aunque
esta
probabilidad
esta
probabilidad
tendencia
y,
a
diferencia
del
test
de
independencia
o
asociacin,
puede
aplicarse
incluso
uncin de la puntuacin de cada grupo, el numerador estar prximo a 0. Bajo la
numerador
del=muestras
estadstico
grande.
porreducido,
el
proporciones
no varan
cuando
algunas
un tamao
bastalascon
que lademuestra
totalensea
=ser
174/2.408
=Si,
0,072
y pcontrario,
= 0,094
las
135/2.591
0,052, p2tengan
3 = 254/2.713
ycombinada
la proporcin
muy
extrema,
n7p(1=(ap)+=
c)/(
5.
(a nFinalmente,
+1 c+)/(n1 +
mediante
mediante
la
lacomponente
proporcin
combinada
enfermos
enfermos
ennoambas
en
ambas
muestras
muestras
hiptesis nula desuficientemente
ausencia
deproporcin
unagrande
linealde
encombinada
la de
tendencia,
el
estadstico
funcin
de
la
puntuacin
de
cada
grupo,
el
numerador
estar
prximo
a
0.
Bajo
la
cabe resear
quecategoras
el test de(Figura
tendencia
noPara
permite
contrastar
la tendencia
idoneidadcreciente
de la relacin
lineal;
sucesivas
7.1).
contrastar
si esta
es
este
test
nicamente
determina
la
existencia
de
una
componente
lineal
significativa,
anterior seguir aproximadamente
una
distribucin
chi-cuadrado
con
1es
grado
n2) = m
n21)/n=. As,
m1/n.elAs,
estadstico
el
estadstico
propuesto
propuesto
para este
para
test
este
test esde
hiptesis
nula
dese
ausencia
de
componente
ensla=tendencia,
estadstico
independientemente
deasignan
cul sea
lapuntuaciones
relacin
subyacente.
= 4,65,
5,72 y s3 =el6,90
significativa,
lasuna
s1lineal
2
ibertad. Esta prueba se conoce genricamente como test chi-cuadrado de tendencia y,
anterior
seguir aproximadamente
unacolesterol
distribucin
con 1 grado
de
correspondientes
medianaanterior
del
totalchi-cuadrado
dediferencias
cada categora.
Aunque
Ejemplo 7.9 Enaellaejemplo
se detectaron
significativas
en el riesgo
muerte por enfermedad
cardiovascular
entre
los participantes
del NHANES II con
a diferencia del test dedeindependencia
o asociacin,
puede aplicarse
incluso
cuando
test chi-cuadrado
de
tendencia
y, un
libertad.
Esta
prueba
se conoce
podran
asignarse
las
puntuaciones
1, 2 y 3, como
esy preferible
utilizarDe
una
medida
niveles
de
colesterol
total < genricamente
5,20, 5,20-6,19
6,20
mmol/l.
hecho,
se de
observa
claro
en las incidencias
acumuladas
p1total
= 135/2.591
= 0,052, p2 = 174/2.408 =
algunas muestras tengan
unincremento
tamao reducido,
basta con que
la muestra
sea
a diferencia
del
test
de
independencia
o
asociacin,
puede
aplicarse
incluso
cuando
7 si7
tendencia
de cada
categora
(media
o mediana)
para(Figura
preservar
distancia
0,072 y p3 central
= 254/2.713
= 0,094
de las
sucesivas
categoras
7.1).laPara
contrastar
esta
tendencia
creciente
es significativa,
se asignan
s1 = 4,65, s2 = 5,72
suficientemente grande
y la
proporcin
combinada
no muy
extrema,
n con
p (1las
- puntuaciones
p la
) muestra
5.
algunas
muestras
tengan
un
tamao
reducido,
basta
que
total
sea
y s3 =las
6,90
correspondientes
a la mediana
del colesterol
total
cada categora.
Aunque
entre
mismas.
As, el numerador
del estadstico
del test
de de
tendencia
vendra
podran asignarse las puntuaciones 1, 2 y 3, es preferible utilizar una medida de tendencia
Finalmente, cabe resear
que el testgrande
de tendencia
no permite
contrastarnolamuy
idoneidad
de n p (1 - p ) 5.
suficientemente
y la proporcin
combinada
extrema,
central
de cada categora
(media o mediana)
para preservar
la distancia
entre las mismas.
dado
por
As, el numerador del estadstico del test de tendencia vendra dado por
a relacin lineal; este test nicamente determina la existencia de una componente lineal
Finalmente, cabe resear que el test de tendencia no permite contrastar la idoneidad de
N = {2.591(0,052 0,073)(4,65 5,78)
significativa, independientemente de cul
sea la relacin
subyacente. 5,78)
0,073)(5,72
2.408(0,072
la relacin lineal; este+test
nicamente
determina la existencia de una componente lineal
+ 2.713(0,094 0,073)(6,90 5,78)}2 = 15.364,56
significativa,
independientemente
de diferencias
cul sea la relacin
subyacente.
Ejemplo 7.9 En el ejemplo anterior se detectaron
significativas
en el

riesgo de muerte por enfermedad cardiovascular entre los participantes del


7.9 Enpor
el ejemplo anterior se detectaron diferencias significativas en el
y elEjemplo
denominador
106 Pastor-Barriuso R.
NHANES II con niveles
< 5,20, 5,206,19
y 6,20
mmol/l.
De
riesgo de
de colesterol
muerte portotal
enfermedad
cardiovascular
entre
los participantes
del
D = 0,073(1 - 0,073){2.591(4,65 - 5,78)2

n1

n2

p2 es un estimador puntual insesgado de la

Medidas de efecto en una tabla de contingencia

entre expuestos y no expuestos, E(p1 - p2) = 1 -

135/2.591
0,1 = 0,052, p = 174/2.408 = 0,072 y p3 = 254/2.713 = 0,094 de las

2
)% para 1 - 2 se obtiene siguiendo el mismo

Incidencia acumulada de muertes por ECV

sucesivas categoras (Figura 7.1). Para contrastar si esta tendencia creciente es

rcin como

0,08

significativa, se asignan las puntuaciones s1 = 4,65, s2 = 5,72 y s3 = 6,90


p1 (1 p1 ) p 2 (1 p 2 )

, 0,06
a la mediana del colesterol total de cada categora. Aunque
n1
n 2 correspondientes

podran asignarse las puntuaciones 1, 2 y 3, es preferible utilizar una medida de


cia de proporciones muestrales
0,04con una amplitud
tendencia central de cada categora (media o mediana) para preservar la distancia
n de su error estndar.
entre las
0,02mismas. As, el numerador del estadstico del test de tendencia vendra
s en la probabilidad subyacente de desarrollar la
dado por
y no expuestos, se contrasta la 0hiptesis nula H0:
simplemente tomar los valores 1, 2, ..., r indicando el orden de los grupos. A
N = {2.591(0,052 - 0,073)(4,65 - 5,78)
bilateral H1: 1 2. Bajo la hiptesis4,5
nula de continuacin,
5
6 proporciones
6,5 observadas
7 pi con sus correspondie
se5,5
relacionan las
+ 2.408(0,072 - 0,073)(5,72 - 5,78)
total (mmol/l)
, se cumple que
puntuaciones sColesterol
i mediante el estadstico
Figura 7.1
2
Figura 7.1 Incidencia acumulada
de muertes
por enfermedad
= 15.364,56(ECV) en 15 aos de
+ 2.713(0,094
- 0,073)(6,90
- 5,78)}cardiovascular
seguimiento del estudio NHANES II segn niveles de colesterol total < 5,20, 5,20-6,19 y 6,20 mmol/l.

1
1
0, (1 )
n1 n 2

,
y el denominador por
y el denominador por

ni ( p i p )( s i s )
,
2 = i 1
r
2
p (1 p ) ni ( s i s ) 2
de enfermar comn para expuestos y D
no= 0,073(1 0,073){2.591(4,65 5,78)
i 1
+ 2.408(5,72 5,78)2
es desconocida, su valor puede estimarse
+ 2.713(6,90 5,78)2} = 454,78,
donde ni es el tamao de cada muestra, n = ni, p = nipi/n es la proporcin
donde p = (563/7.712
a + c)/(n1 += 0,073 es la proporcin global de muertes por enfermedad
nfermos en ambas muestras
en todas
muestras
nisi/n es la+puntuacin
cardiovascular en todos combinada
los participantes
del las
NHANES
II yy s == (2.5914,65
2.4085,72 media. Notar q
donde
p
=
563/7.712
=
0,073
es
la
proporcin
global
de
muertes
por
enfermedad
+ 2.7136,90)/7.712 = 5,78 es la puntuacin media. El estadstico resulta entonces 2 =
para este test es
proporciones
observadas
conchilas puntuaciones,
N/D = 33,78, que corresponde
a un valor
P = P(21 tienden
33,78)a<aumentar
0,005 en oladisminuir
distribucin
cuadrado
con 1 en
grado
delos
libertad
(Tabla 6del
delNHANES
Apndice).II Este
confirma
que el
cardiovascular
todos
participantes
y s resultado
= (2.5914,65
+
numerador
del estadstico
ser grande.
Si, por
el contrario, las al
proporciones no
riesgo de mortalidad por
enfermedad
cardiovascular
aumenta
significativamente
aumentar
de colesterol total.
2.4085,72el+nivel
2.7136,90)/7.712
= 5,78 es la puntuacin media. El estadstico
funcin de la puntuacin de cada grupo, el numerador estar prximo a 0. Bajo

resulta entonces 2 = N/D7= 33,78, que corresponde a un valor P = P( 12 33,78)


hiptesis
nulaTABLA
de ausencia
de una componente lineal en la tendencia, el estadst
7.6 MEDIDAS DE EFECTO
EN UNA
DE CONTINGENCIA

< 0,005 en la
distribucin
chi-cuadrado
con
1 grado
de en
libertad
(Tabla
delchi-cuadrado
En epidemiologa
y en
otras aplicaciones
del anlisis
de datos
salud
pblica,6 no
slo interesa con 1 grado d
anterior
seguir
aproximadamente
una distribucin
determinar el grado de significacin estadstica sino tambin obtener estimadores de efecto o
Apndice).
Este resultado
confirma
que
el riesgo
detabla
mortalidad
por enfermedad
medidas
de la magnitud
de la libertad.
asociacin.
A
partir
de
22 pueden
obtenerse
chi-cuadrado de tend
Esta
prueba
seuna
conoce
genricamente
como testdistintas
medidas de efecto, tales como la diferencia de riesgos, el riesgo relativo y el odds ratio. La
cardiovascular
al
el nivel
de
colesterol
total.
diferencia
de riesgosaumenta
o proporciones,
que ya
discuti
en el Apartado
7.3,
permitepuede
determinar
asignificativamente
diferencia
delsetest
deaumentar
independencia
o asociacin,
aplicarse incluso cua
la diferencia en la tasa de incidencia o prevalencia de la enfermedad entre los sujetos expuestos
y no expuestos en un estudio algunas
prospectivo
o transversal,
estecon
apartado
muestras
tengan unrespectivamente.
tamao reducido,Enbasta
que lase
muestra total sea
revisan los mtodos de inferencia sobre el riesgo relativo y el odds ratio, as como sus respectivos
[Figura 7.1 aproximadamente aqu]
mbitos de aplicacin.
suficientemente grande y la proporcin combinada no muy extrema, n p (1 - p

17 R. 107
Pastor-Barriuso
Finalmente, cabe resear que el test de tendencia no
permite contrastar
la idone

la relacin lineal; este test nicamente determina la existencia de una componen

Riesgo
> 1 indica
una mayor probabilidad de desarrollar la enfermedad en expuestos
7.6.1
relativo

Inferencia sobre proporciones

El riesgo
o razn dePor
riesgos
es lasimedida
de efecto
ms utilizada
estudios
querelativo
en no expuestos.
ejemplo,
= 1,25,
los sujetos
expuestosentienen
1,25
prospectivos
parariesgo
comparar
incidencia
la enfermedad
entre expuestos
y no que los
veces ms
o sonlaun
25% msdepropensos
a desarrollar
la enfermedad
7.6.1
Riesgo
relativo
expuestos,
y seodefine
como
El riesgo
relativo
razn
de
riesgos
la medida- 1)
de =
efecto
ms utilizada en estudios prospectivos
- 1) =es100(1,25
25%).
no
expuestos
(100(
para comparar la incidencia de la enfermedad entre expuestos y no expuestos, y se define como
< 1 indica una menor probabilidad
D | E ) la enfermedad en expuestos que
1 deP(contraer

=
,
2 P( D | E c )
en no expuestos. Por ejemplo, si = 0,80, los sujetos expuestos son un 20%
donde 1 = P(D|E) y 2 = P(D|Ec) representan la probabilidad de desarrollar la enfermedad D
c
entre
los sujetos
expuestos
no expuestos
Ec, respectivamente.
As,
el
riesgo (100(0,80
relativo
donde
1 = P(D|E)
y 2 E=a ydesarrollar
P(D|E
) representan
la probabilidad
de
desarrollar
la determina
menos
propensos
la enfermedad
que los no
expuestos
- 1)
cuntas veces es ms frecuente la enfermedad en expuestos que en no expuestos. Se trata, por
c
tanto,
de =una
medida
efecto
multiplicativa
tomarEcualquier
valor no negativo,
-20%).
, respectivamente.
As, el de
enfermedad
D entredelos
sujetos
expuestos Eque
y nopuede
expuestos
tal forma que:
riesgo
relativo
veces
es ms
frecuente
la enfermedad
en expuestos
valordetermina
de
y su cuntas
inverso
1/
representan
el mismo
nivel de
asociacin,
pero
en =
yy =Un
1 indica
la
misma
probabilidad
de
enfermar
en expuestos
y no
expuestos
P(D|E)

P(D|Ec); es decir, la exposicin y la enfermedad son independientes. Cuanto ms alejado


queest
ensentido
nodeexpuestos.
SePor
trata,
por tanto,
una
efecto
multiplicativa
que
opuesto.
ejemplo,
si de
=ser
4,
los
sujetosdeexpuestos
son 4 veces

1 en
cualquier
sentido,
mayor
lamedida
magnitud
de la asociacin
entrems
exposicin
y enfermedad.
puede propensos
tomar cualquier
valor nolanegativo,
de tal
a desarrollar
enfermedad
queforma
los noque:
expuestos, o equivalentemente
yy > 1 indica una mayor probabilidad de desarrollar la enfermedad en expuestos que en no
expuestos.
Por ejemplo,
siprobabilidad
= 1,25, losdesujetos
expuestos
tienen 1,25
ms riesgo o

1 indica
la misma
enfermar
expuestos
y no veces
expuestos
los= no
expuestos
son un
75% menos propensos
aen
contraer
la enfermedad
que los
son un 25% ms propensos a desarrollar la enfermedad que los no expuestos (100( 1)
c
= 100(1,25
1) = 25%).
);es- decir,
la exposicin
la enfermedad son independientes.
P(D|E)
= P(D|E
1) = 100(0,25
- 1) =y-75%).
expuestos
(100(1/
yy < 1 indica una menor probabilidad de contraer la enfermedad en expuestos que en no
expuestos.
Pordeejemplo,
si = 0,80,
losaplicarse
sujetos expuestos
un 20% menos
propensos a
Esta medida
efecto tambin
puede
a estudiosson
transversales
en trminos
18
desarrollar la enfermedad que los no expuestos (100(0,80 1) = 20%).
la razn
y aleligual
quenivel
ocurra
la diferencia
de sentido
yde
y Un
valor de
de prevalencias.
y su inversoSin
1/embargo,
representan
mismo
de con
asociacin,
pero en
opuesto. Por ejemplo, si = 4, los sujetos expuestos son 4 veces ms propensos a
riesgos,
el riesgo
relativo no que
es directamente
estimable
a partir de estudios
desarrollar
la enfermedad
los no expuestos,
o equivalentemente
los no expuestos son
un 75% menos propensos a contraer la enfermedad que los expuestos (100(1/ 1) =
retrospectivos
la proporcin de casos est predeterminada por el propio diseo
100(0,25 1)ya=que
75%).

Esta
medida de efecto tambin puede aplicarse a estudios transversales en trminos de la
del estudio.
razn de prevalencias. Sin embargo, y al igual que ocurra con la diferencia de riesgos, el riesgo
relativo
es directamente
estimable a en
partir
estudios
retrospectivos
que la proporcin
A no
partir
de los datos observados
unade
tabla
22 (Tabla
7.1), un ya
estimador
puntual de
casos est predeterminada por el propio diseo del estudio.

delpartir
riesgoderelativo
viene
determinado
por tabla 22 (Tabla 7.1), un estimador puntual del
A
los datos
observados
en una
riesgo relativo viene determinado por
RR =

p1 a / n1

,
p 2 c / n2

que corresponde al cociente entre la proporcin de enfermos en la muestra de sujetos expuestos


p1 = a/n1 y no expuestos p2 = c/n2.

19
Ejemplo 7.10 De la Tabla 7.2 se desprende que la proporcin de muertes por enfermedad
cardiovascular es p1 = 254/2.713 = 0,094 en los participantes del estudio NHANES II con
niveles de colesterol total superiores a 6,20 mmol/l y p2 = 309/4.999 = 0,062 en aquellos
con niveles inferiores a 6,20 mmol/l. As, la estimacin puntual del riesgo relativo es
RR = 0,094/0,062 = 1,51;

108

Pastor-Barriuso R.

El clculo de un intervalo de confianza y un test de hiptesis para no resulta


Medidas de efecto en una tabla de contingencia
sencillo ya que la distribucin muestral de su estimador RR
es muy asimtrica,

particularmente cuando el riesgo relativo subyacente dista mucho del valor nulo 1. Para
es decir, la incidencia acumulada de muertes por enfermedad cardiovascular en 15 aos
de seguimiento
es un de
51%
superior en
los sujetostrabajar
con niveles
altos
de colesterol
solventar
este problema
inferencia,
es preferible
con el
logaritmo
naturaltotal
del que
en quienes tienen niveles ms bajos.
riesgo relativo, cuya distribucin presenta una mayor simetra. De hecho, puede
El clculo de un intervalo de confianza y un test de hiptesis para no resulta sencillo ya
queprobarse
la distribucin
muestral
dede
su ambas
estimador
RR esson
muy
asimtrica, particularmente
- 1) el
que si los
tamaos
muestras
suficientemente
grandes n11(1cuando
riesgo relativo subyacente dista mucho del valor nulo 1. Para solventar este problema de
inferencia,
preferible
contiende
el logaritmo
naturalde
delforma
riesgo
relativo,
distribucin
5 y n2es
- 2) 5,trabajar
el log(RR)
a distribuirse
normal
concuya
media
log()
2(1
presenta una mayor simetra. De hecho, puede probarse que si los tamaos de ambas muestras
y 2n, 22(1 2) 5, el log(RR) tiende a distribuirse
sonysuficientemente
grandes
+ 1/c
1/n
varianza aproximada
1/an-11/n
1(11
1) - 5
de forma normal con media log() y varianza aproximada 1/a 1/n1 + 1/c 1/n2,
~ N log( ), 1 1 1 1 .
log( RR)

a n1 c n 2

Frecuencia relativa (%) en muestras de tamao 500

Ejemplo 7.11 En las Figuras 7.2(a) y (b) se presentan las distribuciones muestrales
delEjemplo
RR y del7.11
log(RR)
deFiguras
mortalidad
poryenfermedad
cardiovascular
entre los sujetos con
En las
7.2(a)
(b) se presentan
las distribuciones
un colesterol total 6,20 y < 6,20 mmol/l obtenidos a partir de 1000 muestras aleatorias
simples
de tamao
estudio
NHANES por
II. enfermedad
Como puede
observarse, ambas
muestrales
del RR 500
y deldel
log(RR)
de mortalidad
cardiovascular
distribuciones estn centradas alrededor de los parmetros subyacentes 1,51 y log(1,51)
= 0,42 en todos los participantes del estudio. Sin embargo, la distribucin muestral del
20
RR presenta una clara asimetra, mientras que el log(RR) se distribuye de forma
aproximadamente normal.
25

25

20

20

15

15

10

10

0
0

(a)

-1

RR

(b)

25

25

20

20

15

15

10

10

0
0

(c)

OR

-1

log(RR)

(d)

log(OR)
Figura 7.2

Figura 7.2 Distribucin muestral del RR (a), log(RR) (b), OR (c) y log(OR) (d) de mortalidad por enfermedad
cardiovascular entre los sujetos con un colesterol total 6,20 y < 6,20 mmol/l en 1000 muestras aleatorias
simples de tamao n = 500 obtenidas a partir del estudio NHANES II. Las lneas verticales en trazo discontinuo
corresponden a los parmetros subyacentes = 1,51, log() = 0,42, = 1,57 y log() = 0,45.
Pastor-Barriuso R.

109

1 / 2

a normal
n1 cdel log(RR),
n2
En base a la distribucin aproximadamente
[Figura 7.2 aproximadamente
aqu] puede obtenerse un

) como
al 100(1 logartmica
- )% para el
Deshaciendo la transformacin
enlog(
ambos
lmites de este intervalo, el IC al
En base a la distribucin aproximadamente normal del log(RR), puede obtenerse un
para
el riesgo relativouna
subyacente
determinado
por
sigue
aproximadamente
distribucin
estandarizada.
Conviene
que100(1
bajo -H0 )%
1 queda
1normal
1 entonces
1
el log(
)como
intervalo
confianza alaproximadamente
100(1
- ) )%
En base ade
la distribucin
log(RR),
log( RR
zpara
del

. puede obtenerse un intervalo


1 / 2 normal
n1 c n 2
de
confianza
al 100(1
)%nula
paraHel:
log()
comoa con
=
1
coincide
la hiptesis H : = 2 de la
destacar
que esta
hiptesis
0

1 1 1 1 0 1
explog( RR) z1 / 2 1 1 1 1 .
aambos
c nde
log(
)muestras
z1 / 2 en
n1 lmites
RR
2. este intervalo, el IC al
Deshaciendo
transformacin
logartmica
en dos
comparacin
de la
proporciones
independientes,
a n1 c n 2as como con la hiptesis

Inferencia
sobre proporciones
intervalo
de confianza

2
el del
riesgo
relativo
subyacente
queda
entonces
determinado
por
100(1
- )%
Deshaciendo
la para
transformacin
enenambos
lmites
deEste
este
intervalo,
el
IC un
al 100(1
de Pearson
una
tabla
22.
test
es, por
nula
de independencia
Notar
que por
tratarse
detest
unalogartmica
medida
de efecto
multiplicativa,
el intervalo
detanto,
confianza
Deshaciendo
la
transformacin
logartmica
en
ambos
lmites
de
este
intervalo,
el
IC

)%
para
el
riesgo
relativo
subyacente

queda
entonces
determinado
por
que bajo H0 sigue aproximadamente una distribucin normal estandarizada. Conviene al
procedimiento
alternativo
para
la misma
hiptesis
nula,quelaarroja
resultados
no es simtrico
alrededor
de contrastar
la estimacin
puntual
RR.
hiptesis
nula de
1 queda
1 Asimismo,
1entonces
1 determinado
100(1

)%
para
el
riesgo
relativo
subyacente
. 0: 1 = 2 depor
lahiptesis
H
1 / 2
destacar que esta hiptesisexp
nula
H0: RR
=) 1 zcoincide
con
la
log(
a No
n1 obstante,
c n 2 si la muestra es

muy
similares
cuando
el
tamao
muestral
es
grande.
no efecto H0: = 1 puede contrastarse frente a la hiptesis alternativa bilateral H1:
comparacin
proporciones
dos muestras
como condela confianza
hiptesis no es
Notar que pordetratarse
de una en
medida
de efectoindependientes,
multiplicativa,
el
1 1 1 as
1 intervalo
moderada
o
pequea,
el
valor
P
de
este
test
puede
resultar
algo
impreciso,
en
cuyo
exp
RRpuntual
) dez1efecto
la hiptesis
RR.
/2
.intervalo
log(
1Notar
mediante
el estadstico
simtrico
alrededor
de la de
estimacin
Asimismo,
nulade
deconfianza
nocaso
efecto H0:
que
por
tratarse
una
medida
multiplicativa,
el
a
n
c
n
1
2
2

Pearson
en una tabla
22. H
Este
test es, por tanto, 2un
nula
independencia
test ala de
= 1de
puede
contrastarsedel
frente
hiptesis
alternativa
bilateral
1: 1 mediante el estadstico
es preferible
utilizar
los
contrates
basados
en
la
diferencia
de
proporciones
o el test
no es simtrico alrededor de la estimacinlog(
puntual
RR) RR. Asimismo, la hiptesis nula de
procedimiento
alternativo
para
mismamultiplicativa,
hiptesis
arroja resultados
z delaefecto
, nula,elque
Notar que por
tratarse de
unacontrastar
medida
intervalo
de confianza
1
1
1
1
de no
Pearson.
a la hiptesis alternativa bilateral H1:
efecto H0: = 1 puede contrastarse frente

aes grande.
npuntual
c No
n 2obstante,
muy
cuando
el tamao
si lalamuestra
esnula de
1
nosimilares
es simtrico
alrededor
de lamuestral
estimacin
RR.
Asimismo,
hiptesis
mediante
el estadstico
que1 bajo
H0 sigue
aproximadamente
una distribucin
estandarizada.
Conviene
Ejemplo
7.12
Retomando
de este
nuevo
datosresultar
delnormal
NHANES
II presentados
encaso
la destacar
moderada
o
pequea,
elpuede
valor contrastarse
P de
testlos
puede
algoalternativa
impreciso,
en cuyo
:

=
1
frente
a
la
hiptesis
bilateral
H
no
efecto
H
0
1: de
que esta hiptesis nula H : = 1 coincide con la hiptesis H : = de la comparacin
0

proporciones
en dos
muestras
independientes,
asRR
como
log(
) con la hiptesis nula de independencia
2
) resulta
ser
Tabla 7.2,
el IClos
al contrates
95% para
el log(en
es preferible
utilizar
basados
la diferencia
z
,de proporciones o el test
1
mediante
el
estadstico
2
test
es,
por
tanto,
un
procedimiento
alternativo
para
del test de Pearson en una tabla 22. Este
1 1 1 1
resultados

contrastar la misma hiptesis nula, que arroja


muy similares cuando el tamao
21
de Pearson.
a 1n1 c 1 n 2 1
1 muestra
muestral es grande.
No
obstante,
si
la
es
moderada
o
pequea,
el
valor
P
de
este
test
log(
RR
)

log(1,51) z 0,975 z
254 caso
2.713
309 4,utilizar
.999 los contrastes basados en la
puede resultar algo impreciso, en cuyo
es
preferible
1 1 1 1

diferencia
de proporciones
o el test
2 de Pearson.
Ejemplo
7.12 Retomando
de nuevo
II presentados en la
alos datos
n
cdel nNHANES
2
= 0,415 1 1,960,081
= (0,256; 0,574).
Ejemplo
Retomando
nuevo
los datos
) resulta
ser del NHANES II presentados en la
Tabla
7.2,7.12
el IC al
95% para eldelog(
Tabla
7.2,
el
IC
al
95%
para
el
log()
resulta
ser
21
Aplicando la exponencial a ambos lmites del intervalo,
el IC al 95% para

vendra dadolog(
por1,51) z 0,975

1
1
1
1

254 2.713 309 4.999

21

= 0,415
1,960,081
= (0,256;
(exp{0,256},
exp{0,574})
= (1,29;
1,78), 0,574).
Aplicando la exponencial a ambos lmites del intervalo, el IC al 95% para vendra dado por
que es ligeramente
asimtrico
respecto
a ladel
estimacin
puntual
= 1,51.
El
Aplicando
la exponencial
a ambos
lmites
intervalo,
el IC alRR
95%
para
(exp{0,256},
exp{0,574})
= (1,29; 1,78),
que
es ligeramente
asimtrico respecto a la estimacin puntual RR = 1,51. El estadstico
estadstico
para
vendra
dado
porel contraste de la hiptesis de no efecto H0: = 1 es
para el contraste de la hiptesis de no efecto H0: = 1 es

110

log(1,51)
exp{0,574})
= (1,29; =1,78),
z(exp{0,256},
=
5,11,
1
1
1
1

254 respecto
2.713 a la
309
4.999 puntual RR = 1,51. El
que es ligeramente asimtrico
estimacin
que corresponde a un valor P bilateral 2P(Z 5,11) = 2{1 (5,11)} < 0,001. Como caba
:-
= nulo
1 es <=0,001.
estadstico
la hiptesis
efecto
H
esperar,
estepara
test el
arroja
un resultado
significativo
dado
que
el0valor
1 queda fuera de
que corresponde
a contraste
un valor
Pdebilateral
2P(Zde no
5,11)
=
2{1
(5,11)}
los lmites del intervalo de confianza. As, se concluye que los sujetos con niveles de colesterol
total
superiores
a 6,20este
mmol/l
(IC
al 95% 29-78%;
< 0,001)
ms riesgo
Como
caba esperar,
test presentan
arrojalog(
un1un
resultado
significativo
dadoPque
el valor
,5151%
)
=
5,11,
z
=
de morir por enfermedad cardiovascular que quienes tienen niveles inferiores a este umbral.
1
1
1
1

22
254 2.713 309 4.999

Pastor-Barriuso R.

que corresponde a un valor P bilateral 2P(Z 5,11) = 2{1 - (5,11)} < 0,001.

,
medirse
mediante
7.6.2 Odds
ratio la probabilidad P(D|E)
P( D c de
| Eque
) un sujeto de la poblacin expuesta
vendra dada por
presente
o desarrolle
enfermedad.
Otrapoblacin
medida de
frecuencia
de
la
Medidas adeun
efecto
en enfermedad
una
de contingencia
La frecuencia
de una dicha
enfermedad
D en una
expuesta
factor
Etabla
suele
entre
los
expuestos
y
puede
estimarse
que se conoce como el odds de estar enfermo
P( D | E )
,
vendra
por la probabilidad P(D|E)
medirse dada
mediante
P( D c de
| Eque
) un sujeto de la poblacin expuesta
mediante
7.6.2 Odds ratio
presente o desarrolle dicha enfermedad.POtra
de frecuencia de la enfermedad
( D | medida
E)
,
odds
de
estar
enfermo
entre
los
expuestos
estimarse
que
se
conoce
como
el
La frecuencia de una enfermedad D ena /una
expuesta ya puede
un factor
E suele medirse
n1( Dpoblacin
ca
P
| .E )

vendra
dada
por
mediante la probabilidad P(D|E) de quebun
/ nsujeto
b de la poblacin expuesta presente o desarrolle
1
mediante
dicha enfermedad. Otra medida de frecuencia de la enfermedad vendra dada por
que se conoce como el odds de estar enfermo
P( D | Eentre
) los expuestos y puede estimarse
,
a / n1 por
ca
Ejemplo 7.13 La proporcin de muertes
enfermedad
cardiovascular entre los
P
(
D
|
E
)
.

mediante
b / n1 b
que se conoce como el odds de estar enfermo entre los expuestos y puede estimarse mediante
participantes del NHANES II con niveles de colesterol total 6,20 mmol/l es
que se conoce como el odds de estar enfermo
a / n1 entre
a los expuestos y puede estimarse
.
b / n1poraltos
b de colesterol
Ejemplo
7.13
proporcin
decon
muertes
cardiovascular
entre los
esto es,
porLa
cada
10 sujetos
que no fallezcan
por
a niveles
254 enfermedad
mediante

0,094 ;
n1de muertes
2.713 por enfermedad cardiovascular entre los
Ejemplo
La
proporcin
participantes
NHANES
II con
niveles
de
colesterol
total
que
6,20no
mmol/l
enfermedad
cardiovascular,
habr
aproximadamente
1 muerte
por
dicha es
causa
esto
es,7.13
pordel
cada
10
sujetos
con
niveles
altos
de colesterol
fallezcan
por a
a
/
n
1 deacolesterol total 6,20 mmol/l es
participantes
del
NHANES
II
con
niveles
Ejemplo 7.13 La proporcin de muertespor. enfermedad cardiovascular entre los
es decir,
1 dehabr
cada 11
altosambas
de colesterol
/ nla
b con niveles
1sujetos
los 15aproximadamente
aos de
seguimiento.
Aunque
interpretacin
medidas
enfermedad
cardiovascular,
1difiere,
muerte
por
dicha
causade
a
a baproximadamente
254
;
niveles
0de
,094
participantes del NHANES IIn con
colesterol
total

6,20
mmol/l
es
2.713
1
fallecer
cardiovascular
los
15deaos
dedifiere,
seguimiento.
Por
otraporde
frecuencia
facilitan
misma
informacin.
esto
es,por
porenfermedad
cada
10 la
sujetos
con
niveles
altos
colesterol
queambas
no fallezcan
los
15
aos
de
seguimiento.
Aunque
laa interpretacin
medidas
es decir,
aproximadamente
1 dede
cada
11 sujetos
con nivelescardiovascular
altos de colesterol
Ejemplo
7.13 La proporcin
muertes
por enfermedad
entrefallecer
los
a
254
parte,
el
odds
de
morir
por
enfermedad
cardiovascular
entre
estos
sujetos
es
por
enfermedad
cardiovascular
a
los
15
aos
de
seguimiento.
Por
otra
parte,
el odds
es decir,
aproximadamente
1 dehabr
cada
11
altos por
de colesterol
; 1 muerte
sujetos
0con
,094niveles
enfermedad
cardiovascular,
aproximadamente
dicha causa
a de
frecuencia
facilitan
la misma
informacin.
n
2
.
713
1 entre
Departicipantes
forma
equivalente,
el odds II
decon
estar
enfermo
entre
loses
no
expuestos
se define
morir
por enfermedad
cardiovascular
estos
sujetos
del NHANES
niveles
de colesterol
total
6,20 mmol/l
es
fallecer
cardiovascular
a
los
15
aos
de
seguimiento.
Por
otra
los 15 por
aosenfermedad
de seguimiento.
Aunque
la
interpretacin
difiere,
ambas
medidas
de
a
254
enfermo
0,103
; los no expuestos se define
como
Dees
forma
equivalente,
el
odds
de
estar
entre
decir, aproximadamente 1 bde cada
11 sujetos con niveles altos de colesterol
a2.459
254
parte,
el odds facilitan
de morir la
por
enfermedad
cardiovascular
frecuencia
misma
informacin.

0,094 ; entre estos sujetos es


estofallecer
es, por cada
10
sujetos
con
niveles
altos
de
colesterol que no fallezcan por enfermedad
n
2
.
713
como
1
c
por enfermedad cardiovascular
23
P( D | Ea )los 15 aos de seguimiento. Por otra
cardiovascular, habr aproximadamente 1 muerte
por dicha causa a los 15 aos de
,
c
a P254
| E 0c ,)103
seguimiento.
Aunque
lael interpretacin
difiere,
ambas
medidas
de frecuencia
( Denfermo
; los
De
formaelequivalente,
odds
de estar
entre
no
expuestos
se define
c
parte,
odds
de
morir
por
enfermedad
entre
estos
sujetos
esfacilitan la
es decir, aproximadamente 1 bde cada
sujetos
con niveles
altos
de
colesterol
P
D11
| Ecardiovascular
)
2.(459
misma informacin.
,
P( D c | E c )
como
y el odds
ratio opor
razn
de odds entre
expuestos
no15
expuestos
entonces
fallecer
enfermedad
cardiovascular
los
aos de queda
seguimiento.
Por otra
23
254ayentre
De forma equivalente, el odds de estaraenfermo
los
no
expuestos
se define como

0,103 ;
b 2.459c
ydeterminado
el odds
ratio
o razn
odds
expuestos
y) no expuestos
queda
entonces
parte,
elpor
odds
de de
morir
porentre
enfermedad
entre
estos
sujetos es
P( D | Ecardiovascular
,
c
c
23
P( D | E )
determinado por
c
c
c
)
(D | E )
P( D | E ) / P( D
P( D | E ) Pqueda
a | E254
y el odds ratio o raznde= odds entre expuestos
entonces
determinado por
yc no
0,103
;
expuestos
,
c
c
c
c
b
2
.
459
(
|
)
/
(
|
)
(
|
)
(
|
)
P
D
E
P
D
E
P
D
E
P
D
E
y el odds ratio o razn de odds entre expuestos
y no expuestos cqueda
entonces
P( D | E ) / P( D c | E )
P( D | E ) P( D | E c )

,
=
c
c
c
c
c
23
determinado
por puntualP( D | E ) / P ( D | E ) P( D | E ) P( D | E )
cuya estimacin
cuya estimacin puntual
c
cuya estimacin puntual P( D | E ) / P ( D
) d / nP2()D | ad
E ) P( D c | E c )
(a / |nE1 )(
=

,
c
OR = c c
c
|
)
(
|
)
(
|
)
P( D | E c ) / P( D
E
P
D
E
P
D
E
(b / n1 )(c / n 2 ) bc
(a / n1 )(d / n 2 ) ad
=
coincide con la razn del productoOR
cruzado
de las celdas de una tabla 22.
(b / n1 )(c / n 2 ) bc
cuya
estimacin
puntual
coincide
conellariesgo
razn relativo,
del producto
cruzado
deuna
las celdas
tabla
22.
Al
igual que
el odds
ratio es
medidadedeuna
efecto
multiplicativa
que toma
valores no negativos. Si = 1, las probabilidades de enfermar en expuestos y no expuestos
c relativo,
Al igual
elP(D|E
riesgo
elcruzado
odds
detabla
efecto
multiplicativa
coincide
conque
la=razn
del
ded las
celdas
22.
(a / nratio
/es
n 2una
) medida
ad de una
1 )(
), producto
indicando
coinciden
P(D|E)
OR = independencia entre
exposicin y enfermedad. Si por el
contrario > 1, la probabilidad de contraer
(b / nla1 )(enfermedad
c / n 2 ) bcser mayor en expuestos que en no
odds
= 1, las
probabilidades
en expuestos
y en
queAltoma
valores
no
negativos.
igual
que elque
riesgo
ratio
es
medidadede
efecto multiplicativa
expuestos;
mientras
si relativo,
< 1, Si
la el
probabilidad
deuna
desarrollar
laenfermar
enfermedad
ser menor
expuestos que en no expuestos. Resulta sencillo probar que el odds ratio estar siempre ms
c
coincide
lacoinciden
razn
delP(D|E)
producto
de
las celdas
de de
unaenfermar
tablaentre
22.
independencia
no expuestos
= P(D|E
cruzado
= 1, ),lasindicando
probabilidades
enexposicin
expuestos yy
que
tomacon
valores
no negativos.
Si
Pastor-Barriuso
Al
igual que
el
relativo,
el
odds
ratio
es unaindependencia
medida
de efecto
multiplicativa
> 1,
lac),probabilidad
de contraer
laentre
enfermedad
sery R.
enfermedad.
Si
porriesgo
el contrario
indicando
exposicin
no
expuestos
coinciden
P(D|E)
=P(D|E

= la
1, probabilidad
las
probabilidades
enfermar
en expuestos
que
toma
noelque
negativos.
Si
> 1,
enfermedad
ser y
enfermedad.
Si por
contrario
mayor
en valores
expuestos
en no expuestos;
mientras
quedesicontraer
de
< 1,
lalaprobabilidad
de

111

254 4.690
= 1,57.
2.459 309
Inferencia sobre proporciones
y no expuestos, de tal forma que P(Dc|E) y P(Dc|Ec) estn prximas a 1, el odds ratio
Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57%
ser
entonces
aproximadamente
igualrelativo.
al riesgo
relativo.si la probabilidad de enfermar es baja en
alejado del valor
nulo 1 que el riesgo
Adems,
c
superior
en los
sujetos
con niveles
de colesterol
a 6,20prximas
mmol/l que
|E) ysuperiores
P(Dc|Ec) estn
a 1, el
los sujetos
expuestos
y no
expuestos,
de tal forma
que P(Dtotal
odds ratio
ser entonces
aproximadamente
igual alenriesgo
relativo.
Ejemplo
7.14 Acon
partir
de datos
observados
el estudio
7.2),
en aquellos
niveles
inferiores
a 6,20 mmol/l.
Este NHANES
odds ratio II
es(Tabla
ligeramente
OR =

Ejemplo
7.14 A partir
deodds
los datos
observados en el estudio NHANES II (Tabla 7.2), la
la estimacin
ratio
mayor que puntual
el riesgodel
relativo
RR =es1,51 estimado en el Ejemplo 7.10, aunque la
estimacin puntual del odds ratio es

diferencia no es muy grande porque


acumulada es relativamente baja
254 la4.incidencia
690
= 1,57.
OR =
2.459 309
tanto en expuestos 254/2.713 = 0,094 como en no expuestos 309/4.999 = 0,062.
Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57% superior en los
sujetos
conelniveles
demortalidad
colesterol total
superiores a cardiovascular
6,20 mmol/l queesen
Por tanto,
odds de
por enfermedad
unaquellos
57% con niveles
inferiores
a 6,20
mmol/l.
Este
odds obvio
ratio es
el riesgo
relativo
, resulta
queligeramente
el odds ratiomayor
puedeque
estimarse
a partir
De la propia
definicin
de
superior
los sujetos
niveles 7.10,
de colesterol
total
superiores
a 6,20
RR
= 1,51enestimado
en con
el Ejemplo
aunque la
diferencia
no es
muymmol/l
grande que
porque la
incidencia
acumulada
es
relativamente
baja
tanto
en
expuestos
254/2.713
=
0,094
de estudios prospectivos y transversales, ya que ambos diseos facilitan estimaciones como
de
aquellos
con niveles
inferiores
a 6,20 mmol/l. Este odds ratio es ligeramente
en no
expuestos
309/4.999
= 0,062.
las probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definicin de
que definicin
el riesgo relativo
RR = 1,51
estimado
el Ejemplo
7.10,estimarse
aunque laa partir de
Demayor
la propia
de , resulta
obvio
que el en
odds
ratio puede
estudios
prospectivos
y transversales,
ya elque
ambos
diseosexpresarse
facilitan aestimaciones
probabilidad
condicional
(ver Tema 2),
odds
ratio puede
su vez en de las
c
diferencia de
no es
muy grande
porque
la incidencia
acumulada
es relativamente
baja
). Aplicando
la definicin
de probabilidad
probabilidades
enfermar
P(D|E)
y P(D|E
condicional
2), el odds
expresarse
a su vez
enenfermos
trminos de
la probabilidad
trminos (ver
de laTema
probabilidad
de ratio
estarpuede
expuesto
en enfermos
y no
como
tanto
en expuestos
254/2.713
0,094 como
de estar
expuesto
en enfermos
y no =
enfermos
comoen no expuestos 309/4.999 = 0,062.
P( D | E ) P( D c | E c ) P( D E ) P( D c E c )

c
c
a partir
De la propia definicin Pde( Dc, |resulta
( Dodds
) P(puede
D Eestimarse
)
E ) P ( Dobvio
| E c )quePel
Eratio
c
( E | D) P( E c ya
| D que
) ambos diseos facilitan estimaciones de
de estudios prospectivos yPtransversales,

,
P( E | D c ) P( E c | D)
las probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definicin de
de donde
se desprende
queodds
el odds
ratio
tambin
estimable a partir
de estudios
retrospectivos,
estimacin
puntual del
ratio
en es
estudios
retrospectivos
coincide
con la razn
del
aun
diseos (ver
no
informacin
alguna
sobre
las
probabilidades
decuando
dondeestos
se
desprende
quefacilitan
el odds2),
ratio
es tambin
estimable
a partir
devez
estudios
probabilidad
condicional
Tema
el odds
ratio
puede
expresarse
a su
en absolutas de
enfermar
en cruzado
expuestos y no expuestos. Por supuesto, la estimacin puntual del odds ratio en
producto
estudios
retrospectivos
coincide
condiseos
la raznnodel
producto
cruzado
retrospectivos,
aun cuando
informacin
alguna
sobre las
trminos
de la probabilidad
deestos
estar
expuesto
enfacilitan
enfermos
y no enfermos
como

(a / mexpuestos
ad
1 )( d / m 2 )y no
probabilidades absolutas de enfermar
Por supuesto, la
expuestos.
.
OR =c en
c
P( D | E ) P( D | E
)m 2 P
(cD/ m
(D c E c )
1 )E ) Pbc
(
b
/
)(

P( D c | E ) P( D | E c ) P( D c E ) P( D E c )
Los estudios retrospectivos suelen conducirse en enfermedades de baja incidencia, para las
c
c
cualesLos
la obtencin
de un
suficiente
de estudios
estudios retrospectivos
en requerira
enfermedades
de baja prospectivos
incidencia, 25con
P( Enmero
| D) Psuelen
(E
| Dconducirse
) de casos
y amplio
, En tales circunstancias, si la incidencia de la
gran tamao muestral
c seguimiento.
c
(
|
)
(
|
)
P
E
D
P
E
D
enfermedad
es bajalayobtencin
el diseo de
delun
estudio
retrospectivo
(esto es,
incidentes
para las cuales
nmero
suficientes es
de adecuado
casos requerira
decasos
estudios
y controles representativos del nivel de exposicin en la poblacin libre de enfermedad), el
odds
ratioseconstituye
una
buena
aproximacin
al riesgo
relativo
subyacente.
En adelante,
con gran
tamao
amplio
seguimiento.
En
tales
circunstancias,
si el
de prospectivos
donde
desprende
que
el oddsmuestral
ratio es ytambin
estimable
a partir
de estudios
odds ratio se utilizar e interpretar como estimacin del riesgo relativo, asumiendo que se
cumplen
las condiciones
citadas
la incidencia
de la
enfermedad
es baja no
y elfacilitan
diseo informacin
del estudio retrospectivo
retrospectivos,
aun
cuando
estos anteriormente.
diseos
alguna sobrees
lasadecuado
(esto
es, casos
incidentes
y controles
nivel
dePor
exposicin
probabilidades
absolutas
enfermar
enrepresentativos
expuestos
y no del
expuestos.
supuesto,
lala
Ejemplo
7.15
En de
el estudio
EURAMIC
se obtuvo
una
muestra
de casosenincidentes
de
infarto de miocardio procedentes de las unidades de cuidados intensivos y una muestra
poblacin
de enfermedad),
el oddsaratio
constituye
una buena
aproximacin
al
aleatorialibre
de controles
seleccionados
partir
de la poblacin
de referencia.
El nmero
de
casos y controles con valores de colesterol HDL superiores o inferiores a 0,90 mmol/l
se
25
riesgo
relativo
subyacente.
En adelante,
el odds
ratio se utilizar
e interpretar
como
presenta
en la
Tabla 7.3. Aunque
el diseo
retrospectivo
del estudio
no permite
conocer la
112

estimacin
Pastor-Barriuso
R.

del riesgo relativo, asumiendo que se cumplen las condiciones citadas

anteriormente.

retrospectivo
delhombres
estudio no
permite
la incidencia
de infartoscomo
entreun
losriesgo
poblacin de
adultos,
esteconocer
odds ratio
puede interpretarse
con un colesterol HDL inferior a 0,90 mmol/l (100(0,58 - 1) = -42%).
Medidas
de efecto
enauna
tabla
de contingencia
sujetos
con
altos
bajos
de
colesterol
HDL, ses
es
posible
obtener
una
relativo
concluir
que
sujetos
condeunmiocardio
colesterol
HDL
superior
0,90
mmol/l
Como
layvalores
incidencia
deylos
infarto
agudo
relativamente
baja
en
la
El
odds
ratio un
es
de
efecto
cuya
distribucin
muestral
medida
relativa
de
lamedida
asociacin
entre
el
colesterol
HDL
yde
elmiocardio
riesgo de
infarto
dees
presentan
42%
menos
riesgo
de multiplicativa
padecer
un puede
infarto
que
aquellos
poblacin
de una
hombres
adultos,
este
odds
ratio
interpretarse
como
un riesgo
incidencia de infartos entre los sujetos con valores altos y bajos de colesterol HDL, s es
notablemente
asimtrica
7.2(c)),
mientras
que
suentre
transformacin
miocardio
mediante
el(Figura
odds
ratio
con
un
colesterol
HDL
inferior
a 0,90
(100(0,58
- superior
1)colesterol
= -42%).
posible
obtener
una medida
relativa
de
lammol/l
asociacin
HDLmmol/l
y el riesgo
relativo
y concluir
que
los
sujetos
con
un
colesterol
HDLel
alogartmica
0,90
de infarto de miocardio mediante el odds ratio
log(OR)
tiende aun
distribuirse
normalmente
(Figuraun
7.2(d))
varianza
presentan
42% menos
riesgo de
padecer
infartocon
deuna
miocardio
que aquellos
158
269
El odds ratio es una medida deOR
efecto
= multiplicativa
= 0,58.cuya distribucin muestral es
381
193 de las frecuencias de una tabla 22
aproximadamente
igual HDL
a la suma
de los
inversos
con un colesterol
inferior
a 0,90
mmol/l (100(0,58 - 1) = -42%).
notablemente
asimtricade(Figura
mientras
que es
su relativamente
transformacinbaja
logartmica
Como la incidencia
infarto7.2(c)),
agudo de
miocardio
en la poblacin
de hombres adultos, este odds ratio puede interpretarse
como
un
riesgo
relativo
y concluir
1 1 1 1
log(OR)
tiende
distribuirse
normalmente
con
unapresentan
varianza
var{log(OR)}
(Figura
7.2(d))

cuya
. distribucin
que
los
sujetos
con
colesterol
HDLmultiplicativa
superior
a 0,90
mmol/l
un 42%
El odds
ratioaes
una un
medida
de efecto
muestral
esmenos
c d con un colesterol HDL26
riesgo de padecer un infarto de miocardioa queb aquellos
inferior
aproximadamente
igual a(Figura
la suma
de
los inversos
lassufrecuencias
de una
tabla 22
a 0,90 mmol/l
(100(0,58
1) =7.2(c)),
42%).
notablemente
asimtrica
mientrasde
que
transformacin
logartmica
Utilizando esta aproximacin normal a la distribucin muestral del log(OR) y
log(OR)
normalmente
unadistribucin
varianza
El
odds tiende
ratio aesdistribuirse
una medida
de efecto(Figura
multiplicativa
cuya
muestral es
1 1 7.2(d))
1 1con
var{log(OR)}

.
deshaciendoasimtrica
a continuacin
la 7.2(c)),
transformacin
se obtiene ellogartmica
intervalo delog(OR)
notablemente
(Figura
mientraslogartmica,
que su transformacin
a b c d
aproximadamente
igual
a
la
suma
de
los
inversos
de
las
frecuencias
de
una
tabla 22
tiende a distribuirse normalmente (Figura 7.2(d)) con una varianza aproximadamente
igual a la
)%frecuencias
para el oddsderatio
confianza
al 100(1de
- las
suma
de los inversos
una subyacente
tabla 22
Utilizando esta aproximacin normal a la distribucin muestral del log(OR) y
1 1 1 1
var{log(OR)} .
transformacinalogartmica,

1 b 1 c 1 dse1 obtiene
deshaciendo a continuacin
el intervalo de
,
explalog(
OR) z1 / 2
a bmuestral
c d del log(OR) y deshaciendo a
Utilizando esta aproximacin normal
a la distribucin

el odds aratio
subyacente

confianza
100(1
- )% para
continuacin
laesta
transformacin
logartmica,
obtiene el intervalo
de
Utilizandoal
aproximacin
normal
lasedistribucin
muestral
delconfianza
log(OR) yal 100(1 )%
para el odds ratio subyacente
que no es simtrico alrededor de la estimacin puntual OR. De forma anloga, la
deshaciendo a continuacin la transformacin logartmica, se obtiene el intervalo de
con el ejemplo anterior,
1 1 el1 IC 1al95% para el odds
Ejemplo 7.16 Continuando
z1 / 2 de la
nula
log(OR) bilateral
, H0: = 1 se obtiene
significacin estadstica exp
del contraste
a bhiptesis
el odds ratio subyacente
c d
confianza al 100(1 - )% para
ratio de infarto agudo de miocardio entre los sujetos con niveles altos y bajos de
quea no
es simtrico
alrededor de la estimacin puntual OR. De forma anloga, la significacin
partir
del estadstico
quecolesterol
no es
alrededor
estimacin
puntual
De
la estadstico
estadstica
delsimtrico
contraste
bilateral de la hiptesis
nula
=11 se
a partir del
forma anloga,
1 H0:1OR.
1 obtiene
HDL es
,
explog(OR) z1 / 2
log(ORa) b c d
,
z bilateral de la hiptesis
significacin estadstica del contraste
nula H0: = 1 se obtiene

11 1 1 1 11
1
exp log(0,58) z 0,975

al 95% para el odds


Ejemplo
7.16 Continuando
con el 269
ejemplo
anterior,
el158
ICDe
a b381
c 193
d OR.
aque
partir
delsimtrico
estadstico
no es
puntual
alrededor de la estimacin
forma anloga, la
que bajo H0 sigue aproximadamente una distribucin normal estandarizada.
ratio de infarto
agudodel
de miocardio
entre losdesujetos
con niveles
de
: =y 1bajos
se obtiene
significacin
estadstica
contraste
bilateral
nula
Haltos
00,75).
aproximadamente
una
distribucin
normal=estandarizada.
que
bajo H0 sigue
log(OR
) la hiptesis
= exp(-0,55
1,960,134)
(0,44;
,
z
Ejemplo
7.16
Continuando
con el 1ejemplo
el IC al 95% para el odds ratio de
1 1anterior,
1
colesterol
HDL
es
a partir
del
estadstico

infarto
agudo
de miocardio
entreuna
losconfianza
sujetos
niveles
altoslos
y bajos
decon
colesterol
Por tanto,
puede
afirmarse con
sujetos
nivelesHDL es
a b con
cdel
d95% que

1 log(
1OR) 56%
1 menos
1 riesgo de padecer un
altos de colesterol
expaproximadamente
log(HDL
0,58)tienen
z 0,975zentre
25 y un

,
unaun
estandarizada.
distribucin
normal
que bajo H0 sigue
27
269
1 1381 1 193
1 158


infarto de miocardio que quienes
tienen
niveles
ms
- 1) = -25% y
a0,55
b c1,960,134)
d bajos=(100(0,75
= exp(
(0,44; 0,75).

100(0,44
1) = -56%).
Asimismo,
contrastedelbilateral
delos
la hiptesis
de niveles
no
Por
tanto, -puede
afirmarse
con una el
confianza
95% que
sujetos con
altos de
que bajo H0 sigue aproximadamente una distribucin normal estandarizada.
colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un infarto de miocardio
Por tanto,
afirmarse el
con
una confianza del 95% que los sujetos con niveles 27
tienen
= 1 mediante
estadstico
efecto
H0: puede
que
quienes
niveles ms
bajos (100(0,75 1) = 25% y 100(0,44 1) = 56%).
Asimismo, el contraste bilateral de la hiptesis de no efecto H0: = 1 mediante el estadstico
altos de colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un
log(0,58)
z=
= 4,10
infarto de miocardio que quienes
ms
1 tienen
1 niveles
1
1 bajos (100(0,75 - 1) = -25% y 27

269 381 193 158


100(0,44 - 1) = -56%). Asimismo, el contraste bilateral de la hiptesis de no
R.
arroja
muy significativo
P = 2P(Z -4,10) = 2{1 - (4,10)} <Pastor-Barriuso
0,001.
efecto un
H0:resultado
= 1 mediante
el estadstico

Notar que este test es equivalente al contraste de hiptesis realizado en el Ejemplo


log(0,58)

113

Inferencia sobre proporciones

arroja un resultado muy significativo P = 2P(Z 4,10) = 2{1 (4,10)} < 0,001. Notar
que este test es equivalente al contraste de hiptesis realizado en el Ejemplo 7.5 sobre la
igualdad en la proporcin de sujetos con niveles bajos de colesterol HDL entre los casos
de infarto y los sujetos libres de la enfermedad, de tal forma que los valores P resultantes
de ambos procedimientos son virtualmente idnticos.
7.7 COMPARACIN DE PROPORCIONES EN DOS MUESTRAS DEPENDIENTES
Hasta este punto se han presentado distintos mtodos para la comparacin de proporciones a
partir de muestras independientes. Con cierta frecuencia, sin embargo, suelen emplearse
muestras dependientes, que surgen tanto de observaciones tomadas en los mismos sujetos como
en distintos sujetos emparejados de acuerdo a determinados factores pronsticos. En el Apartado
6.4 del tema anterior, se presentaron diversos diseos o mecanismos de generacin de datos
dependientes. En general, el propsito de los diseos emparejados es aumentar la precisin de
las comparaciones y, en mayor medida, mejorar la validez de las inferencias al controlar por
posibles factores de confusin. En este apartado se aborda el tratamiento estadstico de datos
binarios o dicotmicos procedentes de parejas dependientes.
La muestra consiste en n parejas dependientes o correlacionadas, donde cada pareja est
compuesta por dos observaciones de una variable dicotmica procedentes de distintas poblaciones.
As, por ejemplo, en comparaciones antes y despus de un tratamiento, cada pareja de datos est
constituida por la respuesta en un mismo sujeto antes y despus de dicho tratamiento. Igualmente,
en un estudio de casos y controles emparejados, cada pareja de observaciones est formada por
la presencia o ausencia de exposicin en cada caso y su correspondiente control. Para simplificar
la presentacin, nos centraremos en adelante en un estudio de casos y controles emparejados.
Para preservar el emparejamiento muestral, la unidad de anlisis ser cada pareja y no cada
individuo. As, la organizacin de los datos por individuo mediante la Tabla 7.1 no resulta adecuada
ya que se pierde la informacin relativa al emparejamiento. La forma apropiada de presentar los
datos se muestra en la Tabla 7.6. Cada unidad de esta tabla representa una pareja, de tal forma que
hay a parejas donde ambos caso y control estn expuestos al factor de riesgo, b parejas donde el
caso est expuesto y el control no, c parejas donde el control est expuesto y el caso no, y d parejas
donde ninguno est expuesto. Las a + d parejas donde ambos o ninguno de los miembros estn
expuestos se denominan parejas concordantes, mientras las restantes b + c parejas son discordantes.
Ejemplo 7.17 En el Ejemplo 6.12 se seleccionaron 50 casos de infarto de miocardio y 50
controles del estudio EURAMIC emparejados por grupos quinquenales de edad. A partir de sus
valores del colesterol HDL (Tabla 6.1), se desprende que hay 23 parejas donde el caso de infarto
y su correspondiente control presentan niveles altos de colesterol HDL (superior a 0,90 mmol/l),
6 parejas donde el caso tiene un nivel alto y el control bajo, 17 parejas donde el caso tiene un
nivel bajo y el control alto, y 4 parejas donde ambos presentan niveles bajos de colesterol HDL.
Los datos de este estudio de casos y controles emparejados se resumen en la Tabla 7.7.
Tabla 7.6 Tabla de contingencia en un estudio de casos
y controles emparejados.
Controles
Casos
Expuestos
No expuestos
Total
114

Pastor-Barriuso R.

Expuestos

No expuestos

Total

a
c
a+c

b
d
b+d

a+b
c+d
n

Comparacin deaqu]
proporciones en dos muestras dependientes
[Tabla 7.7 aproximadamente

Con objeto de evaluar la asociacin entre exposicin y enfermedad controlando por


Tabla 7.7 Colesterol HDL en 50 casos de infarto de miocardio y 50
controles del estudio EURAMIC emparejados por grupos quinquenales
aquellos factores de confusin utilizados en el emparejamiento, cada caso ha de ser
de edad.
comparado con su correspondiente control; esControles
decir, las comparaciones deben estar
donde la ltima igualdad refleja su relacin con el odds ratio subyacente . Despejando
Casos

HDL > 0,90 mmol/l

HDL 0,90 mmol/l

Total

17

21

condicionadas
a cada pareja. Por ello,23los pares concordantes,6donde ambos miembros
HDL
> 0,90 mmol/l
29
de esta
expresin,
se tiene que
HDL 0,90 mmol/l

estn o Total
no expuestos, no aportan informacin
sobre la asociacin
a estudio y,50
en
40
10

a las. parejas discordantes. La probabilidad


consecuencia, el anlisis estadstico se limita
1
Con objeto de evaluar la asociacin entre exposicin y enfermedad controlando por aquellos
factores
de confusin
utilizados
en elexpuesto
emparejamiento,
cadanocaso
ha de viene
ser comparado
de observar
una pareja
con el caso
y el control
expuesto
dada por con su
puede
mediante deben
la proporcin
observada b/(b
+ c) pareja.
de
Como la probabilidad
correspondiente
control; es
decir, estimarse
las comparaciones
estar condicionadas
a cada
c c
PorP(E|D)P(E
ello, los pares
concordantes,
ambos de
miembros
estn
o nocon
expuestos,
|D ), mientras
que ladonde
probabilidad
obtener una
pareja
el controlno aportan
parejas discordantes
donde el acaso
est y,
expuesto,
la estimacin
puntualestadstico
del odds ratio
de a
informacin
sobre la asociacin
estudio
en consecuencia,
el anlisis
se limita
c
c
lasexpuesto
parejas discordantes.
La probabilidad
observar
unadado
pareja
casoesexpuesto y el
)P(E
|D). As,
que con
una el
pareja
y el caso no expuesto
es P(E|Dde
. Despejando
dondenolaexpuesto
ltima
igualdad
refleja
suP(E|D)P(E
relacin
ratioque
subyacente
c
enfermar
entre expuestos
y nopor
expuestos
es con
|Dcel
), odds
mientras
la probabilidad
de obtener
control
viene dada
c
c
de quey el
expuesto es P(E|D )P(E |D). As, dado que
unadiscordante,
pareja con la
el probabilidad
control expuesto
el caso
casoest
no expuesto

de
esta
expresin,
se
tiene
que
una pareja es discordante, la probabilidad
c)estb expuesto es
b /(b de
c) quebel/(bcaso

OR =
,
Psu
)b cratio
. Despejando
(cEcon
1(Erelacin
/(b) P
)c | D
) c subyacente
b| D
cel/(codds
donde la ltima
igualdad
refleja
,

c
c
c
c
P( E | D) P( E | D ) P ( E | D
. ) P( E | D) 1
1

dela
esta
expresin,
se refleja
tiene
que
que
coincide
con
la razn
entre
tipos
Si el.
nmero
de
donde
ltima
igualdad
suambos
relacin
condeelpares
oddsdiscordantes.
ratio subyacente
Despejando
de
esta expresin, se tiene que
puede
estimarse
mediante
la proporcin
Como ladiscordantes
probabilidadb con
parejas
el caso
expuesto
es superior
al nmeroobservada
de parejasb/(b + c) de

.
1

parejas discordantes
caso est el
expuesto,
la estimacin
odds ratio de
discordantes
c con eldonde
controlelexpuesto,
odds ratio
ser mayor puntual
de 1 y ladel
exposicin
30
Como la probabilidad puede estimarse mediante la proporcin observada b/(b + c) de parejas
enfermar
entre
y no
expuestos
es
discordantes
dondeexpuestos
el caso
expuesto,
la estimacin
delsiodds
deb/(b
enfermar
est
puede
estimarse
mediante
lapuntual
proporcin
Como
la probabilidad
estar
directamente
asociada
con
la enfermedad;
mientras
que
bobservada
es ratio
inferior
a c,+elc) deentre
expuestos y no expuestos es
odds ratio
ser menordonde
de 1 yellacaso
exposicin
conodds
la ratio de
parejas
discordantes
expuesto,
labestimacin
puntual del
best
/(b
c)estarb inversamente
/(
c) b asociada

,
OR =
1 b /(b c) c /(b c) c
enfermedad.
enfermar
entre expuestos y no expuestos es

que coincide con la razn entre ambos tipos de pares discordantes. Si el nmero de parejas
igualbque
independientes,
el log(OR)
tambin se Si
distribuye
de de
forma
queAlcoincide
conenel
lamuestras
raznexpuesto
entre
ambos
tipos
pares
el nmero
discordantes
con
caso
discordantes
c con el
c) de al
bes/(bsuperior
b /(nmero
b discordantes.
c) deb parejas
exposicinestar
, directamente asociada con
= mayor de 1 y la
control expuesto, el odds ratioOR
ser
1 b /(dependientes,
b c) c /(b con
c) media
c
) ydevarianza
aproximadamente
normal
parejas discordantes
bque
conen
caso
expuesto
eselsuperior
al nmero
deparejas
la enfermedad;
mientras
sielbmuestras
es inferior
a c,
odds ratio
ser log(
menor
1 y la exposicin
estar inversamente asociada con la enfermedad.
discordantes
ccon
con
elrazn
control
expuesto,
el odds
ser
mayor
de Si
1 el
yella
exposicin
aproximada
+la1/c.
El intervalo
de confianza
al 100(1
- )% para
odds
ratiode
que
coincide1/b
entre
ambos
tipos
de ratio
pares
discordantes.
nmero
Al igual que en muestras independientes, el log(OR) tambin se distribuye de forma
estar directamente
asociada
enfermedad;
mientras
que
si byde
esvarianza
inferioraproximada
a c, el
aproximadamente
normal
en
dependientes,
con
media
log()
1/b
subyacente
resulta
parejas
discordantes
bentonces
conmuestras
el con
casolaexpuesto
es superior
al nmero
parejas
+ 1/c. El intervalo de confianza al 100(1 )% para el odds ratio subyacente resulta entonces
odds ratio ser
menor
de 1 y la
exposicin
estar
inversamente
la
discordantes
c con
el control
expuesto,
el odds
ratio
ser mayorasociada
de 1 y la con
exposicin

1 1
explog(OR) z1 / 2
.
enfermedad.
b c que si b es inferior a c, el
estar directamente asociada conla enfermedad; mientras

Alratio
igual quemenor
en muestras
el log(OR)
tambinasociada
se distribuye
odds
y independientes,
la exposicin
estar
inversamente
con slo
lade forma
Ejemploser
7.18 Ende
la 1Tabla
7.7 se tienen
6 parejas
discordantes
donde
el caso de
infarto
tiene7.18
un nivel
de7.7
colesterol
HDL
y 17discordantes
parejas discordantes
donde
slo el
Ejemplo
En la alto
Tabla
se tienen
6 parejas
donde
slo
el caso
) y varianza
aproximadamente
normal
en muestras
dependientes,
con media log(
enfermedad.
de infarto tiene un nivel alto de colesterol HDL y 17 parejas discordantes donde
aproximada
1/b en
+ 1/c.
El intervalo
de confianza
al 100(1tambin
- )% para
el odds ratio
Pastor-Barriuso
Al igual que
muestras
independientes,
el log(OR)
se distribuye
de forma R.
aproximadamente
normal
en muestras dependientes, con media log() y varianza
subyacente resulta
entonces

115

slo el control presenta un nivel alto, de lo cual se deduce que la estimacin

Inferencia sobre proporciones

slo el control
puntual
del oddspresenta
ratio es un nivel alto, de lo cual se deduce que la estimacin
puntual
del odds un
ratio
es alto, de lo cual se deduce que la estimacin puntual del odds
control presenta
nivel
6
OR =
= 0,35,
ratio es
17
6
OR =
= 0,35,
17
y su IC al 95%
y su IC al 95%
y su IC al 95%

1 1
explog(0,35) z 0,975

6 17

1 1
explog(0,35=)exp(
z 0,975

1,04 1,960,475)
= (0,14; 0,90).
6 17

Por tanto, el riesgo de infarto agudo de miocardio es inferior en un 65% (IC al 95%
= exp(-1,04
1,960,475) =
0,90). respecto a aquellos
10-86%)
los sujetos
con niveles
> (0,14;
0,90enmmol/l
Por
tanto, en
el riesgo
de infarto
agudo de
de colesterol
miocardioHDL
es inferior
un 65% (IC al
con niveles 0,90 mmol/l. La conclusin de este estudio emparejado es consistente con
la obtenida
los Ejemplos
y 7.16
en la muestra
completa eunindependiente
Por
tanto,
elenriesgo
infarto7.15
agudo
de miocardio
es inferior
65% (IC al de casos
95%
1086%)
en losdesujetos
con
niveles
de colesterol
HDL >en
0,90 mmol/l
y controles del estudio EURAMIC. Aunque esta estimacin de efecto es ms imprecisa
por disponer
nicamente
de 50 parejas,
ser
menos propensa
a0,90
posibles
sesgos derivados
95%
1086%)
en los
niveles
de colesterol
HDL >de
respecto
a aquellos
consujetos
nivelescon
0,90
mmol/l.
La conclusin
estemmol/l
estudio
de la diferencia de edad entre casos y controles.
2
b c La conclusin de este estudio

respecto
a
aquellos
con
niveles

0,90
mmol/l.
emparejado es consistente con la 2obtenida
y 7.16 en la
b en los Ejemplos 7.15
El mtodo ms extendido
entre exposicin
Econtrastar
{bpara
(b)}
(b de
)2
cindependencia
2 nula
la hiptesis
2

=
.

y enfermedad
en un
estudio
emparejado
en
la
frecuencia
b de
emparejado
es consistente
con
los comparar
Ejemplos
7.15
y 7.16
enobservada
la
b en
var(
b) la obtenida
b del
c estudio
muestra
completa
e independiente
deconsiste
casos
yccontroles
EURAMIC.
pares discordantes donde el caso est expuesto4con su frecuencia esperada bajo la hiptesis
nula. Aunque
Si
no hubiera
asociacin
exposicin
yy enfermedad,
frecuencia
esperada
sera
muestra
completa
e independiente
casos
controles
delesta
estudio
EURAMIC.
esta
estimacin
deentre
efecto
esdems
imprecisa
por disponer
nicamente
de
simplemente la mitad del nmero total de parejas discordantes (b + c)/2, con lo cual el estadstico
Bajocontraste
la
hiptesis
nula
de no efecto,
este
estadstico
siguederivados
aproximadamente
una de
del
viene
determinado
Aunque
esta
estimacin
depor
efecto
es
ms imprecisa
por disponer
de
50
parejas,
ser
menos
propensa
a posibles
sesgos
de la nicamente
diferencia
2

b c permite obtener el valor P


sesgos
distribucin
chi-cuadrado
conpropensa
1 grado adeposibles
libertad,
50 parejas,
ser menos
la diferencia de
edad
entre
casos
y controles.
b lo que
derivados de
2
(b c) 2
{b E (b)}
2

2
=
. 2

1 . Este
como edad
la probabilidad
derechavar(
delbestadstico
b 2 en
c la distribucin
)
bc
entre casosaylacontroles.
El mtodo ms extendido para contrastar la hiptesis
4 nula de independencia entre
contraste
se conoce
como
el test
de McNemar
y se aplica
cuando la varianzauna
de bdistribucin
bajo
Bajo
hiptesis
de no
efecto,
este estadstico
sigue
aproximadamente
El la
mtodo
msnula
extendido
para
contrastar
la hiptesis
nula
independencia
entre
exposicin
y enfermedad
en un
estudio
emparejado
consiste
endecomparar
la frecuencia
chi-cuadrado
con 1 grado
libertad,
que
permite obtener
el valor P como la
Bajo la hiptesis
nula dedeno
efecto, lo
este
estadstico
sigue aproximadamente
unaprobabilidad
la
hiptesis
nula
es
var(b)
=
(b
2 + c)(1 - ) = (b + c)/4
2 5; es decir, cuando el nmero
la distribucin consiste
se conoce
como el test
a la derechay del
estadstico
en
1 . Este contraste
exposicin
en un
estudio
encon
comparar
la frecuencia
observada
b deenfermedad
pares discordantes
dondeemparejado
el caso est expuesto
su frecuencia
de distribucin
McNemar ychi-cuadrado
se aplica cuando
varianza
de b bajo
la hiptesis
nula eselvar(b)
= (b + c)
con 1 la
grado
de libertad,
lo que
permite obtener
valor P
de
parejas
discordantes
es
superior
o
igual
a
20.
(1 ) = b(bde+pares
c)/4
5; es decir,donde
cuando
el nmero
de parejas
es superior o
observada
discordantes
el caso
est expuesto
con discordantes
su frecuencia
esperada
bajo la hiptesis
nula. Si no hubiera
asociacin
entre exposicin
y enfermedad,
2
2
igual
a
20.
como la probabilidad a la derecha del estadstico en la distribucin 1 . Este
esperada
bajo laesperada
hiptesis
nula.
Si del
no hubiera
asociacin
exposicin
y enfermedad,
esta
frecuencia
sera
simplemente
la McNemar
mitad
del nmero
total7.7
de toma
parejas
Ejemplo
7.19
El estadstico
test de
enentre
la Tabla
el valor
contraste
se 7.19
conoceElcomo
el test del
de McNemar
y se aplica
la varianza
de b bajo
Ejemplo
estadstico
test de McNemar
en lacuando
Tabla 7.7
toma el valor
esta frecuencia
simplemente
la mitad
del nmero
total
de parejas por
discordantes
(b +esperada
c)/2, consera
lo cual
el estadstico
del2 contraste
viene
determinado
= )(b += c)/4
la hiptesis nula es var(b) = (b + c)2=(1(-6)17
5,26. 5; es decir, cuando el nmero
6 17del contraste viene determinado por
discordantes (b + c)/2, con lo cual el estadstico
de A
parejas
es superior
o igual acon
20.1 grado de libertad (Tabla 6 del Apndice),
partir discordantes
de la distribucin
chi-cuadrado

116

A partircomprobarse
de la distribucin
con 1est
gradocomprendido
de libertad (Tabla
puede
que chi-cuadrado
este estadstico
entre6 del
los percentiles
2
2
1 Ejemplo
y El1 ;0,99
= 6,63, de
lo cual
se
tiene queen0,01
< P <7.7
0,025.
As,
el riesgo de
;0,975 = 5,02
7.19
estadstico
del
deestadstico
McNemar
la
Tabla
toma
ellos
valor
Apndice),
puede
comprobarse
quetest
este
est entre
comprendido
entre
infarto
agudo
de miocardio
difiere
significativamente
los sujetos
con
niveles
de
32
colesterol HDL superiores e inferiores a 0,90 mmol/l.
percentiles 12;0,975 = 5,02 y 12;0,99 2= 6,63,
(6 de
17lo
) 2 cual se tiene que 0,01 < P <
32
=
= 5,26.
6 17
0,025. As, el riesgo de infarto agudo de miocardio difiere significativamente

Pastor-Barriuso R.

A partir de la distribucin chi-cuadrado con 1 grado de libertad (Tabla 6 del


entre los sujetos con niveles de colesterol HDL superiores e inferiores a 0,90
Apndice), puede comprobarse que este estadstico est comprendido entre los

siguen
argumentos
similares a los descritos en este apartado y pueden consultarse en los
CE: CORRECCIN
POR
CONTINUIDAD

libros de anlisis de datos categricos referenciados en este tema.Apndice: correccin por continuidad
ice se derivan las versiones
con correccin
porun
continuidad
del intervalo
cada paciente
que conforma
grupo de emparejamiento).
Estas generalizaciones

. Si kCONTINUIDAD
es
nmero
y del test de hiptesis
para
una proporcin
poblacional
7.8
APNDICE:
CORRECCIN
POR
siguen
argumentos
similares
a los descritos
en el
este
apartado y pueden consultarse en los
La inferencia sobre proporciones puede extenderse a estudios donde se empareja ms de un
poraleatoria
muestra de
(por
ejemplo,
unintervalo
estudio dedecasos
y controles
donde cada caso est emparejado
eventos en una sujeto
muestra
tamao
el
confianza
libros
deapndice
anlisis se
de
datos n,
categricos
referenciados
enaleste
tema.
En
este
derivan
las
versiones
con
correccin
por
continuidad
del intervalo
con mltiples controles, o un ensayo clnico donde cada paciente que
recibe un nuevo
tratamiento
est
emparejado
con
varios
pacientes
bajo
tratamiento
estndar),
as
como
a
estudios
donde se
para vendr determinado
por aquellos
valores
( inf, para
que proporcin
verifiquen poblacional . Si k es el nmero
sup) una
de
confianza
y
del
test
de
hiptesis
comparan
ms de dosCORRECCIN
muestras dependientes
(por ejemplo, un ensayo clnico donde se asignan
7.8 APNDICE:
POR CONTINUIDAD
aleatoriamente distintos tratamientos a cada paciente que conforma un grupo de emparejamiento).
observado
muestra aleatoria
de atamao
n, el intervalo
confianza
al
P(Xgeneralizaciones
k | de
= eventos
en
/2, unaargumentos
Estas
similares
los descritos
en este de
apartado
y pueden
inf) = siguen
En este apndice
se derivan
las versiones
con correccin
por continuidad
intervalo
consultarse
en los libros
de anlisis
de datos categricos
referenciados
en estedel
tema.

)%
para

vendr
determinado
por
aquellos
valores
(

)
que
verifiquen
100(1
inf
sup
P(X k | = sup) = /2,
de confianza y del test de hiptesis para una proporcin poblacional . Si k es el nmero
7.8 APNDICE: CORRECCIN POR CONTINUIDAD
P(X
k | = en
infel) = /2,
a distribucin binomial
de parmetros
n en
y una
. Como
se discuti
de eventos
aleatoria
de tamao por
n, elcontinuidad
intervalo de del
confianza
al de
En observado
este apndice
se derivan
lasmuestra
versiones
con correccin
intervalo
confianza y del test de hiptesis para
una proporcin
. Si k es el nmero observado
P(X
k | aproximarse
= sup)poblacional
= /2,
2, si n(1 - ) 5,100(1
estas probabilidades
binomiales
pueden

)%
para

vendr
determinado
por
aquellos
valores
(
infconfianza
, sup) quealverifiquen
de eventos en una muestra aleatoria de tamao n, el intervalo de
100(1 )%
para vendr determinado por aquellos valores (inf, sup) que verifiquen
istribucin normaldonde
estandarizada
como
X es unaZdistribucin
binomial de parmetros n y . Como se discuti en el
P(X k | = inf) = /2,
P(X k | = sup) = /2,
Apartado 3.3.2,k si
n/2(1-n) 5,
estas probabilidades binomiales pueden aproximarse

1
inf
= /2,
P(X k | = inf) P Z
distribucin
de parmetros n y . Como se discuti en el Apartado 3.3.2,
donde X es una
binomial
n

(
1

)
inf
inf
la distribucin
mediante
normal
estandarizada
Z como aproximarse mediante la distribucin
si n(1 ) 5, estas probabilidades
binomiales pueden
donde
X
es
una
distribucin
binomial
de
parmetros
n y . Como se discuti en el
normal estandarizada Z como

k 1 / 2 n sup

3.3.2,
n inf pueden aproximarse
P(X k | = Apartado
= )/2.probabilidades
siP(X
sup) P Z
n(1 -k|)=5,estas
Z k 1 / 2binomiales
P
= /2,

inf
n sup (1 sup )

(
1

)
inf
inf

mediante la distribucin normal estandarizada Z como

k 1 / 2 n sup
=aade
sup)aambas
P(X k | se
P Z expresiones
= /2.
rmino 1/2 de la correccin por continuidad

(
1
)
sup
sup

k 1 / 2 n inf

incluir la probabilidad de observar exactamente


k
eventos.
Para
= /2,
P(X k | = inf) P Z
ncontinuidad
infaade
) a ambas expresiones con

k 1 / 2 por
Notar que el trmino 1/2 de la correccin
inf n inf (1 se

= z1-/2,
objeto de incluir
de observar
exactamente
k eventos. Para simplificar los
s clculos, las desviaciones
tpicasladeprobabilidad
estas distribuciones
normales
se
np

p
(
1
)
Notar
que
el
trmino
1/2
de
la
correccin
por
continuidad
se
a ambaspor
expresiones
clculos, las desviaciones tpicas de estas distribuciones normalesaade
se sustituyen
la estimacin

k 1 / 2 n sup

ksup)1/de2P
P(Xseladeduce
k | = que
Z
= /2.
(1 objeto
p) , dedeloincluir
cual
la estimacin np
con
probabilidad
observar
n sup n=exactamente
1/2. sup )k eventos. Para
sup1-(
-z

k np
1 / (21
np) inf = z
1/2,
simplificar los clculos, las desviaciones
np(1 tpicas
p) de estas distribuciones normales se
Notar que el trmino 1/2 de la correccin por continuidad se aade a ambas expresiones
1se/p2obtiene
n lo
Finalmente,
despejando
inf y npksup(
intervalo
de confianza
al 100(1 - )%
supel
sustituyen por
la estimacin
1,
) , de
cual
deduce
que
= zse
1/2.
con objeto de incluir la probabilidadnpde(1observar
exactamente k eventos. Para
p)
para
34
simplificar
los
clculos,
las
desviaciones
tpicas
de
estas
normales
separa
Finalmente, despejando inf y sup, se obtiene el intervalo de distribuciones
confianza al 100(1
)%
al 100(1 - )%
Finalmente, despejando inf y sup, se obtiene
pintervalo
p(1 el
)
1 de confianza
que
sustituyen por la estimacin pnp
(1z1p/)2 , de lo cual se deduce
.
n
2n

34
para
Este intervalo de confianza difiere de la versin sin correccin presentada en el Apartado 7.2 en
que ambos
lmites del
amplan
cantidad
1/(2n) inversamente
al
Este intervalo
deintervalo
confianzasedifiere
deen
la una
versin
sin correccin
presentadaproporcional
en el

p
(
1
p
)
1
tamao muestral. La utilizacin de
esta
se fundamenta
z1correccin
. en el hecho de aproximar una

p
/ 2
n se amplan
2n encontinua.
distribucin
discreta
una
distribucin
normal
Cuanto
menor sea el
Apartado binomial
7.2 en que
ambosmediante
lmites del
intervalo
una cantidad
1/(2n)
tamao muestral, ms imprecisa ser la aproximacin normal y, en consecuencia, la correccin
34por
inversamente proporcional al tamao muestral. La utilizacin de esta correccin se
Este intervalo de confianza difiere de la versin sin correccin presentada en el
Pastor-Barriuso
fundamenta en el hecho de aproximar una distribucin binomial discreta mediante
una R.
Apartado 7.2 en que ambos lmites del intervalo se amplan en una cantidad 1/(2n)
distribucin normal continua. Cuanto menor sea el tamao muestral, ms imprecisa ser
inversamente proporcional al tamao muestral. La utilizacin de esta correccin se

117

la aproximacin normal y, en consecuencia, la correccin por continuidad 1/(2n) ha de


ser mayor. Por el contrario, si el tamao muestral es grande, la distribucin binomial

k n 0 1 / 2
P = 2P(X k | H0) 2 P Z
la correccin
estar muy prxima a la normal, por lo que
n 0 (1 1/(2n)
0 ) ser insignificante.

continuidad
1/(2n)
ha de
mayor. bilateral
Por el contrario,
si el tamao
es grande,
la distribucin
El valor
P para
el ser
contraste
de la hiptesis
nulamuestral
H0: =
0 puede obtenerse a
binomial estar muy prxima a la normal, por lo
que
la
correccin
1/(2n)
ser
insignificante.

n 0 k 1 / 2
,
= 2 P Z
partir
de Plapara
aproximacin
normal
a lade
distribucin
nbinomial
nula
0:0como
) = 0 puede obtenerse a partir
El
valor
el contraste
bilateral
la hiptesis
0 (1 H
de la aproximacin normal a la distribucin binomial como
Inferencia sobre proporciones

118

k n 0 1 / 2
resultados,
al doble de
si p 0. Combinando ambos
P = 2P(X
k | H0)setiene
,
el valor P corresponde
2 P Zque

k nn0 (011/ 02)


= 2P(X k | aHla0) derecha
2 PZdel
test estadstico
la probabilidad normal P
estandarizada

n 0 (1 0 )

si la proporcin observada p > 0, o alternativamente


como
si la proporcin observada p > 0, o alternativamente como

1
Z nk0| 0nk0 11// 22
P = 2P(X

k
|
H
0) 2 P| p
| k n 0 | 1 =
/ 22 P Z n 2(n1 ) ,
0

. 0
z
0 (1 n00()1 0 )
n 0 (1 0 )

nn 0 k 1 / 2
,
= 2 P Z
quenel

valor
P
corresponde
al doble de
si p 0. Combinando ambos resultados, se tiene

(
1

)
0
0

El test con correccin por continuidad incorpora el trmino -1/(2n) en el numerador


normal
estandarizada
a lasederecha
del el
test
estadstico
si plaprobabilidad
0. Combinando
ambos
resultados,
tiene que
valor
P corresponde al doble de la
probabilidad
normal
estandarizada
a
la
derecha
del
test
estadstico
del si
estadstico,
de tal formaambos
que elresultados,
valor P ser
mayorPque
el obtenido
el 35
se ligeramente
tiene que el valor
corresponde
al en
doble
de
p 0. Combinando
1
| p 0(Apartado
|
correspondiente
contraste
sin
correccin
por
continuidad
7.2). Esta
la probabilidad normal estandarizada
la1derecha
del test estadstico
| k n 0 a|
/2
2n .

z
0 ) seael0 (tamao
0 (1reducido
1 0 ) muestral.
correccin ser tanto mayor cuantonms
1
| p n0 |
| k n 0 | 1 / 2
2n .

el trmino
z continuidad
El Ejemplo
test con correccin
por
incorpora
1/(2n)
en EURAMIC
el numerador del
7.20 En el Ejemplo 7.1
los controles
estudio
incorpora
0 ) del
n 0se(1utilizaron
0)
0 (1
El
test
con
correccin
por
continuidad
el
trmino
-1/(2n)
en
el
estadstico, de tal forma que el valor P ser ligeramente mayor que el numerador
obtenido en el
n
correspondiente
contraste
sin correccin
por continuidad
(Apartado
7.2). Estaadultos
correccin ser
de hombres
para realizar
inferencias
sobre la prevalencia
poblacional
delmayor
estadstico,
tal forma
quesea
el valor
P ser
ligeramente mayor que el obtenido en el
tanto
cuantodems
reducido
el tamao
muestral.
El test
con correccin
por continuidad
incorpora
el trmino
-1/(2n) ense
el calculan
numerador
con
niveles
bajos
de colesterol
HDL (
0,90
mmol/l).
A
continuacin
correspondiente
contraste
sin
correccin
por
continuidad
(Apartado
7.2).
Esta
Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC para
inferencias
sobre
la prevalencia
poblacional
de
hombres
adultos
delrealizar
estadstico,
de tal forma
que
elde
valor
P ser
ligeramente
mayor
que el
obtenido
el
los
correspondientes
intervalos
confianza
y sea
test el
detamao
hiptesis
utilizando
la conenniveles
correccin
ser
tanto
mayor
cuanto
ms
reducido
muestral.
bajos de colesterol HDL ( 0,90 mmol/l). A continuacin se calculan los correspondientes
intervalos
ysintest
utilizando
la (Apartado
correccin
por continuidad.
El IC
correspondiente
contraste
correccin
porpara
continuidad
Esta
vendra
dado por7.2).
correccinde
porconfianza
continuidad.
EldeIChiptesis
al 95%
al 95% para vendra dado por
Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC
correccin ser tanto mayor cuanto ms reducido sea el tamao muestral.

0,293(1 0,293)
1
de hombres adultos
para realizar
inferencias
0,293
z 0,975 sobre la prevalencia
poblacional
539
2 539

Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC
con niveles bajos de colesterol HDL ( 0,90 mmol/l). A continuacin se calculan
= 0,293 (1,960,020 + 0,001) = (0,254; 0,333),
para realizar inferencias sobre la prevalencia poblacional de hombres adultos
correspondientes
de confianza
y test
hiptesis nula
utilizando
la0,30 sera
y ellos
estadstico
corregidointervalos
para el contraste
bilateral
de de
la hiptesis
H0: =
niveles bajos
de colesterol
HDL ( bilateral
0,90 mmol/l).
A continuacin
y elcon
estadstico
corregido
para el
de la1 hiptesis
nula H0se
: calculan
=
1 contraste

vendra
dado
por
correccin por continuidad.
El
IC
al
95%
para
| p 0 |
| 0,293 0,30 |
539
2n de confianza y test2 de
correspondientes
intervalos
hiptesis
= 0,30,utilizando la
z=
0,30lossera
0,30(1 0,30)
0 (1 0 )

0,293(1 0,293)
1
0,293
z 0,n975 El IC al 95% para
vendra
dado por
correccin por
continuidad.
539
539
2 539

36
con un valor P asociado en las tablas de la distribucin normal estandarizada P = 2P(Z
con un= valor
asociado=
las tablas
estandarizada
=
en0,293
0Como
,293
(de
1cabra
la0,distribucin
293
)+ 0,001)
1elnormal
0,30)
2{1 P(0,30)}
esperar,
intervalo
confianzaPcorregido
(1,960,020
=(0,254; de
0,333),
0,293 z=0,764.

0 , 975
539
2 539

2P(Z 0,30) = 2{1 - (0,30)}


= 0,764. Como cabra esperar,
el intervalo de
Pastor-Barriuso R.
y el estadstico corregido para el contraste bilateral de la hiptesis nula H0: =
= 0,293 (1,960,020
0,001) = (0,254;
0,333),
confianza corregido por continuidad
(IC al 95%+25,433,3%)
es ligeramente
ms
0,30 sera

p(1 p ) p1 (p1 (1p1 )p ) p 2 (11 1p 2 ) 1 1 1

Test de McNemar
Test
McNemar
Test
de de
McNemar
2

* La correccin por continuidad no se aplica al test 2 de Pearson en tablas de contingencia mayores de 22.

** La
correccin
por
se
test
de
Pearson
tablas
mayores
La correccin
correccin
por
continuidad
no se
se aplica
aplica no
al test
test
22 de
de al
Pearson
en
tablas
de en
contingencia
mayores de
de 22.
22.
Lapor
correccin
por continuidad
continuidad
no
se aplica
aplica
al
test
2en
detablas
Pearson
en
tablas de
de contingencia
contingencia
mayores de
de 22.
22.
** La
continuidad
no
al
Pearson
de
contingencia
mayores

2 de Pearson*
Test
2 de2 Pearson*
Test
deTest
Pearson*

1
1 1
11 1
| p11 p 22|
| p11 p22 |
2 n n22
2 n11 n22 11
zz
z
1
1 1
1
p (1 p ) p (1 p)
n11 n 22 n11 n 22

Eijij

( | b c2 | 1( )| 22b c | 1 ) 2
bc
bc

ii 11
jj 11 ijij

46

22 ( | b c22 | 1()| b c | 1 )
bc

ii 11
jj 11

46

2
2
2 (||
22 22 (2| O 2 E
O1ijij/ 2)E
ijij | 1 / 2)
2
ijij
ijij
2 2
E

p11 ) p11 (p122(1p11 )p22 ) p22 (11 1p22 ) 1 1 1 1


Dos
muestras independientes
independientesp11 p 22 ppz1111
//pp22 22
p11 (zz111
Dos
muestras
independientes

Dos
muestras

Dos
muestras
independientes
n

// 22
n11 n22
2nn22 n11 n22 22 nn11 nn22
n11

Una muestra
muestra
Una
Una
muestra
Una
muestra

1
1
| p 00 | | p 00 |
2
n
2n
zz
z
00 (1 00 ) 00 (1 00 )
nn
n

p(1 p )
1

p(1zz11p// 22) 1

p z11 // 22pp

22nn
2nnn
n

Test estadstico

Test estadstico
Test estadstico

100(1 - )%
)%
IC al 100(1IC- al

IC al 100(1 )%

7.8 Intervalos
de confianza
y tests decon
hiptesis
con correccin
por continuidad.
Tabla 7.8 Tabla
Intervalos
de confianza
(IC) y tests(IC)
de hiptesis
correccin
por continuidad.

Tabla 7.8 Intervalos de confianza (IC) y tests de hiptesis con correccin por continuidad.

Apndice: correccin por continuidad

Pastor-Barriuso R.

119

Inferencia sobre proporciones

por continuidad (IC al 95% 25,4-33,3%) es ligeramente ms amplio que su correspondiente


intervalo sin correccin (25,5-33,2%, Ejemplo 7.1), y el valor P aumenta al aplicar dicha
correccin (P = 0,764 versus 0,726, Ejemplo 7.1). No obstante, los resultados con y sin
correccin son muy similares dado que el tamao muestral utilizado en este ejemplo es
moderadamente grande.
La correccin por continuidad tambin se aplica a la comparacin de proporciones en muestras
independientes o dependientes y al test chi-cuadrado de asociacin en una tabla 22, ya que estos
mtodos de inferencia utilizan una distribucin continua (normal o chi-cuadrado) para representar
una distribucin de frecuencias discreta. Las versiones corregidas de estos procedimientos, cuya
derivacin es similar al caso de una proporcin, se presentan en la Tabla 7.8. En general, la
utilizacin de la correccin por continuidad da lugar a resultados ms conservadores; esto es,
intervalos de confianza ms amplios y mayores valores P de los contrastes. El principal objetivo
de esta correccin es aumentar la cobertura de los intervalos de confianza y reducir la probabilidad
de un error de tipo I en los contrastes, especialmente cuando el tamao muestral es reducido.
7.9REFERENCIAS
1. Agresti A. Categorical Data Analysis, Second Edition. New York: John Wiley & Sons,
2002.
2. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, Fourth
Edition. Oxford: Blackwell Science, 2001.
3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
4. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The Design and
Analysis of Cohort Studies. Lyon: International Agency for Research on Cancer, 1987.
5. Collett D. Modelling Binary Data, Second Edition. London: Chapman & Hall, 2002.
6. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.
7. Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition.
New York: John Wiley & Sons, 2003.
8. Hennekens CH, Buring JE. Epidemiology in Medicine. Boston: Little, Brown and
Company, 1987.
9. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research: Principles and
Quantitative Methods. New York: John Wiley & Sons, 1982.
10. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press,
1999.
11. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.

120

Pastor-Barriuso R.

TEMA 8
MTODOS NO PARAMTRICOS
8.1 INTRODUCCIN
En los temas anteriores se han presentado distintos mtodos de inferencia para datos de carcter
continuo (Tema 6) y categrico (Tema 7). Estos procedimientos se conocen como mtodos
paramtricos y asumen que los datos proceden de una poblacin cuya distribucin de probabilidad
es conocida (normal o binomial), o que al menos la distribucin de los estadsticos empleados
puede aproximarse mediante el teorema central del lmite. As, las inferencias se fundamentaban
en la aproximacin normal a la distribucin de las medias y proporciones muestrales. Aunque en
la mayora de las ocasiones estas asunciones son razonables, pudiera ocurrir que no se cumplan
las condiciones necesarias para la realizacin de anlisis paramtricos, especialmente cuando los
tamaos muestrales son muy reducidos. En tales circunstancias, es posible utilizar mtodos
alternativos que realizan asunciones mnimas acerca de la distribucin de la variable a estudio, y
que reciben colectivamente el nombre de mtodos no paramtricos o de distribucin libre.
Antes de proceder a la descripcin de los mtodos no paramtricos ms utilizados, conviene apuntar
sus principales ventajas e inconvenientes. Entre las ventajas fundamentales cabe destacar que:
yy Los mtodos no paramtricos son muy robustos y, en consecuencia, pueden aplicarse a
situaciones donde la utilizacin de pruebas paramtricas es cuestionable. As, por ejemplo,
la comparacin de medias en dos muestras independientes requiere de tamaos muestrales
suficientemente grandes para aplicar el teorema central del lmite y de una varianza
homognea en ambas poblaciones, mientras que su equivalente no paramtrico permite
contrastar globalmente la igualdad de distribuciones bajo la nica asuncin de que ambas
distribuciones sean continuas.
yy Como se ver ms adelante, la propia naturaleza de las pruebas no paramtricas las hace
particularmente tiles para comparar variables cualitativas ordinales, cuyo tratamiento
mediante mtodos paramtricos clsicos entraa problemas conceptuales ya que estas variables
carecen de interpretacin numrica (ver definicin de tipos de variables en el Tema 1).
Sin embargo, los mtodos no paramtricos presentan una serie de limitaciones que impiden
su uso generalizado:
yy Los mtodos no paramtricos se emplean casi exclusivamente para determinar la
significacin estadstica de la comparacin entre grupos. Aunque existen procedimientos
no paramtricos para obtener estimadores de efecto e intervalos de confianza, stos
requieren de asunciones adicionales y su aplicacin es ms compleja.
yy Si se cumplen las condiciones de aplicacin de las pruebas paramtricas, el uso de mtodos no
paramtricos es un tanto ineficiente, lo que conlleva una leve prdida de potencia en el anlisis.
Estudios de simulacin bajo la asuncin de normalidad han mostrado una perdida de potencia
aproximada del 5% de las pruebas no paramtricas respecto a sus equivalentes paramtricos.
yy Los mtodos paramtricos pueden extenderse fcilmente al anlisis multivariante de
situaciones ms complejas. Aunque en la actualidad los mtodos no paramtricos han
experimentado un fuerte desarrollo, su utilizacin es an limitada por la mayor complejidad
y menor disponibilidad en los programas de anlisis estadstico de uso rutinario.
Pastor-Barriuso R.

121

Mtodos no paramtricos

En general, los mtodos no paramtricos se emplean como complemento o alternativa a las


pruebas paramtricas cuando no se cumplen las condiciones mnimas para la aplicacin de estas
ltimas. En este tema se revisan los mtodos no paramtricos de uso ms frecuente, tales como
el test de la suma de rangos de Wilcoxon, el test de los rangos con signo de Wilcoxon y el test
exacto de Fisher.
la variable (empates), se asigna a cada una de ellas la media de los rangos
correspondientes.
Finalmente,
seRANGOS
suman los DE
rangos
de una cualquiera de las dos
8.2
TEST(empates),
DE LA
SUMA
DE
WILCOXON
la
variable
se asigna
a cada una de
ellas
la media de los rangos
muestras,
seleccionemos
ejemplo la
muestra,de variables continuas en dos muestras
En el Apartado
6.3 se tratpor
el problema
deprimera
la comparacin
correspondientes. Finalmente, se suman los rangos de una cualquiera de las dos
independientes. Si ambos tamaos muestrales n1 y n2 son suficientemente grandes para aplicar
el teorema central del lmite, el test de la t den1 Student permite realizar inferencias acerca de la
muestras, seleccionemos por ejemplo la primera
muestra,
U = rSin
diferencia de medias entre ambas poblaciones.
i . embargo, si la distribucin subyacente dista
1
mucho de ser normal y las muestras son muyi =pequeas,
las medias muestrales no se distribuirn
n1
de forma normal y la anterior prueba paramtrica no ser aplicable. Bajo estas circunstancias,
U = ri .
ha estadstico
de utilizarse
el equivalente
al test de la t de Student para muestras
El
del test
de Wilcoxonnose paramtrico
basa en
i =1 esta suma de rangos.
independientes, que se conoce como el test de la suma de rangos de Wilcoxon. Este procedimiento
permite contrastar globalmente la igualdad de distribuciones bajo la nica asuncin de que la
El
estadstico
del
de una
Wilcoxon
en esta
suma
de nrangos.
variable
a estudio
tenga
distribucin
subyacente
continua.
Ejemplo
8.1test
Supongamos
queselabasa
muestra
consiste
en
1 = 10 casos de infarto de
Si no se asume nada sobre la forma de la distribucin, parece razonable basar el contraste en
miocardio
y n2 = 10secontroles
del estudio
la variable
asigna
a seleccionados
cada
una deconsiste
ellas
media
de
rangos
el orden
de las(empates),
observaciones
deque
ambas
muestras
yaleatoriamente
nolaen
sus
valores.
Ejemplo
8.1
Supongamos
la
muestra
en
n1 =verdaderos
10 los
casos
de
infartoPara
de ello, se
combinan las dos muestras ordenando los valores de menor a mayor. A continuacin, se asigna
EURAMIC.
LaFinalmente,
Tabla
8.1 muestra
los los
niveles
de de
-caroteno
en tejido
correspondientes.
se seleccionados
suman
rangos
una
cualquiera
de adiposo
las dos para
que
ocupa
cada
observacin
dentro
de la
muestra
combinada.
Si existen
el rango
ri o posicin
miocardio
y n2 =
10 controles
aleatoriamente
del estudio
varias observaciones con el mismo valor de la variable (empates), se asigna a cada una de ellas
muestras,
seleccionemos
por ejemplo
la
primera
muestra,
estos
sujetos.
Al
menor
valor delos
ambas
muestras
0,04 g/g
se
le asigna
la media
de20
los
rangos
correspondientes.
Finalmente,
suman
losen
rangos
deadiposo
unael
cualquiera
de
EURAMIC.
La Tabla
8.1 muestra
niveles
dese-caroteno
tejido
para
las dos muestras, seleccionemos por ejemplo la primera muestra,
rango20
1, sujetos.
al siguiente
valor 0,05
se le notorga
el rango
2 y as
1
estos
Al menor
valorg/g
de ambas
muestras
0,04 g/g
se sucesivamente
le asigna el
U = ri.
i =1
hasta asignar
el rangovalor
20 al0,05
mayor
valorle0,57
g/g. rango
A los dos
sujetos
con idntico
rango
1, del
al siguiente
otorga
2 y as
sucesivamente
El estadstico
test de Wilcoxon
se g/g
basa se
en esta
sumaelde
rangos.
El nivel
estadstico
del test
de Wilcoxon
basa en esta suma
de rangos.
0,13
g/g
de
-caroteno
lessecorresponden
las posiciones
7 y 8 y,con
en idntico
hasta
asignar
rango
20 al mayor
valor
0,57 g/g.
A los
Ejemplo
8.1el Supongamos
que la
muestra
consiste
endos
n1 sujetos
= 10 casos
de infarto de
=
10
controles
seleccionados
aleatoriamente
del
estudio
EURAMIC.
La
miocardio
y
n
consecuencia, 2se asigna el rango medio (7 + 8)/2 = 7,5 a ambas observaciones.
nivel
0,13
g/g
de
-caroteno
les
corresponden
las
posiciones
7
y
8
y,
en
Tabla
8.1 muestra
los nivelesque
de la
-caroteno
en tejidoenadiposo
20 sujetos.
Ejemplo
8.1 Supongamos
muestra consiste
n1 = 10para
casosestos
de infarto
de Al
menor
valor
de
ambas
muestras
0,04
g/g
se
le
asigna
el
rango
1,
al
siguiente
valor
0,05
As, la suma de rangos en los casos de infarto es
consecuencia,
se
asigna
el
rango
medio
(7
+
8)/2
=
7,5
a
ambas
observaciones.
g/g
se le otorga
2 y as sucesivamente
hasta asignar eldel
rango
20 al mayor valor
miocardio
y n2el=rango
10 controles
seleccionados aleatoriamente
estudio
0,57 g/g. A los dos sujetos con idntico nivel 0,13 g/g de -caroteno les corresponden
10
As,
la suma de7La
rangos
en8.1
los
casos de infarto
es el -caroteno
las EURAMIC.
posiciones
y 8Tabla
y, en
consecuencia,
asigna
rango medio
+ 8)/2
= 7,5 apara
ambas
muestra
en(7tejido
adiposo
ri = 1 +los
9 se
+niveles
...
+ 19de
= 96,5

observaciones. As, la sumai =1de rangos en los casos de infarto es


10 valor de ambas muestras 0,04 g/g se le asigna el
estos 20 sujetos. Al menor
ri = 1 + 9 + ... + 19 = 96,5

y en los controles
i =1
rango 1, al siguiente valor 0,05 g/g se le otorga el rango 2 y as sucesivamente
y en los controles
10
y enhasta
los controles
asignar el rango 20 al
A los dos sujetos con idntico
= 13 +valor
2 + ...0,57
+ 6 g/g.
= 113,5.
r j mayor
j =1

nivel
0,13
de -caroteno
corresponden
las posiciones
7 y 8 y,
Notar
que
la g/g
eleccin
entre una les
u otra
suma de rangos
es arbitraria.
Laensuma total de
r j = 13 + 2 + ... + 6 = 113,5.

rangos
en
ambas
muestras
es
(n
+
n
)(n
+
n
+
1)/2
=
2021/2
=
210,
de
forma que una
2 suma
1
2de rangos es irrelevante. Latal
Notar que la eleccin entrej =1una1u otra
suma
se asigna
el rango
medio
+ 8)/2 =muestra,
7,5 a ambas
observaciones.
vezconsecuencia,
calculada la suma
de rangos
96,5
en la(7primera
la otra
queda determinada
por
210

96,5
=
113,5.
total de rangos en ambas muestras es (n1 + n2)(n1 + n2 + 1)/2 = 2021/2 = 210, de
Notar
la eleccin
entreen
una
otra suma
de rangos
As,que
la suma
de rangos
losucasos
de infarto
es es irrelevante. La suma
10

122

Pastor-Barriuso
R.
tal forma

que una vez calculada la suma de rangos 96,5 en la primera muestra, la


total de rangos en ambas muestras
es (n1 + n2)(n1 + n2 + 1)/2 = 2021/2 = 210, de
10
r
= 1 + 9 + ... + 19 = 96,5

otra queda determinada por 210


- i96,5 = 113,5.
i
=
1
tal forma que una vez calculada la suma de rangos 96,5 en la primera muestra, la

Test de la suma de rangos de Wilcoxon

Tabla 8.1
-caroteno
en tejidoenadiposo
en 10 casos
infarto
miocardio
y 10 y 10
Tabla
8.1 -caroteno
tejido adiposo
en 10decasos
de de
infarto
de miocardio

Tabla 8.1 -caroteno en tejido adiposo en 10 casos de infarto de


controles
seleccionados
del
EURAMIC.
[Tablaseleccionados
8.1estudio
aproximadamente
aqu] del estudio
controles
seleccionados
aleatoriamente
del estudio
EURAMIC.
miocardio
yaleatoriamente
10 controles
aleatoriamente
EURAMIC.
Caso Caso
ControlControl
El objetivo es contrastar
ambas poblaciones son
Casosi las distribuciones F1 y F2 en Control
(g/g) (g/g)aqu]
RangoRango
(r
(g/g) (g/g)
Rango (r
)
-caroteno
Rango
(rj)
-caroteno
Rango
(r ) -caroteno
[Tabla-caroteno
8.1 aproximadamente
i)
-caroteno (g/g)
(r ) i
-caroteno (g/g)
Rango (rj) j
esta
iguales H0: F1 = F2 frente a la hiptesisi alternativa bilateral H1: F1 F2. Bajo
0,04
1
0,25
13
0,04 0,04
1
0,25
13
1
0,25
13
0,14
9
0,05
2
s contrastar si las distribuciones
F
y
F
en
ambas
poblaciones
son
hiptesis
nula,
la
suma
de
rangos
esperada
en
la
primera
muestra
sera
igual
a
la
suma
1
2
0,14 0,14
9
0,05 0,05
2
9
2
0,20
11
0,36
17
aqu]
0,20 0,20
11[Tabla118.1 aproximadamente
0,36 0,36
17
17
0,08
323. Bajo en
0,09 0,09
44
total dealternativa
rangos 0,08
porbilateral
la proporcin
deFsujetos
muestra,
= F2 frente a la hiptesis
H1:3F1
estadicha0,09
0,08
4
0,21
12
0,33 0,33
1616
aqu]
0,21 0,21
12[Tabla
0,33
128.1 aproximadamente
16
El objetivo
es
contrastar
si las distribuciones
F1 y0,37
F2 en ambas poblaciones
son
0,10 muestra
5igual
a suma de rangos esperada
en la primera
0,10
0,10
5 a la suma
18
n1 + n 2 + 1) 1818
(n1 + 5nsera
n1 0,37n1 (0,37
2 )( n1 + n 2 + 1)
.
E(U)
=
= 0,13
0,28
14
0,13
7,5
0,28 0,28
14
0,13
7,5
14
7,5
n1F+1 nybilateral
2
2: F1poblaciones
2F en ambas
El objetivo
es
contrastar
si
las
distribuciones
son
:
F
=
F
frente
a
la
hiptesis
alternativa
H

F
.
Bajo
esta
iguales
H
2
0
1
2
1
2
por la proporcin de
sujetos
en
dicha
muestra,
0,29 0,29
15
0,17
15
10
0,29
15
0,17 0,17
1010
[Tabla7,5
8.1 aproximadamente
aqu]
0,13 0,13
7,5
0,57
7,5
20
0,13
0,57 0,57
2020
:
F
=
F
frente
a
la
hiptesis
alternativa
bilateral
H
:
F

F
.
Bajo
esta
iguales
H
hiptesis
nula,
la
suma
de
rangos
esperada
en
la
primera
muestra
sera
igual
a
la
0
1
2
1
1
2
0,12
la primera
19
0,12 muestra,6 6el valorsuma
6
0,48 la
0,12
n1 +tanto,
n 2 0,48
+ 1si
n1suma
n 2 rangos
(n1 + n 2 )(Por
) u denota
(n1 +19de
) observada en
+ 119
n0,48
1
E(U) =
.
=10
10
10
n1 es
+la
ncontrastar
2 Elde
2 la proporcin
objetivo
si102las por
distribuciones
Fprimera
F2 en
ambas
poblaciones
son
1 y muestra,
total
rangos
por
de
sujetos
enladicha
hiptesis
nula,
suma
de
rangos
esperada
en
muestra
sera
igual
suma
exacto
de
P vendra
determinado
la
probabilidad
bajo
H
de
obtener
de
0
r
=
96,5
r
=
113,5
r
=
96,5
r j asuma
=la113,5
i
j
i

una
i =1

i =1

j =1

j =1

iguales
H0: Fo1ms
=
F2distante
frente
a la muestra,
hiptesis
bilateralu;Hes
: F1 F2. Bajo esta
total de
rangos
por
la
proporcin
de que
sujetos
en dicha
rangos
tanto
elvalor
valor
observado
enota la suma de rangos
observada
en
la
primera
elalternativa
+ nE(U)
n1 (n1 1+ ndecir,
(n1 de
n1 muestra,
2 )( n1 + n 2 + 1)
2 + 1)
E(U) =
.
=
n
+
n
2
2
1
2
hiptesis
nula,
suma
rangos
esperada
en laFde
primera
muestra
igual a lason
suma
El
objetivo
es la
contrastar
distribuciones
y F en
ambassera
poblaciones
iguales
delas
obtener
dra determinado por
la probabilidad
bajo de
H(n0si
+una
n 2 +suma
1) u |n1H1 0), 2 n1 (n1 + n 2 + 1)
1 + n 2 )( n
1=
P
2P(U
E(U)
=
.
=
H0: F1 = F2 frente a la hiptesis alternativa bilateral H1: F1 F2. Bajo esta hiptesis nula, la suma
1 + n 2muestra, 2
total
deelesperada
rangos
por
proporcin
de2 sujetos
en ndicha
de rangos
en la primera
sera
igual
a la
total de
rangos el
porvalor
la proporcin
Por
tanto,
si u denota
la suma
de
rangos
observada
ensuma
la primera
muestra,
ms distante de E(U)
que
valor
observado
u; esmuestra
decir,
de si
sujetos
en dicha
muestra,
u > E(U),
o alternativamente
una
suma de
exacto
de
P
vendra
por
H0 1de
Por tanto, si u denotadeterminado
la suma
observada
la nprimera
el valor
(n1 + nde2 )(rangos
n1 +lanprobabilidad
nmuestra,
+ obtener
n1 enbajo
1 (n
2 + 1)
2 + 1)
P = 2P(U u | HE(U)
0), =
.
=
2 = 2P(U nu1 | +Hn0),2
2
P
rangos
tanto
o ms distante
de E(U)
el valor observado
esobtener
decir, una suma de
exacto de
P vendra
determinado
porque
la probabilidad
bajo Hu;
0 de
ternativamente Por tanto, si u denota la suma de rangos observada en la primera muestra, el valor exacto de P
Por
tanto,
si Esta
uo denota
lalasuma
rangos
observada
en la primera
muestra,
el la
valor
vendra
determinado
por
probabilidad
bajo
H de
obtener
suma
debajo
rangos
tanto o ms
si
u
E(U).
probabilidad
puede
calcularse
teniendo
enuna
cuenta
que
hiptesis
rangos
tanto
ms
distante
dede
E(U)
que
el valor
observado
u;
es
decir,
P = 2P(U 0 u | H0),
distante de E(U) que el valor observado u; es decir,
P = 2P(U
u | H0), determinado por la probabilidad bajo H de obtener una suma de
exacto
P vendra
nula
dede
igualdad
de distribuciones, cualquier combinacin de0 rangos en la primera
P = 2P(U u | H0),
si u > E(U), o alternativamente
rangos
tanto
oteniendo
ms distante
de E(U)
ellavalor
observado
u; es decir, de los n1 + n2
eso igualmente
probable.
As,
como
elhiptesis
nmero
de combinaciones
si umuestra
> calcularse
E(U),
alternativamente
a probabilidad puede
en
cuenta
queque
bajo
si u > E(U), o alternativamente
P = 2P(U u | H0),
n1 +n 2u| H0),
de distribuciones, cualquier combinacin de rangos Pen=la2P(U
primera
, la probabilidad
tomados depuede
n1 en calcularse
n1 es
si uposibles
E(U). rangos
Esta probabilidad
en cuenta quebajo
bajoHla0 para
hiptesis nula de
nteniendo
P = 2P(U
1 u| H0),

si
u

E(U).
Esta
probabilidad
puede
calcularse
teniendo
en
cuenta
que
bajo
laeshiptesis
igualdad
de
distribuciones,
cualquier
combinacin
de
rangos
en
la
primera
muestra
igualmente
mente probable. As, como el nmero de combinaciones de los n1 + n2
si u > E(U),
o alternativamente
probable.
As, como
el nmero de combinaciones de los n1 + n2 posibles rangos tomados de n1
cualquier
combinacin
r1, ..., rpuede
dada por
n1 viene
si u de
E(U).
Esta
probabilidad
calcularse
teniendo endecuenta
que
la hiptesis
nula
igualdad
de
distribuciones,
cualquier
combinacin
rangos
enbajo
la primera
n1 + n 2

tomados de n1 en
n
es
,
la
probabilidad
bajo
H
para
en n11
bajo H00 para cualquier combinacin r1, ..., rn viene dada por
P = 2P(U u | H0),
n1

muestra
es
igualmente
probable.
As,
como1elcombinacin
nmero de combinaciones
los n1 + n2
nula de igualdad de distribuciones,
cualquier
de rangos en ladeprimera
.
n1 + n 2
nacin r1, ..., rn1 viene
si
u dada
E(U).
Esta probabilidad
puede
cuenta que bajo
la hiptesis
n1 +elnnmero
muestra
espor
igualmente
probable.
As, calcularse
como
de en
combinaciones
de los
n1 + n2

2teniendo
posibles rangos tomados de n1 en n1 es n1 , la probabilidad bajo H0 para
n1 combinacin

nula
de
igualdad
de
distribuciones,
cualquier
de rangos en la primera
n2
nel
1 +siguiente
1
El clculo
del
valor
exacto
de
P
se
ilustra
en
ejemplo.
, la probabilidad
posibles rangos. tomados de n1 en n1 es
bajo H0 para
n
El
clculo
del
de
P
se
ilustra
en
el
siguiente
ejemplo.
1por
n1 +combinacin
n 2 valor exacto

cualquier
r
,
...,
r
viene
dada
n
1
1
muestra
probable.
As, como el nmero de combinaciones de los n1 + n2
es igualmente

n
1

27
27
cualquier combinacin r1, ..., rn1 viene dada
n2
n1 1+por
., la probabilidad bajo H0 para
posibles rangos tomados de n1 en n1 es
Pastor-Barriuso
n1 +n1n 2
5 R. 123
alor exacto de P se ilustra en el siguiente ejemplo.
1
n1 .
n1 + por
n2
cualquier combinacin r1, ..., rn1 viene dada

Ejemplo 8.2 Si la distribucin del -caroteno fuera igual en los casos de infarto y
10(10 + 10 + 1)
E(U) =
= 105.
2suma de rangos esperada en los 10 casos
en
los
controles
libres
de
enfermedad,
la
Como el valor observado de esta suma de rangos u = 96,5 es inferior al esperado,
Mtodos no paramtricos
Ejemplo 8.2 Si la distribucin del -caroteno fuera igual en los casos de infarto y
de
infarto
del
ejemplo
anterior
sera
igual
a
u = 96,5 es inferior al esperado,
Como
el Pvalor
observado
de esta
suma
de rangos
se obtiene
mediante
el valor
en los controles libres de enfermedad, la suma de rangos esperada en los 10 casos
Ejemplo
Si la distribucin
fuera igual en los casos de infarto y en los
se obtiene
mediante del10b-caroteno
el
valor P8.2
(10 de
+ 10
+961) esperada en los 10 casos de infarto del
controles
de enfermedad,
la
suma
rangos
de infartolibres
del ejemplo
anterior
sera
igual
a
= | H0) = 2 P=(U105.
P = 2PE(U)
(U 96,5
= k | H0).
2 k =55
ejemplo anterior sera igual a
96

P = 2P(U 96,5

10| (H
100)+=102 +
1)P(U = k | H 0 ) .
E(U)
=
k
=
55
u==105.
96,5
Como
el valor
observado
sumamnimo
de rangos
Notar que
la suma
arrancadeenesta
el valor
posible
1 + 2es+inferior
... + 10al= esperado,
55 y slo
2

Como
elPvalor
observado
de
sumamnimo
de rangos
u = 96,5
es
el valor
se suma
obtiene
mediante
el
valor
Notar
que
la
arranca
enesta
el valor
posible
1 + facilitar
2 +inferior
... + los
10alclculos).
=esperado,
55 y sloLa
toma
valores
enteros
(se excluyen
posibles empates
para
Como
el valor
observado de esta suma de rangos u = 96,5 es inferior al esperado,
P
se obtiene
mediante
96
toma
valores enteros
excluyen
posibles
empates
facilitar
clculos).
La
para
cualquier
combinacin
depara
rangos
en lalos
primera
muestra
probabilidad
bajo H0(se
el valor P se obtiene
P mediante
= 2P(U 96,5 | H0) = 2 P(U = k | H 0 ) .
k = 55

probabilidad
bajo H0 para cualquier combinacin de rangos en la primera muestra
es
Notar que la suma arranca en el valor mnimo96posible 1 + 2 + ... + 10 = 55 y slo toma
P = 2P(en
Uposibles
el96,5
H
P(facilitar
U =1 k+| 2Hlos
. + 10 = 55
0) = 2
Notar que
la suma
valor| empates
mnimo
posible
+0 )...
slo
valores
enteros
(se arranca
excluyen
para
clculos).
Layprobabilidad
es
10! (20 10)!k =55 1
1
bajo H0 para cualquier combinacin
, muestra es
= de rangos en
= la primera
20! empates
184para
.756 facilitar los clculos). La
20
toma valores enteros (se excluyen
1 10posibles
! (20 10)!
1
Notar que la suma arranca 10
en el= valor mnimo =posible 1 +, 2 + ... + 10 = 55 y slo
20
20!
184

combinacin
de.756
rangos en la primera muestra
probabilidad bajo H0 para cualquier

toma valores enteros (se excluyen


posibles
empates
para
facilitar los clculos). La
10

de
lo
cual
se
sigue
que
es
de
lo cual se sigue
probabilidad
bajo Hque
0 para cualquier combinacin de rangos en la primera muestra
de lo cual se sigue que
P(U = 55 | H0) = P(1,
3,! 4,
(205,6,107,
)! 8, 9, 10
1 2,10
1 | H0) = 1/184.756,
es
,
=
=
P(U = 56 | H0) =P(1,
5,!6, 7, 8, 184
9, 11
| H0) = 1/184.756,
20 2, 3, 4,20
.756
P(U = 55 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 10 | H0) = 1/184.756,
3, 4, 5, 6, 7, 8, 9, 12 | H )
10
P(U = 57 | H0) =P(1,
0
! (20 10)!
1 2,10
1
,
=
=
2, 3, 4, 5,
| H ) = 1/184.756,
P(U = 56 | H0) =+P(1,
5,!6,
6,7,
7,8,
8,9,
10,11.11
20 2, 3, 4,20
184
756| 0H0) = 2/184.756
P(1,

de lo cual se sigue que 10
)
=
2, 3,
4, 5, 6,el7,procedimiento
8, 9, 12 | H0) resulta muy laborioso incluso
P(U
=
57
|
H
0
y as sucesivamente. ComoP(1,
puede
intuirse,
para estas pequeas muestras de tamao 10, ya que requiere determinar el nmero de
P(U = con
55 | igual
H0) =
P(1, 2,
4, 5, 6, 7, 8, 9,
H
2/184.756
+suma
10,10
11|mltiples
|H
0)0)==1/184.756,
combinaciones
de3,rangos.
de
clculos,
se tiene que
de
lo sucesivamente.
cual se sigue
queComo
y as
puede
intuirse,Despus
el procedimiento
resulta
muy laborioso
96

5, 6,
8,29,+ 11
P(U
| HP0()U= =P(1,
0) = 1/184.756,
P = 256
| H2,0 3,
)intuirse,
=4,2(1
+ el
17,+
...ya
+| H
4.397)/184.756
yincluso
as sucesivamente.
Como kpuede
procedimiento
resulta
muydeterminar
laborioso
para
muestras
tamao
10,10
que
se
requiere
P(Uestas
= 55k =pequeas
|55H0) = P(1,
2, 3, 4, de
5, 6,
7, 8, 9,
|H
0) = 1/184.756,
4, 5, 6, 7, 8, 9, 12 | H0)
P(U =
= 97.708/184.756
57 | H0) = P(1, 2,= 3,
0,529.
incluso
paradeestas
pequeas muestras
de tamao
10, ya que
se requiere
determinar
el nmero
igual
de mltiples
2, 3,
4, 5,suma
6, 7,de
8, rangos.
9, 11 | HDespus
P(U =combinaciones
56 | H0) = P(1,con
0) = 1/184.756,
Aunque los casos de infarto
muestran
inferiores
que los controles
= 2/184.756
+ P(1,
2, 3, 4, niveles
5, 6, 7, 8,
10, 11 | de
H0)b-caroteno
el
nmerose
detiene
combinaciones
con igual suma de rangos. Despus
de mltiples
clculos,
que
(la suma P(U
de rangos
observada
en3,los
casos
4, 5,
6, 7,es8,menor
9, 12 | que
H0) la esperada), no se alcanzan
= 57 | H
0) = P(1, 2,
Aunque
los casos
de infarto muestran
niveles inferiores
de -caroteno
los
diferencias
estadsticamente
significativas.
No obstante,
dado el que
reducido
tamao
y as sucesivamente.
clculos,
se tiene que Como puede intuirse, el procedimiento resulta muy laborioso6
muestral, cabe esperar que
la potencia
sea
muy
pequea para detectar
2/184.756
+ P(1,
2, 3, 4, 5,de6,este
7, 8,contraste
10, 11 | H
0) =
controles
sumadiferencia
de rangos en
observada
en los
casos es menor
que la esperada),
cualquier (la
posible
los niveles
subyacentes
de b-caroteno
entre los no
casos
de
6
incluso para estas pequeas muestras de tamao 10, ya que se requiere determinar
infarto y los sujetos libres de la enfermedad.
y as
sucesivamente.
Como
puede intuirse,
el procedimiento
resulta muy
se
alcanzan
diferencias
estadsticamente
significativas.
No obstante,
dadolaborioso
el
el nmero de combinaciones con igual suma de rangos. Despus de mltiples
Para
simplificar
los clculos
decabe
esteesperar
test, la
Tabla
del
losdeterminar
percentiles
incluso
para
estas
pequeas
muestras
deque
tamao
10,Apndice
ya que
sefacilita
requiere
reducido
tamao
muestral,
la8potencia
de este
contraste
sea muy de la
distribucin
de
la
suma
de
rangos
de
Wilcoxon
bajo
la
hiptesis
nula
de
igualdad
de
distribuciones,
clculos, se tiene que
cuando
menor
las doscualquier
muestras
es desuma
tamao
inferior
o igualsubyacentes
a mltiples
8. Para un
el la
nmero
dede
combinaciones
conposible
igual
de rangos.
de
pequea
para
detectar
diferencia
en losDespus
niveles
de nivel de
6 de
significacin bilateral, la hiptesis nula se rechazar si la suma de rangos en la muestra
menorclculos,
tamao es
inferior
al
percentil
/2 oysuperior
al percentil
/2 de dicha tabla.
seentre
tienelos
que
-caroteno
casos
de infarto
los sujetos
libres de1la enfermedad.
6

Para simplificar los clculos de este test, la Tabla 8 del Apndice facilita los
124

Pastor-Barriusode
R. la distribucin de la suma de rangos de Wilcoxon bajo la hiptesis nula
percentiles

de igualdad de distribuciones, cuando la menor de las dos muestras es de tamao

Ejemplo 8.3 En un estudio hipottico a partir de dos muestras independientes de

Test de la suma de rangos de Wilcoxon

tamaos n1 = 5 y n2 = 10, la suma de rangos en la muestra ms pequea es 23.


Ejemplo
8.3 En unbajo
estudio
partir es
de simtrica
dos muestras
independientes
de
la suma dea rangos
alrededor
de E(U)
Como la distribucin
H0 dehipottico
tamaos
= que
5 y nambos
=
10,
la
suma
de
rangos
en
la
muestra
ms
pequea
es
23.
Como
la
En
el cason1de
tamaos
muestrales
sean
superiores
a
8,
puede
emplearse
el
2
distribucin
H0=de5(5
la +
suma
rangos
esse
simtrica
alrededor de E(U) = n1(n1 + n2 + 1)/2
+ 1)/2
10 +de1)/2
= 40,
tiene que
= n1(n1 + n2 bajo
el +
caso
que
8, puede
emplearse
=En5(5
10 de
+ 1)/2
=ambos
40, setamaos
tiene
quemuestrales
siguiente
mtodo
aproximado.
Como
el contrastesean
parasuperiores
la igualdada de
distribuciones
se el
En el caso
de que ambos
muestrales
sean
emplearse el
P =tamaos
2P(U
23
H0) = 2P(U
57igualdad
| H ). a 8,
siguiente
Como
el |contraste
parasuperiores
la
depuede
distribuciones
basa
en el mtodo
rango o aproximado.
posicin de las
observaciones,
resulta
lcito0 sustituir
los valores se
En
el caso de
que
ambos
muestrales
emplearse
Utilizando
la Tabla
8 del tamaos
Apndice
n1 = 5sean
ypara
n2 superiores
=la10,
puedea 8,
comprobarse
que el
valor
siguiente
aproximado.
Como
elcon
contraste
igualdad
depuede
distribuciones
seel
basa
en elmtodo
rango
o
posicin
de
las
observaciones,
resulta
lcito
sustituir
los
valores
Utilizando
la
Tabla
8
del
Apndice
con
n
=
5
y
n
=
10,
puede
comprobarse
que
observados
x
por
sus
correspondientes
rangos
r
en
el
estadstico
de
la
t
de
Student
para
1
2
i u0,975
u = 57 esti comprendido entre los percentiles
56 y u0,99 = 58, de lo cual se deduce
siguiente
mtodo
aproximado.
Como
el
contraste
para
la
igualdad
distribuciones
la en
desigualdad
< P(U
57observaciones,
| H0) < 0,025, que
corresponde
ade0,02
< Pvalores
< 0,05.se
basa
el rango
o0,01
posicin
delas
resulta
lcito sustituir
observados
rangos
ri en
el estadstico
tlos
de
Student
i por
u0,975 obtenindose
= 56dey la
u0,99
= 58,
de lo para
el valor
ux=
57 sus
estcorrespondientes
comprendido
entre
los(Apartado
percentiles
muestras
independientes
con igual varianza
6.3.1),
basa
en el rango
posicin
de las observaciones,
resulta
lcito sustituir
correspondientes
rangos
ri en
el estadstico
de la tlos
de valores
Student para
observados
xi poro sus
muestras
independientes
con
igual
varianza
(Apartado
6.3.1),
obtenindose
En
el
caso
de
que
ambos
tamaos
muestrales
sean
superiores
a
8,
puede
emplearse
elasiguiente

57
|
H
)
<
0,025,
que
corresponde
cual se deduce la desigualdad 0,01 < P(U
0
r1 igualdad
r2
mtodo
aproximado.
Como
el
contraste
para
la
de
distribuciones
se
basa
en
rango o
z = rangos
observados
xi por sus correspondientes
ri en el, estadstico
de la t de Studentelpara
muestras independientes
con igual varianza
(Apartado
6.3.1), obtenindose
1
1
posicin
observaciones, resulta lcito
los valores observados xi por sus
0,02de
< Plas< 0,05.
s r r1 sustituir
+r2
z
=
,
correspondientes
rangos ri encon
el estadstico
de lan(Apartado
t denStudent
paraobtenindose
muestras independientes con
muestras independientes
igual varianza
6.3.1),
11 r 12
7
r
igual varianza (Apartado 6.3.1), obtenindose
1
2
s
+
z = r n1 n 2 ,
donde la diferencia de rangos medios ess r r1 1 r+2 1
z=
n1 n 2 ,
1
1
donde la diferencia de rangos medios ess r
+
n1
n2
n1 n 2
1
1
r
r
r
r

i
j
1
2

donde la diferencia de rangos


n1 i =medios
n 2esjn=21
n11
1
donde la diferencia de rangos medios
es 1
ri es r j
rrangos
2 =

donde la diferenciar1 de
medios
n
1
n11 in=11
n12 nj (=2 1n1 + n 2 )(n1 + n 2 + 1) n1
1
1
r
=

ri
r1 r2 = n
rii n r j

2
1
2
=
1
i

n
1
n11 in=11
n12 nj =2(1n1 + n 2 )(n1 + n 2 + 1) i =n11
1
1
r
=

ri

r1 r2 =
rii n1
rj
+21 n+2 n+21+
) 1) in=11
nn1111 ii=n=111 1 nn122 j =(1n1 +n1n(2n)(
1 n
== + ri ri
ri

n 2 ni2=n11
2
nn111
1 in=11 1 1 (n1 +nn1 (2n)(1 n2+1 n+2n+2 1+)1) in=11
ri
== n+rin ri

2
111i =1 12 n2in=11
n
2
i =1

n1 (n1 + n 2 + 1)

y, si no hay empates, la varianza


ri en la muestra combinada es
= + de los
rangos
n
n
2
n1 (n1 + n 2 + 1)
11 12 in=11
y, si no hay empates, la =
varianza
ri en la muestra combinada es
rangos
+ delos
n1 + n2
2
21
2 n1 de nlos
i =1

y, si no hay empates, la varianza


rangos
en la muestra
combinada
es
s
=
(ri en
rla) 2muestra combinada es
r

y, si no hay empates, la varianza


de
los
rangos
n1 + n 2 1 ni1=+1n2
1
2
2
s
=
(ren
r )muestra
r
i la

y, si no hay empates, la varianza


de
los
rangos
es
2
n
+
n
1
2
n1 + 1n 2 1 n1i+=n12 n1 + n 2 + 1combinada

s r2 == n + n 1
(rii r ) 2 2

1
2
i
1
=
n
+
n
1
2
n1 + 1n 2 1 n1i+=n12 n1 + n 2 + 1 2
1

(r i r ) 2
s r2 == (n + n )(n
n111++ nn222111n1ii=++=1n12n2i + 1) 2
2
n
1
=
n1. + n 2 + 1
=

12 i
2
n(n1 1++nn2 2)(1nn11i+=+n12 n2 + 1) 2
1
n1 .+ n 2 + 1
=
=

12 i
n(n1 1++nn2 2se
)(1ntiene
2 + 1) 2

1i =+
1 n
Sustituyendo en la expresin=anterior,
.
Sustituyendo en la expresin anterior, se tiene
12
(n1 + n 2 )(sen1tiene
+ n 2 + 1)
Sustituyendo en la expresin= anterior,
.
n1
n1 (n12
1 + n 2 + 1)
ri se tiene
Sustituyendo en la expresin
anterior,
U E (U )
2
i =n11
n1 (n1 + n 2 + 1) =
,
z=
SE (U )
nri1 n2 (n1se+tiene
n 2 + 1)
Sustituyendo en la expresin
anterior,
U E (U )
2
n1 (12
n1 + n 2 + 1) =
,
z = in=11
rni 1n 2 (n1 + n 2 + 1)
SE (U )

U E (U )
2
n1 (n12
,
z = in=11
1 + n 2 + 1) =
rni 1n 2 (n1 + n 2 + 1)

SE (U )
U E (U )
2
,
z = i =1
=
12
Pastor-Barriuso R.
SE (U )
n1 n 2 (n1 + n 2 + 1)
8
12
8

125

Las medidas
Las medidas
de tendencia
de tendencia
central
central
informan
informan
acercaacerca
de cul
de es
cul
el valor
es el valor
ms representati
ms represe
Mtodos no paramtricos

de una
dedeterminada
una determinada
variable
variable
o, dicho
o, dicho
de forma
de forma
equivalente,
equivalente,
estos estos
estimadores
estimadores
indican
ind

alrededor
alrededor
de qu
devalor
qu valor
se agrupan
se agrupan
los datos
los datos
observados.
observados.
Las medidas
Las medidas
de tendencia
de tendenc
que corresponde simplemente a la suma de rangos estandarizada; es decir, la diferencia entre la
central
central
de la de
muestra
sirvensirven
tanto tanto
para
resumir
para resumir
lossuresultados
los resultados
observados
observados
comocomo
para p
suma de rangos observada
y esperada
enlalamuestra
primera
muestra
dividida
por
error
estndar
bajo
la hiptesis nula de igualdad de distribuciones. Bajo H0, este estadstico seguir aproximadamente
realizar
inferencias
inferencias
acerca
de
losdeparmetros
los en
parmetros
poblacionales
poblacionales
correspondientes.
correspondientes.
A A
una distribucin normalrealizar
estandarizada
si n1,acerca
n2 > 8.
Notar
que,
general,
este
tamao
muestral
es muy inferior al que se requerira para aplicar la prueba paramtrica de la t de Student en dos
continuacin
continuacin
se describen
se describen
los principales
los principales
estimadores
estimadores
de la de
tendencia
la tendencia
central
central
de una
de
muestras independientes.

variable.
variable.
Ejemplo 8.4 A partir
del estudio EURAMIC, se seleccionan 1000 muestras aleatorias
simples de n1 = 10 casos de infarto de miocardio y n2 = 10 controles. En cada una de estas
muestras, se calcula1.2.1
la diferencia
de niveles
medios de b-caroteno entre casos y controles, as
1.2.1
Media
Media
aritmtica
aritmtica
como la suma de rangos para los casos de infarto. Las Figuras 8.1(a) y (b) presentan las
La media
Lade
media
aritmtica,
aritmtica,
denotada
por xpor
se xdefine
sede
define
como
como
la suma
suma
de cada
de
cadade
uno
losde los
la suma
delarangos
U,uno
distribuciones muestrales
la diferencia
dedenotada
medias
1,
2, y
respectivamente. Como la distribucin poblacional del b-caroteno es marcadamente asimtrica
(ver Figura 4.3) yvalores
las muestras
son muy
pequeas,
lanmero
diferencia
dedemedias
muestrales
se Si denotamos
valores
muestrales
muestrales
dividida
dividida
por elpor
el nmero
de observaciones
observaciones
realizadas.
realizadas.
Si denota
distribuye de forma asimtrica alrededor de la diferencia subyacente 1 2 = 0,09 mg/g, de
npor
el tamao
el tamao
muestral
muestral
y poryxipor
elnecesaria
valor
xi el valor
observado
observado
paraelel
para
sujeto
el la
sujeto
i-simo,
i = 1,i...,
= 1,
n
tal forma que no sepor
cumple
lan condicin
de
normalidad
para
aplicar
test
de
t de i-simo,
Student. Por el contrario, la suma de rangos s se distribuye de forma aproximadamente normal
media
la media
vendra
vendra
dada
dada
por E(U)
por = 96,9. As, aun cuando se disponga de
en torno a su valorlaesperado
en esta
poblacin
muestras tan reducidas, se podra aplicar la aproximacin normal al test de la suma de rangos
de Wilcoxon.
x 2++x...
1 n 1 n x1 + xx21 ++ ...
n + xn
.
.
= xi
= xi =
x = x
n i =1 n i =1
n
n
Frecuencia relativa (%)

30

30

La media
La media
es la medida
es la medida
de tendencia
de tendencia
central
central
ms utilizada
ms utilizada
y de ms
y defcil
ms fcil

25

25
1.2 MEDIDAS
1.2 MEDIDAS
DE TENDENCIA
DE TENDENCIA
CENTRAL
CENTRAL
interpretacin.
interpretacin.
Corresponde
Corresponde
al centro
al centro
de gravedad
de gravedad
de losdedatos
los datos
de la de
muestra.
la muestra.
Su S
20
Las medidas
Las medidas
de tendencia
de tendencia
centralcentral
informan
informan
acercaacerca
de cul
dees
cul
el valor
es el valor
ms repres
ms
15
principal
principal
limitacin
limitacin
es quees
est
quemuy
est influenciada
muyvariable
influenciada
por
los
porvalores
losequivalente,
valores
extremos
extremos
y,
enestimado
y,
este
enin
de unadedeterminada
una determinada
variable
o, dicho
o, dicho
de forma
de forma
equivalente,
estos estos
estimadores
10
de qu
valor
qu
setendencia
agrupan
secentral
agrupan
los central
datos
los
observados.
observados.
Las medidas
Las medidas
de tenden
de te
caso, caso,
puedepuede
no sernounser
fielunalrededor
reflejo
fielalrededor
reflejo
de
ladede
tendencia
lavalor
dedatos
la de
distribucin.
la distribucin.
5

centralcentral
de la muestra
de la muestra
sirvensirven
tanto tanto
para resumir
para resumir
los resultados
los resultados
observados
observados
como c
0

20
15
10

-0,9

-0,6

Ejemplo
Ejemplo
1.4 En
1.4este
Enrealizar
yeste
enrealizar
los
y ensucesivos
los sucesivos
ejemplos
ejemplos
sobre
estimadores
estimadores
muestrales,
muestr
inferencias
inferencias
acercaacerca
de losde
parmetros
los sobre
parmetros
poblacionales
poblacionales
correspondientes.
correspondien
A

-0,3

0,3

0,6

50
70
90
110 130 150
continuacin
continuacin
se describen
se describen
los principales
los principales
estimadores
estimadores
de la tendencia
de la tendencia
centralcent
de

utilizarn
los valores
los valores
del colesterol
del colesterol
HDL HDL
obtenidos
en losen10los
primeros
10 primeros
sujetos
suje
d
xutilizarn
U obtenidos
1 x2
variable.
variable.

estudio
European
European
StudyStudy
on Antioxidants,
on Antioxidants,
Myocardial
Infarction
Infarction
and Cancer
and Canc
of
(a) estudio
(b) Myocardial
1.2.1 1.2.1
MediaMedia
aritmtica
aritmtica

the Breast
the Breast
(EURAMIC),
(EURAMIC),
un estudio
un estudio
multicntrico
multicntrico
de casos
de casos
y controles
y controles
realizad
rea

, se xdefine
, se define
como como
la suma
la suma
de cada
de uno
cadadeuno
lo
La media
La medios
media
aritmtica,
aritmtica,
denotada
por xpor
Figura 8.1 Distribucin muestral de la diferencia de niveles
de denotada
-caroteno
1
2 entre casos y
controles (a) y de la suma de rangos U en los casos de infarto (b) en 1000 muestras aleatorias Figura
simples
8.1 de
valores
valores
muestrales
muestrales
dividida
dividida
por el
nmero
elenmero
de observaciones
de
observaciones
realizadas.
Si deno
Sid
entre
1991 1991
y 1992
y 1992
en
ocho
en
ocho
pases
pases
Europeos
Europeos
e por
Israel
Israel
para
evaluar
para
evaluar
elrealizadas.
efecto
el efecto
de
los
n1 = 10 casos de infarto de miocardio
y nentre
2 = 10 controles obtenidos a partir del estudio EURAMIC. Las lneas
verticales en trazo discontinuo corresponden a los parmetros subyacentes 1 2 = 0,09 g/g y E(U) = 96,9.

por n por
el tamao
n el tamao
muestral
muestral
y por yxi por
xi el valor
el valor
observado
observado
para elpara
sujeto
el sujeto
i-simo,
i-simo
i=1

la media
la media
vendra
vendra
dada por
dada por

1 n 1 n x1 + xx21 ++...x 2+ +x n... + x n


.
.
= xi =
x = x= x i
n i =1 n i =1
n
n

La media
La media
es la medida
es la medida
de tendencia
de tendencia
centralcentral
ms utilizada
ms utilizada
y de ms
y defcil
ms fci

interpretacin.
interpretacin.
Corresponde
Corresponde
al centro
al centro
de gravedad
de gravedad
de losde
datos
los datos
de la muestra.
de la mu
126

Pastor-Barriuso R.

principal
principal
limitacin
limitacin
es queesest
quemuy
estinfluenciada
muy influenciada
por los
por
valores
los valores
extremos
extremos
y, en

caso, caso,
puedepuede
no serno
unser
fielunreflejo
fiel reflejo
de la tendencia
de la tendencia
centralcentral
de la distribucin.
de la distribucin

Si se producen empates en la asignacin


de rangos en la muestra combinada, la
T
t i (t i + 1)(t i 1)

Test de combinada,
la
de rangos
de Wilcoxon
varianza
de
la
suma
de
rangos
es
menor
que la obtenida en ausencia
desuma
empates
y el
i
1
=
Si se producen empates
la
,
f = en la asignacin de rangos en la muestra
(n1 + n 2 )(n1 + n 2 + 1)(n1 + n 2 1)
estadstico
del
test
de
la
suma
rangos
Wilcoxonenresulta
varianza de la suma de rangos de
es los
menor
que de
la obtenida
ausencia de empates y el
Sit se
producendeempates
enpara
la asignacin
de rangos
la muestra
combinada,
varianza de
empates
el valor
i-simo
de
laen
variable.
Notar
que, si nolahay
conestadstico
i el nmero
del test
de la suma
de
losn1 rangos
de
Wilcoxon
resulta
la suma de rangos
es menor
que la
obtenida
en
ausencia
de
empates
y
el
estadstico
del test de
n1 (n1 + n 2 + 1)
r

la suma de
de Wilcoxon
resulta al citado anteriormente.
2
empates,
f =los
0 yrangos
este estadstico
se reduce
Finalmente, como la
,
z = in=11
n
n
+
n
+
(
1
)
n1 nr2i (n1 +1 n 21 + 1)(2 1 f )
suma de rangos es un variable discreta
que se aproxima
mediante una distribucin
12 2
,
z = i =1
n1 n 2 (n1 + n 2 + 1)(1 f )
normal continua, es frecuente aplicar la correccin por continuidad a estos estadsticos.
12
donde

La
versin con correccin por continuidad del test de la suma de rangos de Wilcoxon
donde
donde
T
(con o sin empates) se presenta en la Tabla
t8.2.
i (t i + 1)(t i 1)

i =1
,
f =
T
(n1 + n 2 )(nt1i (+t i n+2 1+)(1t)(
n
+
n

1
)
1
2
i 1)

[Tabla 8.2 aproximadamente


aqu]
i =1
,
= el valor i-simo de la variable. Notar
con ti el nmero de empates fpara
que, si no hay empates,
(
n
1 + n 2 )( n1 + n 2 + 1)( n1 + n 2 1)
f =con
0 y teste
estadstico
se reducepara
al citado
anteriormente.
como
la si
suma
de rangos
de empates
el valor
i-simo de la Finalmente,
variable. Notar
que,
no hay
i el nmero
es una variable discreta que se aproxima mediante una distribucin normal continua, es frecuente
aplicar
por
a estos
estadsticos.
versin
con
empates,
f = 8.5
0 y Como
este
estadstico
al
citado
Finalmente,
Ejemplo
lacontinuidad
muestra
dereduce
casos
y controles
laLa
Tabla
8.1
es
n1 =sicorreccin
nno
=hay
10 la por
tilael correccin
nmero
de empates
paraseel
valor
i-simo
deanteriormente.
lade
variable.
Notar
que,
con
2como
continuidad del test de la suma de rangos de Wilcoxon (con o sin empates) se presenta en la
Tabla
suma
rangos
unestadstico
variable
discreta
que
aproxima
mediante
una
>8.2.
8,depuede
la aproximacin
normal
a laanteriormente.
suma
de rangos
Udistribucin
= 96,5 en
los la
empates,
f = 0 aplicarse
y es
este
se reduce
alsecitado
Finalmente,
como
normal
frecuente
aplicar
lacasos
correccin
por continuidad
a8.1
estos
casos
de infarto.
Bajo
hiptesis
de
misma
distribucin
del
-caroteno
Ejemplo
8.5eses
Como
lalamuestra
denula
controles
de
la Tabla
es
nestadsticos.
suma
decontinua,
rangos
un
variable
discreta
que
seyuna
aproxima
mediante
una
distribucin
1 = n2 = 10 > 8,
puede aplicarse la aproximacin normal a la suma de rangos U = 96,5 en los casos de
La en
versin
con
correccin
continuidad
lacontinuidad
suma
rangos
de estadsticos.
Wilcoxon
infarto.
Bajo
la
dela+una
misma
distribucin
en casos y
normal
continua,
es hiptesis
frecuente
aplicar
correccin
por
ab-caroteno
estos
casos
y controles,
el por
valor
esperado
de
de
rangos
sera
10nula
10
(10
10
+del
1esta
)(test
1 suma
0de
,00075
) dedel
var(U)
=
=
174,87,
controles, el valor esperado de esta suma
12de rangos sera
(con
o sin empates)
se presenta
en la Tabladel
8.2.test de la suma de rangos de Wilcoxon
La
versin
con correccin
por continuidad
10(10 + 10 + 1)
E(U) =
= 105
2
(condonde
o sin empates) se presenta
en
la
Tabla
8.2.
10 10(10 + 10 + 1)(1 0,00075)
= 174,87,
y su varianza var(U) = [Tabla 8.2 aproximadamente aqu]
12
y su varianza
(2 ++ 110
)(2+1)(
1)1 0,00075)
102(10
f = = 10
= 0,00075
[Tabla 8.2 aproximadamente aqu]
var(U)
(10 + 10)(10 + 10 +12
1)(10 + 10 1) = 174,87,
10
donde
Ejemplo 8.5 Como la muestra de casos y controles de la Tabla 8.1 es n1 = n2 = 10
donde
es el
factor
deaplicarse
correccin
de
la 2varianza
debido
aa la
de t1 =U2 = 96,5 en los
donde
(2de+ casos
1)(2normal
y1)controles
> 8,
puede
lamuestra
aproximacin
la presencia
suma
deTabla
rangos
Ejemplo
8.5 Como
la
de
la
f=
= 0,00075 8.1 es n1 = n2 = 10
(10 + 10)(10 + 10 + 1)(10 + 10 1)
g/g.misma
Por tanto, el estadstico
la
observaciones
empatadas
para
casos
de infarto.
Bajolalaaproximacin
hiptesis
de
-caroteno
2el(2valor
+ 1nula
)(20,13
de
1)una
>
8, puede
aplicarse
normal
a la sumadistribucin
de rangos Udel
= 96,5
en los
f
=
=
0,00075
es el factor de correccin de la varianza debido a la presencia de t1 = 2 observaciones
(10 + 10)(con
10 +correccin
10 + 1)(10 por
+ 10continuidad
1)
suma
de rangos
de
es
empatadas
para
el Wilcoxon
valorel0,13
mg/g.
Pordebido
tanto,
elsuma
estadstico
de tsera
de rangos de
2 -caroteno
es casos
el factor
de
correccin
de
la
varianza
a
la
presencia
de
1la=suma
en
casos
y
controles,
valor
esperado
de
esta
dedistribucin
rangos
de infarto. Bajo la hiptesis nula una misma
del
Wilcoxon con correccin por continuidad es
tanto, elde
estadstico
de la
observaciones
empatadas
para
el
valor
0,13
t1 = 2
es
el
correccin
la| varianza
debido
laPor
presencia
96
,5 10
105
| +1esta
/g/g.
2a+suma
enfactor
casos de
y controles,
elde
esperado
(10de
10
1)0,60,de rangos sera
zvalor
=E(U
=
) = 174,87
= 105
2por
suma de rangosempatadas
de Wilcoxon
correccin
g/g.continuidad
Por tanto, elesestadstico de la
observaciones
paracon
el valor
0,13
10(10 + 10 + 1)
que corresponde a un valor PE(=U2P(Z
F(0,60)} = 0,549 a partir de la
) = 0,60) = 2{1=105
2por
suma
rangos
de
Wilcoxon
continuidad
esEste
distribucin
normal
estandarizada
de
la
Tabla
3
del
Apndice.
valor
aproximado
de
=| 96
2Pcorreccin
(
Z

0,60)
=
2{1

(0,60)}
= 0,549
a partir
de
quey corresponde
a un
valor P con
sudevarianza
,5 105 | 1 / 2
z
=
=
0,60,
P es muy similar al valor exacto calculado en el Ejemplo 8.2, no habiendo as suficiente
10
174
,87
evidencia
para rechazar
la hiptesis
igualdad
distribuciones
del nivel
la distribucin
normal estandarizada
la| Tabla
3 del
Apndice. Este
valorde b-caroteno
y su varianza
| 96,5 de
de
105
1 / 2de
z=
0,60,de la enfermedad.
en los casos de infarto de miocardio
y los sujetos =libres
174
,
87
10
similar
exacto
calculado
en el=Ejemplo
aproximado
de P aesunmuy
P = 2al
P(valor
Z 0,60)
= 2{1
- (0,60)}
0,549 a 8.2,
partirnode
que corresponde
valor

habiendo
as suficiente
evidencia
la3 hiptesis
de igualdad
la distribucin
normal
estandarizada
la Tabla
del
Este valor
P = 2Ppara
(Z de
rechazar
0,60)
= 2{1
- Apndice.
(0,60)}
= 0,549
ade
partir de
que
corresponde
a un valor
Pastor-Barriuso R.

-caroteno
casos
de infarto
miocardio
y los
distribuciones
nivel
desimilar
P es
muy
al valor
exacto
calculado
en de
el Ejemplo
8.2,
no
aproximado
dedel
la
distribucin
normal
estandarizada
deenlalos
Tabla
3 del
Apndice.
Este valor

sujetos
libres
dePlaesenfermedad.
habiendo
asde
suficiente
rechazar
hiptesisendeeligualdad
muyevidencia
similar alpara
valor
exacto la
calculado
Ejemplode
8.2, no
aproximado

127

128

Pastor-Barriuso R.

TestTest
deTest
los
con
signo
de
rangos
signo
derangos
loslos
rangos
concon
signo

Test
rangos
signo
Test
de de
los
rangos
concon
signo
Test
de los
los
rangos
con
signo

Test
la suma
rangos
Test
de de
la suma
de de
rangos

TestTest
deTest
ladesuma
rangos
de
la
la
de de
rangos
Test
desuma
ladesuma
suma
de rangos
rangos

1 2

n nn2n(11nn212(+
(nn1n+2++nn21)++11))
n nn2 1(n21 (+n11n+2 +n221)+ 1)
12 12
12
12 12

m
m

mm
n(nnn+((n1n)++11))1 11
m
(nn+(n1)+1) 1 1
r
i rriin

=i=11ri 4 4
ir
=1
i
4 2 22
i
z =zz ==
4 4 2 2
i =1 i =1
z =z = n(nnn+((n1n)(
++211)(
n)(2+2n1n)++11))
+ 21)(
n(nn+(n1)(
n 2+n1)+ 1)
24 24
24
24 24

z =z =

+ n +1) 1
rrrn(nn ((+nnn+
+n 1)+ 1) 1 1

r r 2 22
2 22

z =zz =
2 2
2 2
=

n1 nn11
n1 n1
ii
i
i =1 ii=i=11 i
i =1 i =1
1
1

n1 (n11(+n1n1 +2 +n212)+ 1) 1 1

empates
SinSin
empates
Sin
empates
empates
SinSin
empates
1 2

iii

ii

ii

T
T

TT

T
++t11i)()(tti1i )11))
t
i (tttiii(+
(tti1i )(

t i1)(
+ t1i)(t i1) 1)
t
ii=i=11(ttii (+
=1
i
concon
f =ff =
con
=1 i =1
i=
2 22
concon
f =f =
2 2

m
m

mm
n(nn+(n1)+ 11))1 11
mr n( n +
r
i
riin(nn+(n1)+ 1) 1 1

iri=i=11ri 4 4
=1
4 2 22
z =zz ==i
4 4 2 2
i =1 i =1
z =z =n(nnn+((nn1)(
++211)(
n)(2+2nn1)++11))f ff
+ 21)(
n(nn+(n1)(
n 2+n1)+1)f f
24 24
24
24 24

28 28
28
28 28

i
ii i
i
concon
f =ff ==
con
nnn)()(+nn11n++
++n11)(
nn11n++
+n221)(
n21)11))
concon
f =f(n=1((+nn n++)(
2 n
1)(+
2 n
n n+ )(
n n)(+
n1n+2 n+21)(
+ n1)(
n1n+2 n221) 1)
(n1(+
1 +

++t11)()(tt1)11))
t
(ttt (+(tt1)(

+ t1)(t 1) 1)
t (tt (+t 1)(

T
T

TT
T
i
i =1 ii=i=11
i =1 i =1
11 2 221
1 2 21

++111)(
z =z =n nnn(nn (+
)(11f) ff ))
(nn1n+2++nn21)(
+11)(
n nn(n (+n11n+2 +n221)(
1f) f )
12 12
12
12 12

n (n11(+n1n1 +2 +n212)+ 1) 1 1

n1 nn11
1
n1 n1
ii 1
i
i =1 ii=i=11 i
i =1 i =1
1 2 11 212
1 2 1 21

+ n +1) 1
rrrn(nn ((+nnn+
+n 1)+ 1) 1 1

r r 2 22
2 22

z =zz =
2 2
2 2
=

Con empates
Con
empates
Con
empates
Con
empates
Con
empates
Con
empates

Tabla
Estadsticos
para
el test
la suma
rangos
y de
rangos
signo
Wilcoxon
correccin
continuidad.
Tabla
8.28.2
Estadsticos
para
el test
de de
la suma
de de
rangos
y de
loslos
rangos
concon
signo
de de
Wilcoxon
concon
correccin
porpor
continuidad.

Tabla
8.2
Estadsticos
para
test
la de
suma
deyrangos
y rangos
de
los
rangos
signo con
decon
Wilcoxon
con
correccin
Tabla
Estadsticos
para
el
de
la
de
yy de
signo
de
correccin
por
continuidad.
Tabla
8.28.2
Estadsticos
para
el test
de
la
suma
rangos
de
los
rangos
concon
signo
decon
Wilcoxon
correccin
por
continuidad.
Tabla
8.2
Estadsticos
para
eleltest
test
dede
la suma
suma
de rangos
rangos
de los
los
rangos
con
signo
de Wilcoxon
Wilcoxon
con
correccin
por
continuidad.por continuidad.

Mtodos no paramtricos

Test de los rangos con signo de Wilcoxon

El test de la suma de rangos de Wilcoxon es tambin conocido como el test de MannWhitney. Aunque este ltimo se deriva siguiendo un procedimiento distinto, ambas pruebas de
hiptesis son completamente equivalentes, obtenindose el mismo valor P con cualquiera de
ellas. La comparacin no paramtrica de distribuciones continuas en ms de dos muestras
independientes se conoce como el test de Kruskal-Wallis. Este procedimiento es una
generalizacin del test de la suma de rangos de Wilcoxon y puede consultarse en los textos
sobre mtodos no paramtricos referenciados en este tema.
8.3 TEST DE LOS RANGOS CON SIGNO DE WILCOXON
En este apartado se describe el procedimiento de contraste no paramtrico equivalente al test de
la t de Student para muestras dependientes. Como se discuti en el Apartado 6.4, la prueba t
para datos emparejados permite comparar dos medias poblacionales a partir de las diferencias
observadas en cada pareja de datos dependientes. Esta prueba paramtrica requiere que el
nmero de parejas sea suficientemente grande para asegurar que la media de las diferencias se
distribuya de forma normal. En aquellas circunstancias donde se produzcan violaciones claras
de este supuesto de normalidad (particularmente cuando el nmero de parejas sea muy reducido),
resulta ms apropiado utilizar el test no paramtrico de los rangos con signo de Wilcoxon. Bajo
la asuncin de que la variable a estudio sea continua, este procedimiento permite contrastar si
las diferencias se distribuyen simtricamente alrededor de 0. La hiptesis nula establece, por
tanto, que las diferencias de cualquier magnitud a favor de los sujetos de una poblacin son
igualmente probables que a favor de los sujetos de la otra poblacin.
Con objeto de preservar el emparejamiento, se calculan las diferencias di en cada pareja de
datos dependientes. La asignacin de rangos a estas diferencias se realiza mediante el siguiente
procedimiento. En primer lugar, se excluyen las parejas donde di = 0 y se asignan rangos ri a las
restantes n diferencias no nulas, comenzando en 1 para la diferencia con menor valor absoluto
hasta n para aquella con mayor valor absoluto. Si existen diferencias con el mismo valor
absoluto (empates), se asigna a cada una de ellas la media de los rangos correspondientes.
Finalmente, a cada rango se le otorga el signo correspondiente a su diferencia. Estos rangos
con signo constituyen as una representacin estandarizada de las diferencias, que preserva
tanto el orden de magnitud como el signo de las mismas. El test de los rangos con signo de
Wilcoxon se basa en la suma de los rangos positivos (o, equivalentemente, de los rangos
negativos)
W=

r,
i

i =1

donde m denota el nmero de rangos positivos.


donde m denota el nmero de rangos positivos.
Ejemplo 8.6 A partir del estudio EURAMIC, se seleccionan aleatoriamente 20 casos
de infarto de miocardio y 20 controles emparejados por grupos quinquenales de edad.
A partir delpara
estudio
EURAMIC,
aleatoriamente
20 en la
LosEjemplo
niveles 8.6
de b-caroteno
estas
20 parejas se
deseleccionan
casos y controles
se presentan
Tabla 8.3. Una vez excluida la pareja con di = 0, el nmero efectivo de parejas es n = 19.
casosde
deestas
infarto
de miocardio
y 20 controles
por grupos
A partir
parejas
con diferencias
no nulas, emparejados
se asignan rangos
del 1 al 19 comenzando
en la menor diferencia absoluta 0,01 mg/g hasta la mayor diferencia absoluta 1,00 mg/g. A las
de edad. Los
niveles
-caroteno
para estas
20 parejas
dosquinquenales
parejas con diferencia
absoluta
0,27demg/g
se les otorga
el rango
medio (9de+casos
10)/2 y= 9,5,
y a otras dos parejas con diferencia absoluta 0,38 mg/g se les asigna su rango medio
presentan
en la Tabla
8.3. un
Una
vez positivo
excluidaalalos
pareja
concorrespondientes
di = 0, el
(12controles
+ 13)/2 =se12,5.
Finalmente,
se otorga
signo
rangos
nmero efectivo de parejas es n = 19. A partir de estas parejas con diferencias no
nulas, se asignan rangos del 1 al 19 comenzando en la menor diferencia Pastor-Barriuso
absoluta R.
0,01 g/g hasta la mayor diferencia absoluta 1,00 g/g. A las dos parejas con

129

otras dos parejas con diferencia absoluta 0,38 g/g se les asigna su rango medio
(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos

(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos

correspondientes
Mtodos no
paramtricos

a diferencias positivas y un signo negativo a los rangos

correspondientes
diferenciasnegativas.
positivas La
y un
signo
a los rangos
correspondientes aa diferencias
suma
de negativo
rangos positivos
resulta
correspondientes
a diferencias
negativas.
La asuma
de rangos
positivos resulta
a diferencias positivas
y un
signo
negativo
los rangos
correspondientes
a diferencias
9
negativas. La suma de rangos
positivos
resulta
ri = 17 + 12,5 + ... + 3 = 91
i =91

= 17 + 12,5 + ... + 3 = 91

i =1

y la suma de rangos negativos

y la suma de rangos negativos


y la suma de rangos negativos
10

= ( 4) + ( 14) + ... + ( 9,5) = 99.

j =1

10

r j = de
(-4)los
+ (-14)
... + (-9,5)es= n(n
-99.+ 1)/2 = 1920/2 = 190. As,

En este ejemplo la suma


total
rangos+ absolutos
j
=
1
En vez
este determinada
ejemplo la suma
total de
rangos
absolutos91,
es la
n(nsuma
+ 1)/2
1920/2negativos
=
una
la suma
delos
rangos
positivos
de=rangos
viene
dada por 91 190 = 99.
190. As, una vez determinada la suma de rangos positivos 91, la suma de rangos
En este ejemplo la suma total de los rangos absolutos es n(n + 1)/2 = 1920/2 =
negativos
dada por 91
-tejido
190 = -99.
Tabla
8.3viene
-caroteno
adiposo
eny20
casos y controles
del estudio
Tabla
8.3As,
-caroteno
tejidoen
adiposo
en
20decasos
controles
190.
una vezen
determinada
la suma
rangos
positivos del
91,estudio
la sumaEURAMIC
de rangos
EURAMIC
segn grupos
quinquenales de edad.
emparejados
segnemparejados
grupos quinquenales
de edad.
negativos viene dada por 91
- 190 = (g/g)
-99.
-caroteno
-caroteno (g/g)
Pareja

Pareja
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Caso

Control

Caso0,47
0,470,75
0,750,78
0,780,66
0,660,09
0,090,20
0,200,08
0,08
0,08
0,08
0,310,31
0,300,30
0,160,16
0,130,13
0,060,06
0,250,25
0,390,39
0,950,95
0,330,33
0,530,53
0,160,16
0,230,23

0,55
Control
0,09
0,55
0,40
0,09
0,40
0,13
0,13
0,49
0,49
0,31
0,31
0,28
0,28
0,46
0,46
0,16
0,16
0,87
0,87
1,16
1,16
0,13
0,13
0,37
0,37
0,04
0,04
0,37
0,37
0,14
0,14
0,06
0,06
0,50
0,50
0,17
0,17
0,50
0,50

Diferencia
(di)

Diferencia
absoluta

Diferencia Diferencia
0,08
0,08
(di)
absoluta
0,66
0,66
-0,08
0,08
0,38
0,38
0,66
0,66
0,38
0,38
0,53
0,53
0,53
0,53
0,40
0,40
-0,40
0,40
0,11
0,11
-0,11
0,11
0,20
0,20
-0,20
0,20
0,38
0,38
-0,38
0,38
0,15
0,15
0,15
0,15
0,57
0,57
-0,57
0,57
1,00
1,00
-1,00
1,00
00
00
0,31
0,31
-0,31
0,31
0,21
0,21
0,21
0,21
0,02
0,02
0,02
0,02
0,81
0,81
0,81
0,81
0,27
0,27
0,27
0,27
0,03
0,03
0,03
0,03
-0,01
0,01
0,01
0,01
-0,27
0,27
0,27
0,27

Rango
absoluto

Rango
4
absoluto
17 4
12,5
17
1512,5
1415
514
75
7
12,5
12,5
6
6
16
16
1919

1111
88
22
1818
9,59,5
3 3
11
9,5
9,5

Rango con
13
signo (ri)

Rango con
4 (ri)
signo
17-4 13
12,5
17
1512,5
1415
-14
5
7-5
-7
12,5
-12,5
6
6
16
-16
19
-19

11
-11
88
22
1818
9,59,5
33
1-1
-9,5
9,5

99

de rangos
positivos rrii ==9191
SumaSuma
de rangos
positivos
ii ==11

10
10

99
de rangos
negativos rrjj= =
SumaSuma
de rangos
negativos
-99
=1
jj =
1

130

Pastor-Barriuso R.

de 0, se esperara la misma suma


de rangos
positivos que negativos
[Tabla
8.3
aqu] y, por consiguiente,
2 aproximadamente
2
4
la suma esperada de rangos positivos sera
de rangos absolutos
1) n(de
n +la1suma
) Testtotal
1 n(nla+ mitad
losapartado
rangos con signo
de Wilcoxon
E(W)
donde
indica
el nmero
deque
diferencias
no nulas.
igual ,que
endeel
anterior,
Bajon la
hiptesis
nula de
las =diferencias
se= Al
distribuyen
simtricamente
alrededor
2
2
4
1 n(n + 1) n(n + 1)
el
de la
P misma
para el suma
contraste
bilateral
vendr
dadonegativos
bajo H0
E(W)de=rangos
= que
,por la probabilidad
devalor
0, se exacto
esperara
positivos
y, por consiguiente,
2
2
4
donde
n
indica
el
nmero
de
diferencias
no
nulas.
Al
igual
que
en
el
apartado
anterior,
Bajo la hiptesis nula de que las diferencias se distribuyen simtricamente alrededor de 0, se
de
obtener
una suma
de
positivos
tanto
o msdedistante
detotal
E(W)
susuma
valor
la suma
de rangos
positivos
sera
la negativos
mitad
la
deque
rangos
absolutos
esperara
laesperada
misma
suma
de rangos
rangos
que
y, suma
por consiguiente,
la
esperada
el
valor
exacto
de
P
para
el
contraste
bilateral
vendr
dado
por
la
probabilidad
bajo
H0
de rangos
la mitad
de la sumanototal
de Al
rangos
donde npositivos
indica elsera
nmero
de diferencias
nulas.
igualabsolutos
que en el apartado anterior,
observado w; esto es, si w > E(W),
1 n(n + 1) n(n + 1)
devalor
obtener
una de
suma
de rangos
positivos
tanto vendr
o=ms distante
que su valor
E(W)
= bilateral
el
exacto
P para
el contraste
dado, pordelaE(W)
probabilidad
bajo H0
2
2
4
P = 2P(W w | H0)
observado
es,de
siderangos
w diferencias
> E(W),
de
obtener
una
suma
positivos
tanto oAlms
distante
que anterior,
su valor el valor
donde
n indicaw;
elesto
nmero
no nulas.
igual
que endeelE(W)
apartado
donde
n
indica
el
nmero
de
diferencias
no
nulas.
Al
igual
que
en
el
apartado
obtener una
exacto de P para el contraste bilateral vendr dado por la probabilidad bajo H0 deanterior,
y,
sidew rangos
E(W),
observado
w; esto
es, si w
> E(W),
suma
positivos
tanto
o ms
distante
de
E(W)
que
su
valor
observado
w; esto es,
P = 2P(W w | H0)
el
valor
exacto
de
P
para
el
contraste
bilateral
vendr
dado
por
la
probabilidad
bajo
H0
preestablecido,
la hiptesis nula se rechazar si la suma de rangos positivos es inferior
si w
> E(W),

PP == 2P(W
H00).)
2P(W ww || H
y, percentil
si
w E(W),
de
obtener
una
de rangos
positivos
al
/2 suma
o superior
al percentil
1 - tanto
/2. o ms distante de E(W) que su valor
y, si w E(W),
Bajo
dicha
hiptesis
observado
w;
esto es,nula,
si w cualquier
> E(W), combinacin de un nmero arbitrario de rangos
y, si w
E(W),
P = 2P(W w | H0).
Ejemplo 8.7 Como ilustracin, supongamos que la suma de rangos positivos es w
es igualmente
y su probabilidad
determinada
porpositivos
positivos
r1, ..., rm nula,
Bajo
dicha hiptesis
cualquierprobable
combinacin
de un nmeroviene
arbitrario
de rangos
)
P=
2P(W w | de
H00).
Bajo
dicha
hiptesis
nula,
cualquier
combinacin
un
nmero
arbitrario
de
rangos
r1, ..., rm =
es25
igualmente
y su probabilidad
viene determinada
por
a partir deprobable
n = 12 parejas
de datos dependientes
con diferencias
no nulas. La
1
, ..., rm bajo
es nula,
igualmente
probable
y nsu, probabilidad
viene
determinada
por
positivos
r1hiptesis
y,
si wdicha
E(W),
Bajo
cualquier
combinacin
de un nmero
arbitrario
de rangos
distribucin
H0 de
la suma
de rangos
positivos
es simtrica
alrededor
de
2
preestablecido, la hiptesis nula se rechazar si la suma de rangos positivos es inferior

donde
2nE(W)
es el
deigualmente
subconjuntos
de=cualquier
que
pueden
obtenersepor
a partir de
...,
y1su
viene
determinada
positivos
r1,=nmero
n(nrm+es1)/4
= 12(12 +probable
1)/4
39,
deprobabilidad
lo tamao
cual se deduce
que
P
=
2P(W

w
|
H
).
n
0
/2
superiordealsubconjuntos
percentil
- de
/2.cualquier
, de tamao
lasaldonde
npercentil
parejas
con
no
nulas. 1Haciendo
uso
este resultado,
la Tabla
9 del Apndice
el odiferencias
nmero
que pueden
obtenerse
a
2 es
n
2
facilita los percentiles de la distribucin de la suma de rangos positivos bajo la hiptesis nula de
w0,05 = n(n + 1)/21 - w0,95 = 78 60 = 18,
quepartir
las diferencias
se distribuyen
simtricamente
alrededor
0, cuando
nmero
deladiferencias
de lashiptesis
n parejas
con diferencias
no nulas.
uso
de arbitrario
esteelresultado,
Tabla
, Haciendo
Bajo
dicha
nula,
cualquier
combinacin
de unde
nmero
de rangos
n
n
Ejemplo
8.7
Como
ilustracin,
supongamos
que
la
suma
de
rangos
positivos
es
w
2
no nulas
16.
Para unde
nivel
de significacin
preestablecido,
la pueden
hiptesis
nula se rechazar
el nmero
subconjuntos
de cualquier
tamao que
obtenerse
a
dondees2 nes
donde
w
=
60
se
obtiene
de
la
Tabla
9
del
Apndice
para
n
=
12.
Como
la
suma
9positivos
del
Apndice
facilita
los
percentiles
de
la
distribucin
de
la
suma
de
rangos
positivos
si la
suma
derrangos
positivos
es
inferior
al
percentil
/2
o
superior
al
percentil
1

/2.
0,95
,
...,
r
es
igualmente
probable
y
su
probabilidad
viene
determinada
por
= 25n a1partir mde n = 12 parejas de datos dependientes con diferencias no nulas. La
partir de
n parejas
diferencias nodenulas.
Haciendo
usoque
de pueden
este resultado,
la Tabla
es el
nmerocon
de subconjuntos
cualquier
tamao
obtenerse
a
donde
2 las
bajoEjemplo
laobservada
hiptesis
nula
de
que
las
diferencias
se
distribuyen
simtricamente
alrededor
w
=
25
>
w
=
18,
se
sigue
que
P(W

25
|
H
)
>
0,05.
As,
el
0,05
0
8.7 bajo
Como
ilustracin,
que la
de rangos
positivos
es de
w = 25
distribucin
H0 de
la suma desupongamos
rangos1 positivos
es suma
simtrica
alrededor
de
9 del
Apndice
losdiferencias
percentiles
de nulas.
la distribucin
de
la
suma
de
rangos
positivos
,
partir
de lasdennparejas
con
no
Haciendo
uso
de
este
resultado,
la
Tabla
a partir
=facilita
12 parejas
de datos dependientes
con
diferencias
no
nulas.
La
distribucin
n
20,10.
16.
Para
unque
niveldedeE(W)
significacin
=
0, cuando
nmero
diferencias
no
nulas
es
ncual
contraste
arroja
valor
P >de
labilateral
rangos
positivos
es
alrededor
= n(n + 1)/4
bajo
H0el
E(W)
=de
n(n
+suma
1)/4de=de
12(12
+un1)/4
= 39,
lo simtrica
se deduce
laApndice
hiptesis
delos
que
las se
diferencias
se distribuyen
alrededor
de
9bajo
del
percentiles
de laque
distribucin
desimtricamente
la suma de rangos
positivos
12(12
+ 1)/4 facilita
=nula
39, de
lo
cual
deduce
n
donde 2 es el nmero de subconjuntos de cualquier tamao que pueden obtenerse a
w0,05 = el
n(n
+ 1)/2 dewdiferencias
18, sea superior a 16,
0,95 = 78 60
Enlaaquellas
muestras
donde
nmero
no=simtricamente
nulas
un nivel de significacin

0, cuando
el nmero
no nulasse
es
n 16. Para
bajo
hiptesis
nulade
dediferencias
que las diferencias
distribuyen
alrededor de
partir
de las
con diferencias
no9nulas.
Haciendo
uso
este
resultado,
Tabla
donde
w0,95n =parejas
60 se obtiene
de la Tabla
del Apndice
para
n =de12.
Como
la sumalaobservada
puede
siguiente
aproximacin
Dado
queAs,
los
rangos
conlasigno
=la=60
se
obtiene
deque
la no
Tabla
9normal.
del
Apndice
para
n nivel
=el
12.
Como
suma

16.
Para
un
de
significacin
0, cuando
nmero
de
diferencias
nulas
es
n
w donde
=utilizarse
25 el
>w0,95
w
18,
se
sigue
P(W

25
|
H
)
>
0,05.
contraste
bilateral
arroja
0,05
0
14
9 del
un Apndice
valor P > facilita
0,10. los percentiles de la distribucin de la suma de rangos positivos
observada
= 25 > w0,05 = 18,
se sigue quede
P(W
25 | H0) > 0,05.
As, el en cada
constituyen
unawrepresentacin
estandarizada
lasdiferencias
observadas
bajo la hiptesis nula de que las diferencias se distribuyen simtricamente alrededor de14
contraste
bilateral
arroja
P
> 0,10.
pareja
de datos
dependientes,
construirse
un estadstico
sustituyendo
las a 16, puede
En aquellas
muestras
dondeunpodra
elvalor
nmero
de diferencias
no nulas
sea superior
utilizarse
la siguiente
Dado
rangos
con de
signo
constituyen
16.los
Para
un nivel
significacin
una
0, cuando
el nmeroaproximacin
de diferenciasnormal.
no nulas
es n que
14
loslas
rangos
con signo
ri en el en
testcada
de la
t de Student
diferencias no
nulas di porde
representacin
estandarizada
diferencias
observadas
pareja
de datospara
dependientes,
En aquellas muestras donde el nmero de diferencias no nulas sea superior a 16,
podra construirse un estadstico sustituyendo las diferencias no nulas di por los rangos con
muestras
(Apartado
6.4).
As, eldependientes
estadstico resulta
signo
r en eldependientes
test de la t de Student
para
muestras
(Apartado 6.4). As, el estadstico
puedei utilizarse la siguiente aproximacin normal. Dado que los rangos con signo
resulta
constituyen una representacin estandarizada de rlas diferencias observadas en cada

z=

sr

14

pareja de datos dependientes, podra construirse unnestadstico sustituyendo las


diferencias no nulas di por los rangos con signo ri en el test de la t de Student para

donde la media de los m rangos positivos y n - m rangos negativos es

muestras dependientes (Apartado 6.4). As, el estadstico resulta

Pastor-Barriuso R.

z=

sr

131

Mtodos no paramtricos

nm

1 n
1 m

r = 1
n ri =
m ri +
nm r j

1 i =1
i =1 ri = n
j =1 r j
ri +

r =n

n i =1 y n im
donde la media de los m rangos positivos
es
=1 rangos
j =1 negativos

nn(nm + 1)
1 n m
mm
= 11
m ri +1
m ri
n(n + 1)

= n
r=
1 riri + 2r j
i =1riri=+
i =


n
j =12
nn i =i1=1
i =i1=1

n(n + 1)
2 m
m ri
= 21
m
(mn4+ 1) n(n + 1)
+ n
ri
i =1 rii

= n
n ii==11
i =14 2

y, en el caso de que no haya empates,


n(n + 1)bajo
2 m la varianza
H0 de los rangos con signo se
=

rla
i
y, en el caso de que no haya empates,
varianza
bajo
4 H0 de los rangos con signo se
n i =1
estima mediante
estima
mediante
el problema,
supongamos
que se dispone
pares
de observaciones
y, Para
en
elconcretar
caso
de que
no haya empates,
la varianza
bajo H0deden los
rangos
con signo se estima
H
de
los
rangos
con signo se
y, en el caso de que no haya empates,
la
varianza
bajo
mediante
0
1 n 2 1 n 2 (n + 1)(2n + 1)
2
de una variable aleatoria continua.
En
dependientes, una
sr = 1
= (datos
n rcada
n i de
i = pareja
n + 1)(62n + 1) .
1
2
2
2
n
n
i
i
=
1
=
1
estima mediante
s r = ri = i =
.
n i =1 muestra
n i =1 y la otra observacin
6
observacin x1 corresponde a la primera
x2 a la segunda
n
n
Aplicando ambas resultados,
se
el 1estadstico
(n + 1)(2n + 1)
1 tiene
2 se tiene
2 estadstico
Aplicando
ambos
resultados,
el
muestra.
El
objetivo
se
centra
en
comparar
las
medias
s
=
r
=
i 2 = poblacionales. 1 y 2 a partir de
r
i

Aplicando ambas resultados, se


tiene el estadstico
6
n i =1
n i =1
m
estas dos muestras dependientes. m ri n(n + 1)

n(n4+ 1)
W E (W )
i =tiene
1 ri el estadstico
Aplicando ambas resultados,
se
z=
= W E (W ) ,
4
Los procedimientos desarrolladosin=1(en
el
Apartado
6.3
no(pueden
W ) , aplicarse a esta
n + 1)(2n + 1) = SE
z=
SE (W )
nm (n + 124
)(2n + 1)
n(n +no
1) son independientes por provenir de
situacin, ya que las medias de ambas rmuestras
i 24

E (W )de la suma de rangos positivos,


que representa
la diferencia
entrey,elen
observado
yW
esperado
4
i =valor
1 consecuencia,
distribucin
asimtrica
=la utilizacin, de la prueba de la t de
z=
dividida
por sucorrelacionadas.
error
estndar bajo
diferencias
node
nulas
es n > 16,
que representa
la diferencia
entre
y esperado
de la suma
rangos
observaciones
SinHembargo,
la
se
notablemente
SE
(Wcon
) simplifica
+el1)(nmero
n0.(elnSivalor
2observado
n +comparacin
1)de parejas
que
representa
la
diferencia
entre
el
valor
observado
y
esperado
de
la
suma
de
rangos
este estadstico
una distribucin
normal estandarizada bajo la hiptesis
Studentsigue
para aproximadamente
muestras dependientes
24 resulta cuestionable. Sin embargo, a pesar de
Si las
el nmero
de parejasemparejadas.
con diferencias
de simetra
las por
diferencias
de 0.
dividida
su derror
estndar
bajo
H0.de
- x2 en cada
una
n observaciones
sinula
sepositivos,
calculan
las de
diferencias
= x1alrededor
.
Si
el
nmero
de
parejas
con positivos
diferencias
positivos,
dividida
por
su
error
estndar
bajo
H
0
contar nicamente con 20 parejas, la distribucin
de la suma de rangos
que
representa
diferencia
entre
elsigue
valor
observado
y esperado
deestas
la
suma
de
rangos de 20
es
n8.8
> la
16,
este
aproximadamente
una1000
distribucin
normal
Porno
unnulas
lado,
como
las
distintas
no
estn
relacionadas
entre
s,
diferencias
Ejemplo
A
partirestadstico
delparejas
estudio
EURAMIC,
se seleccionan
muestras
aleatorias
no parejas
nulas
es
n
>
16,
este
estadstico
sigue
aproximadamente
una
distribucin
normal
presenta
un aspecto
mucho
ms normal,
asedad.
el usoLadeFigura
la aproximacin
de casos
y controles
agrupados
segn permitiendo
quinquenios de
8.2 presenta la
.
Si
el
nmero
de
parejas
con
positivos,
dividida
por
su
error
estndar
bajo
H
estandarizada
bajo
la
hiptesis
nula
de
simetra
de
las
diferencias
alrededor
de
0. as como
0
casoscon
y controles,
distribucin muestral
delado,
la diferencia
b-caroteno d entre
son independientes.
Por otro
la mediamedia
de lasdediferencias
coincide
la diferencias
estandarizada
bajo
la
hiptesis
nula
de
simetra
de
las
diferencias
alrededor
de
0.
normal al test
de los de
rangos
conde
signo
de Wilcoxon.
la distribucin
muestral
la suma
rangos
positivos W (esto es, la suma de rangos
en las
no
nulas
es
n
>
16,
este
estadstico
sigue
aproximadamente
una
distribucin
normal
diferencia
de medias
muestrales,
parejas
donde el
caso presenta un nivel superior de b-caroteno que el control). Debido al
Ejemplo
8.8 Adepartir
dellaestudio
EURAMIC,
se seleccionan
muestras
reducido
nmero
parejas,
media de
las diferencias
de b-caroteno1000
presenta
una distribucin
Ejemplo
8.8
A
partir
del
estudio
EURAMIC,
se
seleccionan
1000
muestras
estandarizada
bajo
la
hiptesis
nula
de
simetra
de
las
diferencias
alrededor
de
0. muestras
asimtrica y, en consecuencia,n la utilizacin
de la prueba de la t de Student para
n
aleatorias de 20 parejas1[Figura
de casos8.2
y1 controles
agrupadosaqu]
segn quinquenios de
aproximadamente
dependientes resulta cuestionable.
de contar nicamente con 20 parejas,
= embargo,
d = d i Sin
( x i1 axpesar
i2 )
aleatorias de 20 parejas de
casos ny
controles
agrupados
segn quinquenios de
i =1 rangos
ipositivos
=1
la distribucin de la suman de
presenta un aspecto mucho ms normal,
Ejemplo
8.8 A partir
del estudio
EURAMIC,muestral
se seleccionan
1000 muestras
edad.
La Figura
8.2depresenta
la distribucin
de la diferencia
media de permitiendo
as el uso
la aproximacin
n
n normal al test de los rangos con signo de Wilcoxon.
1
1
En edad.
el caso
de
existir
diferencias
con
el
mismo
valor
absoluto,
ha
de
utilizarse
La Figura 8.2 presenta
distribucin
de la diferencia medialade = xla
xi 2 = xmuestral
1 x2
i1

aleatoriasddeentre
20 parejas
casos yn controles
agrupados segn quinquenios de
=1
1 como la distribucin muestral de la suma
i =as
casosnydei controles,
caroteno
siguiente
versin
corregida
del
estadstico
del
test
de
rangos ha
conde
signo
En el caroteno
caso de existir
diferencias
con el mismo
valorlalos
absoluto,
utilizarse
siguiente
d entre
casos y controles,
as como
distribucin
muestral
de lalasuma
edad.
La
Figura
8.2
presenta
la
distribucin
muestral
de
la
diferencia
media
de
versin corregida
del
estadstico
del
test
de
los
rangos
con
signo
de rangos positivos W (esto es, la suma de rangos en las parejas donde el caso y, en consecuencia,
d es un estimador
derangos
la diferencia de medias
de rangos positivos
W (esto es,insesgado
lamsuma nde
(n + 1) en las parejas donde el caso
rias
como

d nivel
entre superior
casos y controles,
distribucin
muestral
de la suma
caroteno un
que
Debido
al reducido
presenta
de -caroteno
4 ellacontrol).
ila
=1 comparacin
poblacionales

.
As,
el
problema
de
de
medias
en
dos
muestras
1
2
,
z
=
presenta un nivel superior de -caroteno que el control). Debido al reducido
nla
+ 1)(2de
n +rangos
(nsuma
1) f en las parejas donde el caso
de rangos
(esto es,
nmero
depositivos
parejas, laWmedia
de las
diferencias
de -caroteno presenta una
dependientes
queda
a una
simple
media depresenta
una nica
24 sobre
una
nmero
dereducido
parejas, la
media
de lasinferencia
diferencias
de la-caroteno
16
presenta un nivel superior de -caroteno que el control). Debido al reducido
muestra de n diferencias independientes.
16
cuya varianza incluye el trmino de correccin por empates
nmero de parejas, la media de las diferencias de -caroteno presenta una
Los mtodos
132 Pastor-Barriuso
R. del Apartado 6.2.1 para la media de una muestra pueden entonces
T
16
t i (t i +al1)(100(1
t i 1)- )% para - como

utilizarse para calcular un intervalo de confianza


1
2
f = i =1
,

distribucin asimtrica y, en consecuencia, la utilizacin de la prueba de la t de


TestSin
de los
rangos conasigno
de Wilcoxon
Student para muestras dependientes resulta cuestionable.
embargo,
pesar
de

Frecuencia relativa (%)

contar nicamente con 20 parejas, la distribucin de la suma de rangos positivos

Para concretar el problema, supongamos que se dispone de n pares de observaciones


25
25
presenta
un aspecto mucho ms normal, permitiendo
as el uso de la aproximacin
de una variable aleatoria continua. En cada pareja de datos dependientes, una
20
20
normal
al test de
los rangosacon
signomuestra
de Wilcoxon.
la primera
y la otra observacin x2 a la segunda
observacin
x1 corresponde
15

15
muestra. El objetivo se centra en comparar las medias poblacionales 1 y 2 a partir de

10 estas dos muestras dependientes.


[Figura 8.2
5

10

aproximadamente aqu]

5 6.3 no pueden aplicarse a esta


Los procedimientos desarrollados en el Apartado

En el0caso
de existir
el muestras
mismo valor
ha de
0 son absoluto,
situacin,
ya quediferencias
las medias decon
ambas
no
independientes
porutilizarse
provenir dela
observaciones
correlacionadas.
la comparacin
-0,6
-0,3
0 Sin embargo,
0,3
0 rangos
30se simplifica
60 signo
90notablemente
120 150
siguiente versin
corregida
del estadstico
del test
de los
con

180

si se calculan las diferencias


d = x1 - x2 en cada una de las n observaciones
d
W emparejadas.
m

n(n + 1)
4

Por un lado, como las


(a)distintas parejasrinoestn relacionadas entre s, estas
(b)diferencias

z=

i =1

Figura 8.2 Distribucin


muestralPor
deotro
la diferencia
casos
controles (a) y de la
son independientes.
lado,
las1-caroteno
d entre
coincide
cony la
n(lan media
+ media
n de
+
f
1)(2de
)diferencias
suma de rangos positivos W (b) en 1000 muestras aleatorias de n = 20 parejas de casos y controles agrupados
24
Figura 8.2
segn quinquenios
de edad
a partir
del estudio EURAMIC.
Las lneas verticales en trazo discontinuo
diferencia
de medias
muestrales,
corresponden a los parmetros subyacentes 1 2 = 0,09 g/g y E(W) = 80,3.
1 n
1 npor empates
cuya varianza incluye el trmino de
d =correccin
di =
( x i1 x i 2 )

n i =1
n ni =1=
Ejemploincluye
8.9 En el
la trmino
Tabla 8.3desecorreccin
obtuvieron
19 > 16 parejas de casos y
cuya varianza
por
empates
1T

= de
2
x(i1t i+n1
controles con diferencias no nulas
puede
)(txii 2=y,1x)1en xconsecuencia,
n t i-caroteno
i =1

i =1

i =1

,
f =
2 de rangos positivos W = 91. Bajo la
utilizarse la aproximacin normal a la suma
y, 8.9
en consecuencia,
es un
insesgado
de >
la 16
diferencia
medias
Ejemplo
En la Tablad 8.3
seestimador
obtuvieron
n = 19
parejasdede
casos y
donde ti es el nmero de empates para la i-sima diferencia absoluta. Esta correccin conlleva
hiptesis
nula
de simetra
deefecto
las
diferencias
alrededor
de
0, apreciable
el valor
esperado
de
1 -empates
y
As,
el
problema
deel
lanestadstico
comparacin
de
medias
en casos
dos
muestras
2. 8.3
unadonde
reduccin
la varianza
su
sobre
ser
cuando
el la
nmero
elde
nmero
para
la i-sima
absoluta.
Esta
correccin
ti espoblacionales
Ejemplo
8.9
la de
Tabla
se
obtuvieron
=diferencia
19y,> en
16consecuencia,
parejas
de
y
controles
conEn
diferencias
no nulas
de -caroteno
puede
de empates sea elevado (tal es el caso de las variables cualitativas ordinales). Dado el carcter
dependientes
queda reducido
a una simple inferencia sobre la media de una nica
suma
de
positivos
es
discreto
de una
la rangos
suma
de
rangos
y nulas
el reducido
tamao
inherente
aapreciable
las pruebas no
conlleva
reduccin
de la no
varianza
y su
efecto
sobre
estadstico
ser
controles
con
diferencias
de
-caroteno
y,muestral
enelconsecuencia,
puede
utilizarse
la
aproximacin
normal
a
la
suma
de
rangos
positivos
W
=
91.
Bajo
la
paramtricas, la aproximacin normal a estos estadsticos suele incorporar adems la correccin
muestra de n diferencias independientes.

porcuando
continuidad
la de
Tabla
8.2 para
la
de
incurrir
en=un
error
I.
el nmero
empates
sea reducir
elevado
(tal
caso de
las
variables
cualitativas
(probabilidad
19es
+de1el)rangos
utilizarse
ladeaproximacin
normal
a =la19
suma
positivos
W
91.
Bajode
latipo
hiptesis
nula
de simetra
de
las
diferencias
alrededor
de
0, elpueden
valor
esperado
de
la
E(W)
95 muestra
Los mtodos
del Apartado
6.2.1
para la media
de=una
entonces
4
ordinales).
Dado
el
carcter
discreto
de la sumaalrededor
y 0,
el reducido
tamao
Ejemplo
8.9
En
la
Tabla
8.3
se
obtuvieron
nde=alrangos
19
> 16
casos
y controles
hiptesis
nula
de
simetra
de
las
diferencias
de
valor
esperado
de la con
calcular es
un intervalo de confianza
100(1
- parejas
)% el
para
de
1 - 2 como
suma deutilizarse
rangospara
positivos
diferencias no nulas de b-caroteno y, en consecuencia, puede utilizarse la aproximacin
y la varianza
muestral
inherente
apositivos
las
no paramtricas,
aproximacin
a estos
suma de
es positivos
normal
arangos
la suma
de pruebas
rangos
W = 91.la
la hiptesisnormal
nula de
simetra de las
sBajo
d
d
t

,
19
(
+
n19
/ 21)
1,1
diferencias alrededor de 0, el E(W)
valor esperado
de la
=
95 de rangos positivos es
n= suma
estadsticos suele incorporar adems
19(19la+correccin
1)(2 419 + 1por
) 6continuidad de la Tabla 8.2 para
= 617,25,
var(W) =
19(19 + 1)
E(W) = 24
= 95
reducir la probabilidad de incurrir en un error4de tipo I.
y la varianza
24
ydonde
la varianza
el trmino de correccin de la varianza por los t1 = 2 empates con
y la varianza
19(19 + 1)(2 19 + 1) 6
) = y los t2 = 2 empates con=diferencia
617,25, absoluta 0,38
diferencia absoluta var(
0,27Wg/g
24
19(19 + 1)(2 19 + 1) 6
= 617,25,
var(W) =
donde
el
trmino
de
correccin
de la varianza
por los t1 = 2 empates con diferencia
17
g/g es
24
con es
donde el 0,27
trmino
de la varianza
por los tabsoluta
absoluta
mg/gdey correccin
los t2 = 2 empates
con diferencia
0,38 mg/g
1 = 2 empates

con 0,38
donde el trmino
de0,27
correccin
2(2 + 1de
)(2lavarianza
1) + 2(2 +por
1)(los
2 t11)= 2 empates
absoluta
diferencia
absoluta
f =g/g y los t2 = 2 empates con diferencia
= 6.
2
diferencia absoluta 0,27 g/g y los t2 = 2 empates con diferencia absoluta 0,38
g/g es
Pastor-Barriuso R.
Aplicando la correccin por continuidad, el test estadstico de los rangos con
g/g es
2(2 + 1)(2 1) + 2(2 + 1)(2 1)
f = entonces
= 6.
signo de Wilcoxon resulta
2

133

f=

2(2 + 1)(2 1) + 2(2 + 1)(2 1)


= 6.
2

Mtodos no paramtricos

Aplicando la correccin por continuidad, el test estadstico de los rangos con


signo de Wilcoxon
resultapor
entonces
Aplicando
la correccin
continuidad, el test estadstico de los rangos con signo de
Wilcoxon resulta entonces
z=

| 91 95 | 1 / 2
617,25

= 0,14,

con un valor P = 2P(Z 0,14) = 2{1 F(0,14)} = 0,889. Notar que el resultado del test
sera
idntico
suma
de rangos
negativos
W =Notar
99, que
ya que
su valor esperado
con un
valor Pde= utilizar
2P(Z la
0,14)
= 2{1
- (0,14)}
= 0,889.
el resultado
es E(W) = 95 y su varianza coincide con var(W) = 617,25. As, una vez controladas las
diferencias
edad, las
de b-caroteno
favor de W
los=casos
deque
infarto
-99, ya
su no son
del test seradeidntico
dediferencias
utilizar la suma
de rangosanegativos
significativamente distintas de las diferencias a favor de los sujetos libres de la enfermedad.
valor esperado es E(W) = -95 y su varianza coincide con var(W) = 617,25. As,
La comparacin no paramtrica de una variable continua en ms de dos muestras dependientes
vez controladas
diferencias
de edad,Bajo
las diferencias
dede
-caroteno
a favorsigue la
puedeuna
realizarse
mediante las
el test
de Friedman.
la asuncin
que la variable
misma distribucin continua excepto posibles diferencias de localizacin (traslaciones), esta
prueba permite contrastar la hiptesis nula de una misma localizacin de la variable en cada una
de las poblaciones. Este procedimiento tambin se fundamenta en la definicin de rangos y
puede consultarse en los libros especficos de mtodos no paramtricos.
18
8.4 TEST EXACTO DE FISHER
En el Apartado 7.4 se present el test 2 de Pearson como un procedimiento general para evaluar
la asociacin estadstica entre las variables de una tabla 22. Esta prueba se basa en la asuncin
de que el tamao muestral es suficientemente grande para justificar la aproximacin chicuadrado a la distribucin nula del estadstico 2 de Pearson. En concreto, si los marginales de
la tabla son pequeos, de tal forma que la frecuencia esperada en alguna de las celdas sea
inferior a 5, esta aproximacin puede resultar imprecisa. En tales circunstancias, es preferible
utilizar mtodos alternativos basados en la distribucin exacta de las frecuencias de las celdas
de una tabla 22. En este apartado se describe el ms conocido de estos procedimientos, el test
exacto de Fisher.
Ejemplo 8.10 La Tabla 8.4 presenta el nmero de sujetos con niveles de b-caroteno
Ejemplo
Bajo la hiptesis
de independencia
de -caroteno
y el
superiores8.1.
e inferiores
a 0,30 mg/g
entre los 10 entre
casoseldenivel
infarto
y los 10 controles
del
estudio EURAMIC seleccionados de forma independiente en el Ejemplo 8.1. Bajo la
riesgo
de de
infarto
de miocardio,
esperada en
celda
sera de miocardio,
hiptesis
independencia
entrelaelfrecuencia
nivel de b-caroteno
y elcada
riesgo
de infarto
la frecuencia esperada en cada celda sera
E11 = E12 =

510
= 2,5,
20

E21 = E22 =

15 10
= 7,5.
20

Como los valores esperados en dos de las cuatro celdas son inferiores a 5, la prueba 2 de
Pearsonlosnovalores
ser aplicable
a esta
tablade22
la asociacin
ha de
contrastarse
mediante otro
Como
esperados
en dos
lasycuatro
celdas son
inferiores
a 5, la
procedimiento.

prueba 2 de Pearson no ser aplicable a esta tabla 22 y la asociacin ha de


contrastarse mediante otro procedimiento.
134

Pastor-Barriuso R.

[Tabla 8.4 aproximadamente aqu]

Test exacto de Fisher

Tabla 8.4 -caroteno en tejido adiposo en


10 casos de infarto de miocardio y 10 controles
seleccionados aleatoriamente del estudio
EURAMIC.
-caroteno
(g/g)
> 0,30
0,30
Total

Infarto de miocardio
Caso

Control

Total

1
9
10

4
6
10

5
15
20

El test exacto de Fisher se basa en determinar la probabilidad exacta de observar una tabla
cualquiera con frecuencias a, b, c y d, bajo la hiptesis nula de independencia y asumiendo que
todos los marginales n1, n2, m1 y m2 son fijos (Tabla 7.1). La condicin de marginales fijos se
impone por conveniencia matemtica, ya que los clculos se simplifican notablemente y los
marginales contienen poca informacin sobre la asociacin a estudio. Bajo H0, la probabilidad
de enfermar es comn en los sujetos expuestos y los no expuestos. As, el nmero de enfermos
entre los expuestos sigue una distribucin
de parmetros
n1 y , mientras que entre los
n1 binomial
a
n1 a n 2
c
n2 c

)
=

(
1

(
1
)Como
P(a,
b,
c,
d
|
H
0
no expuestos sigue una distribucin binomial
de parmetros
las muestras de
a
c n2 y .


expuestos y no expuestos son independientes,
la probabilidad
de obtener una tabla con
frecuencias a, b, c y d es el producto de las probabilidades binomiales de observar a sujetos
n1 n 2 m1
los
enfermos entre los expuestos y c entre
no expuestos,
(1 ) m2 .
=
na1 m1 a
n2
P(a, b, c, d | H0) = a (1 ) n1 a c (1 ) n2 c
a
c
Para marginales n1, n2, m1 y m2 fijos, el rango de valores posibles k para el nmero de
n1 n 2 m1
m - n ) y
(1min(n
) m,2 m
. ). Por tanto, la
=
k
=
casos expuestos vara entre k1 = max(0,
1
2
2
1
1
a
m

a
1

Para
marginales de
n1,obtener
n2, m1 yuna
m2tabla
fijos,con
el rango
de valores
k para ela unos
nmero de casos
probabilidad
frecuencias
a, b, cposibles
y d condiciona
expuestos
vara
entre
k
=
max(0,
m

n
)
y
k
=
min(n
,
m
).
Por
tanto,
la
probabilidad
1
1 posibles
1
Para marginales n1, n1 2, m1 y m2 fijos,
el2 rango2 de valores
k para el nmero
de de
obtener
una tabla
frecuencias
b, c ydada
d condicionada
a unos marginales n1, n2, m1 y m2 fijos
marginales
n1, con
n2, m
por
1 y m2 fijosa,viene
viene
dada
por
casos expuestos vara entre k = max(0, m - n ) y k = min(n , m ). Por tanto, la
1

n1 n 2 m1
a, b, c y d condiciona
(1 ) m2 a unos
probabilidad de obtener una tabla con frecuencias

a
m
a
1

P(a, b, c, d | n1, n2, m1, m2; H0) = k


2
marginales n1, n2, m1 y m2 fijos viene dada por n1 n 2 m1 (1 ) m2

k = k1 k m1 k
nn1 nn2 m1 n m2 n
2
2
1
(1 1
)

aa m

1 a
m1 a
a m1 a
P(a, b, c, d | n1, n2, m1, m2; H0) ==
,
k2
nn2 =m1 n + mn2
1
k2 n
n

1
2
1 ) 2

(
1

k m k

k
= k1
1

k = k1 k m1 k
m1
n 2 las propiedades
n1 de
n1 nde
coeficientes
2 los
donde el denominador de la ltima igualdad se obtiene

binomiales.
Esta distribucin
probabilidades
entre
donde el denominador
de ladeltima
igualdad se
delas
propiedades
m1 deacon
a todas
m1
alas
obtiene
posibles
a tablas
loslos mismos
=
,
=
marginales se conoce como distribucin hipergeomtrica
y
determina
la
distribucin
bajo H0
k2
n1 n 2
n1 + n 2

entre todas

coeficientes binomiales. Esta distribucin de


probabilidades
lasposibles
k = k1 k m1 k
m1
Pastor-Barriuso
R.
tablas con los mismos marginales se conoce como distribucin hipergeomtrica
y

donde el denominador de la ltima igualdad se obtiene de las propiedades de los


determina la distribucin bajo H0 del nmero de casos expuestos y no expuestos en una

135

Mtodos no paramtricos

del nmero de casos expuestos y no expuestos en una muestra de m1 casos obtenidos a partir de
un total de n1 sujetos expuestos y n2 sujetos m
no expuestos. Notar que esta probabilidad depende
1 m 2 n1 n 2
dado
que una vez
conocido
a las frecuencias de
nicamente del nmero a de casos expuestos,
a la
1 a
1 a
a los
nmarginales
de
mtabla.
las restantes celdas
quedan
determinadas
por
Cabe
destacar tambin
P(a | n1, n2, m1, m2; H0) =
=
m2
que aunque los clculos se han derivado de
prospectivo,
mun
n1 + n 2 se obtendra el mismo
1 + estudio

resultado a partir de un estudio retrospectivoen trminos


del
nmero
de
sujetos expuestos entre
n1
m1
casos y controles,

n1 !nm2 !1 m
1 ! mm2 2! n1 n 2
=
,

n! aa! b! c!nd1! a a m1 a
P(a | n1, n2, m1, m2; H0) =
=
m1 + m 2
n1 + n 2

lo cual confirma que la probabilidad condicional


tabla no
n1 a una determinada
m1
asociada
vara en funcin del diseo prospectivo o retrospectivo
del
n1 ! n 2 ! m1 ! m
2 ! estudio.
=,
n! a! b! c! d!
lo cualEjemplo
confirma
queBajo
la probabilidad
asociada a una
no vara en
8.11
la hiptesis condicional
nula de independencia
entredeterminada
el nivel de tabla
-caroteno
funcin
del
diseo
prospectivo
o
retrospectivo
del
estudio.
lo cual confirma que la probabilidad condicional asociada a una determinada tabla no
y el riesgo de infarto agudo de miocardio, la probabilidad exacta de obtener la
Ejemplo
8.11delBajo
la hiptesis
nulaode
independencia
entre el nivel de b-caroteno y el
vara
en funcin
diseo
prospectivo
retrospectivo
del estudio.
riesgo 8.4
de manteniendo
infarto agudolosdemarginales
miocardio,fijos
la probabilidad
exacta de obtener la Tabla 8.4
Tabla
es
manteniendo los marginales fijos es
Ejemplo 8.11 Bajo la hiptesis nula de independencia entre el nivel de -caroteno
10 10

1
4
5!15!10!10!exacta de obtener la
y el riesgo
de| infarto
agudo
P(1
5, 15, 10,
10; de
H0)miocardio,
= la probabilidad
= 0,136,
=
20!1! 4! 9! 6!
20
es
Tabla 8.4 manteniendo los marginales fijos
5

que corresponde a la probabilidad de que, de los 5 sujetos observados con niveles de
10 y10
b-caroteno
superiores
a 0,30 mg/g,de
1 sea
restantes
4 sean controles.
Notar que
que
corresponde
a la probabilidad
que,caso
de loslos
5 sujetos
observados
con niveles
1 4
!15!la10primera
!10!
la tabla se refiere por la frecuencia a = 1 observada
celda, dado que las
5en
= 0,136,
P(1 | 5, 15, 10, 10; H0) =
=
dems
frecuencias
b = 4, ac 0,30
= 9 ydg/g,
= 61vienen
entonces
dadas
por
los
marginales.
-caroteno
superiores
sea caso
y
los
restantes
4
sean
controles.
de
20
20!1! 4! 9! 6!

5
Notar
que
la
tabla
se
refiere
por
la
frecuencia
a =de1 una
observada
en la
celda,
Para contrastar la independencia entre las variables
tabla 22,
el primera
test exacto
de Fisher
consiste en enumerar todas las posibles tablas con los mismos marginales que la tabla observada,
las dems
b = 4,de
cexacta
=que,
9 yde
d =los
6 vienen
entonces
por
losbajo la
queque
corresponde
afrecuencias
lalaprobabilidad
5 sujetos
observados
con
niveles
para adado
continuacin
calcular
probabilidad
asociada
a cada
una dedadas
estas
tablas
hiptesis nula de independencia. El valor P bilateral del test exacto de Fisher corresponde
marginales.
-caroteno
a 0,30para
g/g,
1 seaaquellas
caso y los
restantes
4 sean controles.
de
entonces
a la
suma de superiores
probabilidades
todas
tablas
con probabilidad
inferior o
igual a la de la tabla observada (esto es, la suma de probabilidades de las tablas tanto o menos
Notar
la tabla senula
refiere
la frecuencia
a = 1 observada en la primera celda,
compatibles
conque
la hiptesis
quepor
la tabla
observada).
Para contrastar la independencia entre las variables de una tabla 22, el test exacto
dado que
las La
dems
frecuencias
b =todas
4, c =
y d = 6 vienen
entonces
dadas marginales
por los
Ejemplo
8.12
Tabla
8.5 presenta
las9 posibles
tablas con
los mismos
de Fisher consiste en enumerar todas las posibles tablas con los mismos marginales que
n1 = 5, n2 = 15, m1 = 10 y m2 = 10 observados en la Tabla 8.4 para la asociacin entre el
marginales.
b-caroteno
y el
infarto
de miocardio.
Bajo la
nulaexacta
de independencia
entre ambas
la tabla
observada,
para
a continuacin
calcular
la hiptesis
probabilidad
asociada a cada
variables, la probabilidad exacta asociada a cada tabla viene dada por la distribucin
una dehipergeomtrica
estascontrastar
tablas bajo
la hiptesis nula
de independencia.
valor
P bilateral
delexacto
test
Para
la independencia
entre
las variables deEluna
tabla
22, el test

exacto
de Fisher
corresponde
entonces
la suma
de probabilidades
para todas
aquellas que
de Fisher
consiste
en enumerar
todasa las
posibles
tablas con los mismos
marginales
136

la tabla observada, para a continuacin calcular la probabilidad exacta asociada a cada

Pastor-Barriuso R.

22
una de estas tablas bajo la hiptesis nula de independencia. El valor P bilateral del test

Test exacto de Fisher

tablas con probabilidad inferior o igual a la de la tabla observada (esto es, la suma de

probabilidades de las tablas tanto o menos compatibles con la hiptesis nula que la tabla
Tabla 8.5 Todas las posibles tablas con los mismos
marginales que la Tabla 8.4, junto con sus probabilidades
observada).
tablas con probabilidad
inferior
o igual
a la de nula
la tabla
observada (esto es, la suma de
asociadas
bajo
la hiptesis
de independencia.
Tabla
Probabilidad
bajo Hcon
Odds rationula que la tabla
0
probabilidades
lasLa
tablas
o menos
compatibles
latablas
hiptesis
Ejemplo de
8.12
Tablatanto
8.5 presenta
todas
las posibles
con los mismos
0

observada).
0 la Tabla 8.4 para la
5, n2 = 15,5 m1 = 10 y m0,016
marginales n1 = 10
2 = 10 observados en
9 -caroteno
6
0,136
0,17la hiptesis nula de
asociacin entre el
y el infarto
de miocardio. Bajo
Ejemplo 8.12 La Tabla 8.5 presenta todas las posibles tablas con los mismos
2
8
entre

3
7
ambas

independencia
variables, la0,348
probabilidad exacta0,58
asociada a cada tabla
marginales n1 = 5, n2 = 15, m1 = 10 y m2 = 10 observados en la Tabla 8.4 para la
3
2
7
8
la distribucin

0,348
1,71
viene dada por
hipergeomtrica
asociacin entre el -caroteno y el infarto de miocardio. Bajo la hiptesis nula de
4
6

1
9

0,136

15!10!10! exacta asociada a cada tabla


independencia entre ambas
variables, la5!probabilidad
P(0)
= 0,016,
5
0 = P(5) =
200,016
! 0! 5!10! 5!
5
10

viene dada por la distribucin hipergeomtrica


5!15!10!10!
P(1) = P(4) =
= 0,136,
520
!1!51!!140!!91!06!!
P(0) = P(5) =
= 0,016,
20! 0! 5!10! 5!
5!15!10!10!
P(2) = P(3) = 5!15!10!10! = 0,348,
P(1) = P(4) = 20! 2! 3! 8! 7! = 0,136,
20!1! 4! 9! 6!
5!15!10!10! tablas con a = 0, 1, 4 y 5
cuya suma de probabilidades
igual
P(2) =es
P(3)
= a 1. Como las
= 0,348,
20! 2! 3! 8! 7!
tienen asociadas probabilidades menores o iguales que la probabilidad P(1) =
cuya suma de probabilidades es igual a 1. Como las tablas con a = 0, 1, 4 y 5 tienen
asociadas
menores
o iguales
quedel
la probabilidad
= 0,136
P bilateral
test exacto deP(1)
Fisher
es de la tabla
0,136 de laprobabilidades
tabla observada,
el valor
a
=
0,
1,
4
y5
cuya
suma
de
probabilidades
es
igual
a
1.
Como
las
tablas
con
observada, el valor P bilateral del test exacto de Fisher es
P = P(0) + Pmenores
(1) + P(4)o +iguales
P(5) que la probabilidad P(1) =
tienen asociadas probabilidades

= 0,016 + 0,136 + 0,136 + 0,016 = 0,304.


0,136 de la tabla observada, el valor P bilateral del test exacto de Fisher es
Notar que se obtendra el mismo valor P si se sumaran las probabilidades asociadas a
todas
tablas con
un
oddsvalor
ratio Ptanto
osumaran
ms alejado
del valor nulo 1 que el OR =
Notaraquellas
que se obtendra
mismo
las probabilidades
P = Pel(0)
+ P(1)
+ P(4)si+seP(5)
16/(49) = 0,17 de la tabla observada; es decir, las probabilidades de las tablas con OR 0,17
oasociadas
OR 1/0,17
= 6. aquellas
As,= a0,016
partir
esta
muestra
reducida,
no puede
concluirse
que exista
a todas
tablas
con un
odds tan
ratio
tanto
o ms
alejado
del valor
+de0,136
+ 0,136
+
0,016
= 0,304.
una asociacin significativa entre el nivel de b-caroteno y el riesgo de infarto de miocardio.
nulo 1 que el OR = 16/(49) = 0,17 de la tabla observada; es decir, las
P si el
se nmero
sumarande
lasposibles
probabilidades
Notar
se obtendra
el es
mismo
Cuando elque
tamao
muestral
muy valor
pequeo,
tablas con los mismos
marginales
ser
muy
reducido,
de
tal
forma
que
el
valor
P
del
test
exacto
Fisherde
podr
probabilidades de las tablas con OR 0,17 OR 1/0,17 = 6. As,dea partir
esta tomar
asociadas
a
todas
aquellas
tablas
con
un
odds
ratio
tanto
o
ms
alejado
del
valor
muy pocos valores, siendo as particularmente difcil obtener resultados significativos. Para un
nivel de
significacin
preestablecido,
el test exacto
de Fisher
tender a ser
conservador con
muestra
tan reducida,
no puede concluirse
que exista
una asociacin
significativa
OR
=
1

6/(4

9)
=
0,17
de
la
tabla
observada;
es
decir,
las
nulo
1
que
el
una verdadera probabilidad de error de Tipo I menor que el valor nominal . Un contraste
alternativo
consiste
en calcular
el valor
mid-P bilateral, que se define como
y el riesgo
de infarto
de miocardio.
entremenos
el nivelconservador
de -caroteno
probabilidades
de
las
tablas
con
OR

0,17

OR

1/0,17
= 6.menos
As, a verosmiles
partir de esta
la probabilidad de la tabla observada ms la probabilidad de las tablas
bajo H0.
Este valor mid-P ser siempre inferior o igual al valor exacto de P, obtenindose resultados
23
muestra tan
no puedeesconcluirse
muy similares
si elreducida,
tamao muestral
grande. que exista una asociacin significativa
entre el nivel de -caroteno y el riesgo de infarto de miocardio.

Pastor-Barriuso R.

23

137

Mtodos no paramtricos

Ejemplo 8.13 De todas las posibles tablas enumeradas en la Tabla 8.5, slo las tablas
con a = 0 y 5 tienen probabilidades bajo H0 menores que la probabilidad P(1) = 0,136 de
la tabla observada, as que el valor mid-P bilateral se calcula como
mid-P = P(0) + P(1) + P(5) = 0,016 + 0,136 + 0,016 = 0,168,
que es considerablemente menor que el valor exacto de P = 0,304 calculado en el ejemplo
anterior. No obstante, ambos valores de P arrojan resultados no significativos para el
nivel de significacin estndar = 0,05.
El test exacto de Fisher puede generalizarse para evaluar la asociacin estadstica entre las
variables categricas de una tabla rc, cuando algunas frecuencias esperadas sean muy bajas y
no pueda aplicarse el test 2 de Pearson. Aunque el valor P del test exacto de Fisher para tablas
mayores de 22 se define igualmente como la suma de probabilidades para aquellas tablas tanto
o menos probables que la tabla observada, su clculo requiere de algoritmos de computacin
dado el elevado nmero de posibles tablas con los mismos marginales.
8.5 REFERENCIAS
1. Agresti A. Categorical Data Analysis, Second Edition. New York: John Wiley & Sons, 2002.
2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
4. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.
5. Conover WJ. Practical Nonparametric Statistics, Third Edition. New York: John Wiley
& Sons, 1998.
6. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley &
Sons, 1986.
7. Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition.
New York: John Wiley & Sons, 2003.
8. Hollander M, Wolfe DA. Nonparametric Statistical Methods, Second Edition. New York:
John Wiley & Sons, 1999.
9. Lehmann EL. Nonparametrics: Statistical Methods Based on Ranks. San Francisco:
Holden and Day, 1975.
10. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press,
1999.
11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.

138

Pastor-Barriuso R.

TEMA 9
DETERMINACIN DEL TAMAO MUESTRAL
9.1INTRODUCCIN
Las inferencias poblacionales derivadas a partir de una muestra conllevan indefectiblemente un
margen de error. As, en el diseo de un estudio epidemiolgico o clnico, es necesario plantearse
de antemano el nmero de sujetos que deben ser estudiados para responder a la pregunta de
investigacin con un grado razonable de certidumbre. La determinacin a priori del tamao
muestral es una parte importante del diseo de un estudio por distintos motivos:
yy Permite concretar la hiptesis de trabajo. El investigador ha de precisar la hiptesis
principal del estudio y, en funcin de su experiencia, investigaciones previas o estudios
piloto, especificar la magnitud de efecto clnica o biolgicamente relevante que se pretende
detectar.
yy Permite evaluar la factibilidad del estudio. Una de las limitaciones ms frecuentes en los
estudios epidemiolgicos es la imposibilidad de reclutar un nmero suficiente de pacientes,
bien sea por limitaciones en los recursos econmicos, en el nmero de pacientes disponibles
o en el tiempo de duracin del estudio.
yy Previene la obtencin de resultados no concluyentes. Como se describi en el Tema 5, la
precisin de una estimacin y la potencia estadstica de un contraste de hiptesis aumentan
conforme aumenta el tamao muestral, de tal forma que una muestra insuficiente dar
lugar a estimaciones imprecisas y contrastes de baja potencia.
Desde un punto de vista puramente terico, basta con aumentar el tamao muestral para
obtener estimaciones arbitrariamente precisas o para detectar como estadsticamente significativo
cualquier efecto por pequeo que sea. Aun cuando esto sea posible en la prctica, la utilizacin
de muestras excesivamente grandes es ineficiente, ya que la posible deteccin de efectos
trivialmente pequeos y de escasa utilidad prctica no justificara los recursos empleados. En
ltimo trmino, el objetivo de la determinacin a priori del tamao muestral consiste en estimar
la muestra mnima necesaria para asegurar estimaciones razonablemente precisas o para tener
una potencia suficiente en la deteccin de efectos clnicamente relevantes.
Con cierta frecuencia, el nmero de sujetos disponibles para un estudio viene dictado de
antemano por las limitaciones econmicas o temporales. En tales circunstancias, es importante
determinar qu magnitudes de efecto tendran una probabilidad razonable de ser detectadas con
la muestra disponible, para contar as con una idea aproximada de las posibilidades que ofrecera
la realizacin de dicho estudio.
Como se ver a continuacin, el clculo del tamao muestral requiere de informacin previa
a la realizacin del estudio. Estos datos suelen proceder de investigaciones previas relacionadas
y, en la medida de lo posible, han de ajustarse a unas hiptesis de trabajo verosmiles. En
cualquier caso, las asunciones realizadas en el clculo del tamao muestral pueden diferir de los
resultados posteriores del estudio y, en consecuencia, estas determinaciones deben servir como
gua orientativa ms que como norma rgida para la estimacin del tamao muestral. Conviene
apuntar tambin que la muestra resultante se refiere al nmero de sujetos necesarios para el
Pastor-Barriuso R.

139

acin de tamao esencialmente infinito. La correccin de las frmulas del tamao

Determinacin
del tamaoymuestral
tral para otros tipos
de muestreo
para poblaciones finitas puede consultarse en

bros sobre muestreos complejos citados al final del tema.

anlisis y no a los inicialmente incluidos. As, la muestra estimada ha de incrementarse en


previsin de las posibles prdidas de sujetos que pudieran ocurrir en el estudio.
TAMAO MUESTRAL PARA LA ESTIMACIN DE UN PARMETRO
En este tema se revisan las frmulas del tamao muestral ms frecuentemente utilizadas en
LACIONAL el diseo de estudios epidemiolgicos y clnicos, tanto para la estimacin de una media y una
proporcin en una nica muestra, como para la comparacin de medias y proporciones en muestras
dependientes e independientes. En adelante, se asume que las muestras se obtienen mediante un
1.2 MEDIDAS
sta seccin se presentan las frmulas para determinar el tamao muestral
necesarioDE TENDENCIA CENTRAL
muestreo aleatorio simple a partir de una poblacin de tamao esencialmente infinito. La
correccin de las frmulas del tamao muestral para otros tipos de muestreo y para poblaciones
obtener estimaciones fiables de un parmetro poblacional (tpicamente
la mediadedetendencia central informan acerca de cul e
Las medidas
finitas puede consultarse en los libros sobre muestreos
complejos
citados al final del tema.

variable continua o la proporcin de sujetos con una determinada caracterstica)


a
de una determinada
variable o, dicho de forma equivalente

9.2TAMAO MUESTRAL PARA LA ESTIMACIN DE UN PARMETRO


r de una nica muestra. Esta situacin concierne esencialmente a los
estudiosde qu valor se agrupan los datos observados. La
alrededor
POBLACIONAL

iptivos o transversales.
El objetivo
se centra las
en calcular
tamao
muestral
En esta seccin
se presentan
frmulaselpara
determinar
necesario
para los resultado
central
deellatamao
muestramuestral
sirven tanto
para resumir

obtener estimaciones fiables de un parmetro poblacional (tpicamente la media de una variable


mo necesario para
estimar
con un
de
continua
o el
la parmetro
proporcinpoblacional
de sujetos con
unadeterminado
determinada
caracterstica)
a partir
de parmetros
una nica poblacionales
realizargrado
inferencias
acerca
de los

muestra. Esta situacin concierne esencialmente a los estudios descriptivos o transversales. El


sin, que puedeobjetivo
cuantificarse
mediante
la amplitud
del intervalo
confianza.
se centra
en calcular
el tamao
muestral de
mnimo
necesario
para estimar
el parmetro
continuacin
se describen
los principales
estimadores de la
poblacional con un determinado grado de precisin, que suele cuantificarse mediante la amplitud
del intervalo
confianza.de una media
variable.
Tamao muestral
para la de
estimacin

tamao de una muestra precede a su seleccin y, en consecuencia, no se dispone de


rtir de la aproximacin normal N(, 2/n) a la distribucin de una1.2.1
mediaMedia
muestral
aritmtica
9.2.1 Tamao muestral para la estimacin de una media
tamao
de
una
muestra
precede
a
su
seleccin
y,
en
consecuencia,
no se
dispone de por
informacin muestral. La precisin de la estimacin queda entonces
determinada
2
uede construirseAun
intervalo
de confianza al
100(1N(,
- )%
paraa la
media
partir
de la aproximacin
normal
/n)
la distribucin
de una media
muestral
La media aritmtica,
denotada
por x ,, puede
se define como la su
informacin
muestral.
La
precisin
dealo,
la100(1
estimacin
queda
entonces
determinada
por
construirse
un del
intervalo
dede
confianza
)%
para la
media
poblacional
como
la amplitud
intervalo
confianza
ms
concretamente,
por
la distancia
del centro
valores
muestrales
dividida
por
el
nmero
acional como x z1 /2 / n . Notar que este intervalo incluye
incluye la
la desviacin
desviacin tpica poblacional en lugar dede observacione
amplitud
confianza
o, ms concretamente,
poruna
la distancia
centroa su
su la
muestral,
ya de
que
la determinacin
del tamao de
muestradel
precede
aestimacin
los
lmitesdel
delintervalo
intervalo
por
n
el
tamao
muestral
y
por
x
para e
i el valor
consecuencia,
no seyadispone
de informacin
de observado
la
en lugar dey, suenestimacin
muestral,
que la determinacin
del muestral. La precisin
a poblacional seleccin
a los lmites
del intervalo
estimacin
queda
entonces determinada por la amplitud del intervalo de confianza o, ms
media vendra dada por
la
concretamente, por la distancia del centro
z1lmites
=a los
, del intervalo3
/2
n

= z1 / 2
,
x1 + x 2 + ... + x n
1 n
n
=
=
x
x

i
de donde puede despejarse el tamao muestral n para obtener
n i =1
n
de donde puede despejarse el tamao muestral n para obtener
de donde puede despejarse el tamao muestral n para obtener
z 2 2 La media es la medida de tendencia central ms utilizad
n = 1 / 2
.
2

z2 2
n = 1 / 22 interpretacin.
.
Corresponde al centro de gravedad de los
muestral para la estimacin de una media
De esta expresin se desprende que el tamao
De estadepende
expresin
desprende
queque
el tamao
muestral
para la estimacin
de una
poblacional
de se
tres
elementos,
debenprincipal
ser
determinados
parainfluenciada
poder
limitacinde
es antemano
que est muy
por los v
aplicarDe
la esta
frmula:
expresin
se desprende
el tamao
para
la estimacin
una
media poblacional
depende
de tres que
elementos,
quemuestral
deben ser
determinados
dede
antemano
caso,
puede
no
ser
un
fiel
reflejo
de lamayor
tendencia central de
yy El nivel de confianza 100(1 )%. Cuanto mayor sea este nivel de confianza,
media
poblacional
depende
de
elementos,
queutilizarse
deben serpor
determinados
de confianza
antemano del
ser
el tamao
En tres
la prctica,
suele
convenio una
para
poder
aplicarmuestral.
la
frmula:
95% ( = 0,05), de tal forma que el percentil de la distribucin normal estandarizada es
Ejemplo 1.4 En este y en los sucesivos ejemplos sob
para
poder
aplicar
la frmula:100(1 - )%. Cuanto mayor
z0,975
= 1,96.
z1/2
El=nivel
de
confianza
sea este nivel de confianza,

140

yy La varianza poblacional 2. Cuanto ms dispersa sea


una variable,
mayordel
ser
la muestra
utilizarn
los valores
colesterol
HDL obtenidos e
El nivel de confianza 100(1 - )%. Cuanto mayor sea este nivel de confianza,
mayorpara
ser describirla
el tamao muestral.
En la prctica,
suelepor
utilizarse
porunconvenio
una
necesaria
aceptablemente.
Se requiere,
tanto, de
valor aproximado
estudio
European
Study on una
Antioxidants, Myocardia
mayor
serdel
el tamao
muestral.
Entallaforma
prctica,
suele
utilizarse
por
convenio
confianza
95%
(

=
0,05),
de
que
el
percentil
de
la
distribucin
Pastor-Barriuso R.
the Breast (EURAMIC), un estudio multicntrico de
confianza
del 95% ( es
= 0,05),
tal forma
normal estandarizada
z1-/2 =dez0,975
= 1,96.que el percentil de la distribucin
entre 1991 y 1992 en ocho pases Europeos e Israel p

Ejemplo 9.1 En un pequeo estudio piloto realizado en personas adultas de una


Tamaopara
muestral
para la estimacin
de un parmetro
precisin de un kilogramo puede ser aceptable
estimar
el peso medio
en poblacional
determinada poblacin, la media y la desviacin tpica de la presin arterial
personas adultas, pero resulta claramente insuficiente en recin nacidos.
sistlica
resultaron
ser 130 ay estudio,
20 mm Hg,
esta similares ya
de
la varianza
de la variable
que respectivamente.
suele obtenerse a Utilizando
partir de trabajos
realizados o de un estudio piloto.
informacin
preliminar,
se planea
muestra
Ejemplo
9.1 En
un pequeo
estudioobtener
piloto una
realizado
en aleatoria
personas simple
adultasde
demayor
una
yy La precisin deseada . El tamao muestral ser tanto mayor cuanto mayor sea la precisin
exigida
la estimacin
es,medio
cuanto
menor
seaarterial
).
El criterio
para
la precisin
tamaoapara
estimar el(esto
nivel
presin
sistlica
conestablecer
una
precisin
determinada
poblacin,
la media
y ladedesviacin
tpica
de la presin
arterial
de una estimacin ha de fundamentarse en el conocimiento previo sobre la magnitud
aproximada
del Asumiendo
parmetro.
As,
por de
ejemplo,
unadel
precisin
de un
kilogramo
puede ser
Hg.
confianza
95% yUtilizando
una
desviacin
de 2 mm
sistlica
resultaron
ser 130 yun
20nivel
mm
Hg,
respectivamente.
esta tpica
aceptable para estimar el peso medio en personas adultas, pero resulta claramente
insuficiente
recin
nacidos.
informacin
preliminar,
se planea
obtener una muestra aleatoria simple de mayor
similar a la en
del
estudio
piloto,
se tiene
Ejemplopara
9.1
En unel nivel
pequeo
estudio
piloto
realizado
en personas
adultas de una
tamao
estimar
medio
de2presin
arterial
sistlica
con una precisin
2
1
,
96
20
determinada poblacin, la media
tpica de la presin arterial sistlica
n = y la2 desviacin
= 384,16;
2
resultaron
ser
130
y
20
mm
Hg,
respectivamente.
Utilizando
estadesviacin
informacin
preliminar,
tpica
de 2 mm Hg. Asumiendo un nivel de confianza del 95% y una
se planea obtener una muestra aleatoria simple de mayor tamao para estimar el nivel
medio
de
presin
arterial
sistlica
con una385
precisin
2 estimar
mm Hg.laAsumiendo
similar
a la
del
estudio
piloto,
se tiene
es decir,
se
requeriran
aproximadamente
sujetosde
para
presin un nivel
de confianza del 95% y una desviacin tpica similar a la del estudio piloto, se tiene
arterial sistlica media de esta poblacin
1,96 2 20 2con una precisin de 2 mm Hg.
n=
= 384,16;
2
2
Obsrvese que el tamao muestral aumenta de forma cuadrtica con la precisin
es decir, se requeriran aproximadamente 385 sujetos para estimar la presin arterial
sistlica
media
de estaque
poblacin
con una
precisin
de
mm
Obsrvese que el
es
decir, se
aproximadamente
sujetospara
estimar
laelpresin
= 12
mm
Hg,Hg.
tamao
deseada,
derequeriran
tal forma
para el doble
de385
precisin
tamao muestral aumenta de forma cuadrtica con la precisin deseada, de tal forma que
para
el doble
de precisin
=sera
1 poblacin
mm
Hg, elveces
tamao
muestral
necesario
Hg. sera cuatro
arterial
sistlica
media
deesta
con
una
precisinmnimo
de 2 mm
muestral
mnimo
necesario
cuatro
mayor
veces mayor
Obsrvese que el tamao muestral2 aumenta
de forma cuadrtica con la precisin
1,96 20 2
n=
= 1.536,64 1.537.
2
deseada, de tal forma que para el1doble de precisin = 1 mm Hg, el tamao

muestral
necesario
cuatro
veces
mayor
mediante
p mnimo
zmuestral
) /lansera
.estimacin
As,
la precisin
proporcin
en la estimacin de una proporcin
9.2.2
Tamao
de una
1-/2 (1para
9.2.2 Tamao muestral para la estimacin de una proporcin
2 la2 precisin
Siguiendo
unpargumento
apartado
anterior,
puede
utilizarse ladeaproximacin
normal
mediante
viene
z1-/2 determinada
similar
(1 ) al
/ ndel
As,
en
la estimacin
una proporcin
1.,96
20
poblacional
por
Siguiendo
un
argumento
similar
al
del
apartado
anterior,
puede
utilizarse
la
n
=
=
1.536,64

1.537.
N(, (1 )/n) a la distribucin de una
proporcin muestral p para obtener un intervalo de
12 poblacional mediante
confianza
al
100(1

)%
para
la
proporcin
mediante p z1/2 (1 ) / n . As,
As, la precisin
poblacional viene determinada por
aproximacin
normal
N
(

(1

)/
n
)
a
la
distribucin
de
una
proporcin
muestral
p
(1 )
la precisin en la estimacin de una proporcin
viene determinada por
= z1 / 2 poblacional
,
n
poblacional viene determinada por
9.2.2
Tamaounmuestral
la estimacin
de -una
para obtener
intervalopara
de confianza
al 100(1

proporcin
para
(1)%
) la proporcin poblacional
= z1 / 2
,
n
y el tamao
muestral mnimo
para alcanzar
Siguiendo
un argumento
similar necesario
al del apartado
anterior, dicha
puedeprecisin
utilizarseesla
(1
= z1 / 2
y el tamao muestral mnimo necesario para alcanzar dicha precisin es
n
y el tamaonormal
muestral
para
alcanzardedicha
precisin esmuestral p
2
N(mnimo
, (1 - necesario
)/n) a lazdistribucin
una
proporcin
aproximacin
(1 )
n = 1 / 2 2
.

y el
muestral
mnimonecesario
para alcanza
5
2
para obtener un intervalo de confianza al 100(1
la tamao
proporcin
poblacional
z1 / 2-(
1 )%
para
)
n =la estimacin
El clculo del tamao muestral para
de. una proporcin precisa, por tanto, de
2

los siguientes
elementos:
El clculo del tamao muestral para la estimacin de una proporcin precisa, por
z 2 (1
n = 1 / 2 2
yy El nivel de confianza 100(1 )%, que se establece habitualmente en el 95%.

tanto,
de los siguientes
El clculo
del tamaoelementos:
muestral para la estimacin de una proporcin precisa, por
yy La proporcin poblacional .
5 para la estimacin
Elhabitualmente
clculo
del tamao
muestral
tanto,
de nivel
los siguientes
elementos:
precisin
El
dedeseada
confianza
)%, queque
se establece
en el 95%.
yy La
o 100(1
el error-
absoluto
se considere
aceptable.

tanto,
de los siguientes
El
de confianza
100(1 - .)%, que se establece
habitualmente
en elelementos:
95%.
La nivel
proporcin
poblacional

El nivel de confianza 100(1 - )%, que se est


La proporcin
poblacional
. absoluto que se considere
precisin deseada
o el error
aceptable.

Pastor-Barriuso R.

La objeto
proporcin
poblacional
.
La precisin
deseada
o elaproximado
error absoluto
que
se considere
aceptable.
El conocimiento
previo
del valor
de la
proporcin
de estudio
es

141

Determinacin del tamao muestral

El conocimiento previo del valor aproximado de la proporcin objeto de estudio es necesario


no slo para sustituirlo explcitamente en la frmula, sino tambin para establecer la precisin
deseada en la estimacin. Por ejemplo, un error absoluto del 5% podra ser admisible en la
estimacin
de una proporcin
mientras
que este
error
informacin,
se pretendeprxima
realizar al
un50%,
estudio
transversal
paramismo
estimar
la sera claramente
inaceptable para una proporcin pequea, pongamos del 5% (o equivalentemente para una
proporcin muy grande, ya que cuando se estima una proporcin tambin se est estimando su
prevalencia de hipertensin en esta poblacin con un error absoluto del 3%
complementario). As, para determinar de antemano qu error se considera admisible, ha de
contarse con alguna informacin sobre la magnitud de , bien sea a travs de investigaciones
10%).
Asumiendo
el niveltransversal
de confianza
informacin,
sedel
pretende
realizar
un estudio
paraestndar
estimar del
la 95%, =
previas(error
o, enrelativo
su defecto,
de un estudio
piloto.

se necesitara
una
mnima
deerror absoluto del 3%
0,30
y = 0,03,
prevalencia
hipertensin
estamuestra
poblacin
conanterior,
un
Ejemplo
9.2de En
el estudioenpiloto
del ejemplo
la proporcin de hipertensos
(presin arterial sistlica 140 mm Hg) fue del 30%. En base a esta informacin, se
=
(error relativo
delun
10%).
nivel
de confianza
estndar del
2
pretende
realizar
estudio
la prevalencia
de 95%,
hipertensin
en
1,Asumiendo
96transversal
0,30(1 el
0,para
30
) estimar
=
896,37

897.
n
=
esta poblacin con un error absoluto
0,03 2 del 3% (error relativo del 10%). Asumiendo el
0,03, se necesitara
una
muestra
0,30 yde =confianza
nivel
estndar del
95%,
= mnima
0,30 y de= 0,03, se necesitara una muestra
mnima de
Si, por el contrario, el estudio 2se diseara para estimar la prevalencia de diabetes,
1,96 0,30(1 0,30)
n=
= 896,37 897.
03 2error absoluto del 1% (error relativo del
que se asume prxima al 5%, con0,un
Si, por el contrario, el estudio se diseara para estimar la prevalencia de diabetes, que se
20%),
requerira
tamao
considerablemente
mayor
asume
al 5%,
con un
error
absoluto
del 1%
(error
relativo
del 20%), se
Si, por prxima
elsecontrario,
elunestudio
semuestral
diseara
para estimar
la prevalencia
de diabetes,
requerira un tamao muestral considerablemente mayor
que se asume prxima al1,96
5%,
2 con un error absoluto del 1% (error relativo del
0,05(1 0,05)
= 1.824,76 1.825.
n=
0,012
20%), se requerira un tamao muestral considerablemente mayor
Como se desprende de este ejemplo, para estimar fiablemente una proporcin extrema
(muy
o muy
se necesitar
una fiablemente
muestra mayor
que para estimar una
Comopequea
se desprende
de grande)
este ejemplo,
para estimar
una proporcin
1,96 2 0,05(1 0,05)
proporcin cercana nal=50%.
= 1.824,76 1.825.
0,012 se necesitar una muestra mayor que para
extrema (muy pequea o muy grande)
La frmula del tamao muestral presentada en este apartado se basa en la aproximacin
normal
a laseuna
distribucin
una
Aunqueunaesta
aproximacin es
estimar
proporcin
cercana
alde50%.
Como
desprende
demuestral
este
ejemplo,
para proporcin.
estimar fiablemente
proporcin
razonable en la mayora de las circunstancias, existen frmulas alternativas, tales como
las basadas
en (muy
la aproximacin
normal
con correccin
poruna
continuidad
o en la
aproximacin
extrema
pequea o muy
grande)
se necesitar
muestra mayor
que
para
La
frmula
del
tamao
muestral
presentada
en
este
apartado
se
basa
en
la
de Poisson, que pueden ser tiles cuando se prev trabajar con muestras de reducido
tamao
o conuna
proporciones
extremas.
estimar
proporcinmuy
cercana
al 50%.Una descripcin y comparacin ms detallada
aproximacin
normal
a
la
distribucin
de una proporcin.
Aunque esta
de los distintos mtodos de clculo delmuestral
tamao muestral
puede encontrarse
en la bibliografa
de este tema.
aproximacin
en la mayora
de lasen
circunstancias,
La frmula es
delrazonable
tamao muestral
presentada
este apartado existen
se basa frmulas
en la
alternativas,
tales
como
lasdistribucin
basadas
en muestral
la
normal DE
conMEDIAS
correccin
9.3
TAMAO
MUESTRAL
PARA
LAaproximacin
COMPARACIN
aproximacin
normal
a la
de una proporcin.
Aunque
estapor
Muchos
diseos
bien
sean
defrmulas
cohortes
o de casos y
continuidad
o en
la aproximacin
de
Poisson,
que
pueden ser(estudios
tiles
cuando
se prev
aproximacin
esepidemiolgicos,
razonable
en la mayora
deobservacionales
las
circunstancias,
existen
controles) o experimentales (ensayos clnicos), se realizan con un afn comparativo, donde el
objetivo
no es
tanto
estimar
la magnitud
de
un determinado
parmetro
poblacional,
trabajar
con
muestras
delas
reducido
tamao
o con
proporciones
muy
Una
alternativas,
tales
como
basadas
en la aproximacin
normal
conextremas.
correccin
por sino ms
bien comparar parmetros entre distintas poblaciones. En tales diseos, el problema radica en
determinar
muestral
necesario
en
cada mtodos
grupo
dedecomparacin,
de tal forma
descripcin
comparacin
msmnimo
detallada
de los
distintos
clculosedel
tamao
continuidadelyotamao
en la aproximacin
de Poisson,
que
pueden
ser tiles
cuando
prev
que el contraste de hiptesis que se pretende realizar tenga una potencia suficiente para detectar
posibles
diferencias
clnica
o epidemiolgicamente
En extremas.
este apartado
muestral
puede
encontrarse
en
la bibliografa
de proporciones
esterelevantes.
tema. muy
trabajar con
muestras
de reducido
tamao o con
Una se presentan

descripcin y comparacin ms detallada de los distintos mtodos de clculo del tamao


142

Pastor-Barriuso R.

muestral puede encontrarse en la bibliografa de este tema.


7

determinada
minada variable
variable
o, dicho
o, dicho
de forma
de forma
equivalente,
equivalente,
estosestos
estimadores
estimadores
indican
indican

independientes
orqu
de valor
qu valor
se agrupan
se agrupan
los datos
los datos
observados.
observados.
Las medidas
Las medidas
de tendencia
de tendencia

Tamao muestral para la comparacin de medias

Supongamos
quelos
se resultados
pretende
contrastar
la hiptesis
de
muestra
la muestra
sirven
sirven
tanto
tanto
para para
resumir
resumir
los resultados
observados
observados
comocomo
paranula
paraH0: 1 = 2 de igualdad de

1 2 enendos
conde una
medias
frente
la hiptesis
alternativa
bilateralAHdiferencias
1: A
laslos
frmulas
del apoblacionales
tamao
muestral
para
contrastar
losdistribuciones
niveles medios
rencias
inferencias
acerca
acerca
de
de
parmetros
los parmetros
poblacionales
correspondientes.
correspondientes.
variable cuantitativa a partir de dos muestras dependientes o independientes.
2
2
2
nacin
se describen
se describen
los principales
los principales
estimadores
tendencia
la tendencia
central
central
de una
de
estimadores
= la
de
. Segn
los
resultados
deluna
Apartado 6.3, la distribucin
igual
varianza
1 = 2de

9.3.1 Tamao muestral para la comparacin de medias en dos muestras independientes


muestral de la diferencia de medias x1 - x 2 en muestras independientes de tamao n1 y
Supongamos que se pretende contrastar la hiptesis nula H0: 1 = 2 de igualdad de medias
n2 ser
normal
con H
media
2- en
2 dos
= 0 bajo
H0 y 1 - con
0 bajovarianza
H1, y 12
edia
aritmtica
aritmticafrente
distribuciones
a la aproximadamente
hiptesis alternativa
bilateral
2 igual
1: 1 1
= 22 = 2. Segn los resultados del Apartado 6.3, la distribucin muestral de la diferencia de
2
tmtica,
a aritmtica,
denotada
denotada
por por
x 1, se
x define
se
define
suma
de
uno
de
unolos
den9.1).
de
y nPara
aproximadamente
normal con
medias
/n1muestras
+como
22 /como
n2laindependientes
=suma
la2(1/
n1 cada
+de
1/ncada
(Figura
una probabilidad
varianza
2) tamao
21, en
1los
2 serasegurar
media 1 2 = 0 bajo H0 y 1 2 0 bajo H1, y varianza 12/n1 + 22/n2 = 2(1/n1 + 1/n2) (Figura
strales
muestrales
dividida
dividida
porel
por
elasegurar
nmero
deunobservaciones
de
observaciones
Si denotamos
Si
9.1).
Para
una
probabilidad
de cometer
undenotamos
error
de tipo I,slo
la hiptesis
nula se rechazar
denmero
cometer
error
de tipo realizadas.
I, la realizadas.
hiptesis
nula
se rechazar
si el estadstico
slo si el estadstico
valor
observado
observado
para para
el sujeto
el sujeto
i-simo,
i-simo,
i = 1,i =
...,1,n,..., n,
ao
tamao
muestral
muestral
y pory xpor
i el x
i el valor
x1 x 2
x1 x 2
z1 /2
z1 /2
adra
vendra
dadadada
por por
11-/ n /21 + 11/ n/ n2 + 1 / n x1 -1x/ 2n1+z11- / /2n 2 1 / n + 1 / n .
x1 - x 2 -z

o, equivalentemente,
si la diferencia de medias
x...2 ++ x...n + x n
1 n 1 n x1 + x12 ++ si
o,
equivalentemente,
la diferencia
de medias
bajo
la
del test para detectar una diferencia
.
.la potencia
= x
= x i
= xxhiptesis
= x alternativa,
x As,
i

2 n z1
n i =1 n i =1 1
n /2 1 / n1 + 1 / n 2 x1 x 2 z1 /2 1 / n1 + 1 / n 2 .

subyacente
1 - 2 vendr
dada la
porpotencia del test para detectar una diferencia subyacente
As,
bajo la hiptesis
alternativa,
de
2tendencia
vendr
por ms
As,
bajocentral
ladada
hiptesis
alternativa,
potencia
del test para detectar una diferencia
edia
es laes
medida
la medida
de1tendencia
central
ms
utilizada
utilizada
y delayms
de ms
fcilfcil
8
=dada
P(
x1por
x 2 la
de
zla
1 / n1Su
+ 1 / n 2 | H1 )
1 de los
muestra.
de
2 vendr
datos
tacin.
n. Corresponde
Corresponde
al subyacente
centro
al centro
de gravedad
de
datos
los
de
1 muestra.
/2 Su
1 - gravedad

x1 extremos
x 2 extremos
z1 y,
1este
/en
n1 este
+ 1 / n 2 | H1 ).
P( valores
mitacin
l limitacin
es que
es est
que est
muymuy
influenciada
influenciada
por los
por+valores
los
/2 eny,
1 - = P( x1 - x 2 -z1- /2 1 / n1 + 1 / n 2 | H1 )

no
edeser
noun
serfiel
un reflejo
fiel reflejo
de lade
tendencia
la tendencia
central
central
de lade
distribucin.
la distribucin.
Asumiendo sin prdida de generalidad que 1 < 2 (Figura 9.1), la segunda probabilidad
+ P( x1 - x 2 z1- /2 1 / n1 + 1 / n 2 | H1 ).
H1: 1 2

H0: 1 = 2

x1 se
sea apreciablemente mayor
lasucesivos
expresin
anterior,
que representa
el evento
de que
lo
emplo
1.4 En
1.4este
En este
y ende
ylos
en
los sucesivos
ejemplos
sobre
sobre
estimadores
estimadores
muestrales,
muestrales,
~ejemplos
~se
x1 x2
N ( 1 2 , 2 (1 / n1 + 1 / n2 ))
x1 x2
N (0, 2 (1 / n1 + 1 / n2 ))
Asumiendo sin prdida de generalidad que 1 < 2 (Figura 9.1), la segunda probabilidad
rn
ilizarn
los valores
los valores
delque
colesterol
del xcolesterol
HDL
HDL
obtenidos
obtenidos
en los
en
los
primeros
10 primeros
sujetos
del
del a
virtualmente
cero.
La10
potencia
sesujetos
reduce
entonces
2 , ser
de la expresin anterior, que representa el evento de que x1 sea apreciablemente mayor
otudio
European
European
StudyStudy
on Antioxidants,
on Antioxidants,
Myocardial
Myocardial
Infarction
Infarction
and Cancer
and Cancer
of of
1 - = P( x1 - x 2 -z1- /2 1 / n1 + 1 / n 2 | H1 )
que x 2 , ser virtualmente cero. La potencia se reduce entonces a
east
e Breast
(EURAMIC),
(EURAMIC),
un estudio
un estudio
multicntrico
multicntrico
de casos
de casos
y controles
y controles
realizado
realizado
x x 2 ( 1 2 ) z1 / 2 1 / n1 + 1 / n 2 ( 1 2 )

P x1e1 -Israel

H
1 Europeos
- =Europeos
P(
x1e2- Israel
para
-z1- para
1evaluar
/ nel
+
1
/
n
|
H
)
tre
9911991
y 1992
y 1992
en ocho
en ocho
pases
pases
evaluar
efecto
el
efecto
de
los
de
los
/2
1
1
1
2
1/ n + 1/ n

1 / n1 + 1 / n 2
1
2

x x 2 ( 1 2 ) z1 / 2 1 / n1 +5 1 / n52 ( 1 2 )

= P 1
|
H1

, 1 / n1 + 1 / n 2
= z11/ 2/ n+1 + 1 / n12 /2 2
/2

1 / n1 + 1 / n 2

1 - 2
0

| 1 2 |
z
,
=

+
donde la ltima igualdad
de la distribucin normal de x1 - x 2 bajo la hiptesis
1 / 2se deriva
1z / n1+ 11//nn+2 1/ n
z1 / 2 1 / n1 + 1 / n2

1 / 2
1
2

2. Esta
expresin
alternativa.
Notar que sedealcanzara
mismo
resultado
si de1 >medias
Figura
9.1 Representacin
la potenciaeldel
contraste
bilateral
a partir
de dos
muestras
Figura
9.1
donde la ltima igualdad se deriva de la distribucin normal de x1 - x 2 bajo la hiptesis
independientes.
permite determinar a posteriori la potencia de un contraste para detectar una diferencia
alternativa. Notar que se alcanzara el mismo resultado si 1 > 2. Esta expresin
Pastor-Barriuso R.
n1 y
de medias subyacente 1 - 2 a partir de dos muestras independientes de tamaos
permite determinar a posteriori la potencia de un contraste para detectar una diferencia
n2.

143

+ P(
1 - x 2 z1- /2 1 / n1 + 1 / n 2 | H1 ).
continuacin
sexdescriben
los principales
continuacin
estimadores
se describen
de la tendencia
los principales
central deestimadores
una

Las medidas
Las medidas
de tendencia
de tendencia
central
central
informan
informan
acercaacerca
de cul
dees
cul
el valor
es el valor
ms rem
variable.
Asumiendo sin prdida de generalidad que 1 < 2 (Figura
9.1), la segunda probabilidad
de unadedeterminada
una determinada
variable
variable
o, dicho
o, dicho
de forma
de forma
equivalente,
equivalente,
estos estos
estimadore
estim
1.2.1 Media
aritmticael evento de que
1.2.1x1Media
aritmtica
sea apreciablemente
mayor
de la expresin anterior,
que representa
Asumiendo sin prdida de generalidad
que de
1 <
de
(Figura
9.1),
segunda
de
2 valor
alrededor
alrededor
qu
qu valor
se agrupan
se la
agrupan
los datos
losprobabilidad
datos
observados.
observados.
Laslamedidas
Las medidas
de tend
La
media
aritmtica,
denotada
por
La
media
aritmtica,
denotada
por
x
,
se
define
como
la
suma
de
cada
uno
x
,
de
se
los
define
como
expresin
anterior,
que
representa
el
evento
de
que
sea
apreciablemente
mayor
que
que x 2 , ser virtualmente cero. La potencia se reduce1 entonces a
2
ser virtualmente cero. La potencia
se reduce
a
central
central
de laentonces
de
muestra
la muestra
sirven
sirven
tanto tanto
para resumir
para resumir
los resultados
los resultados
observados
observad
co
valores muestrales dividida por el nmero
valores
demuestrales
observaciones
dividida
realizadas.
por el nmero
Si denotamos
de observa
1 = P( x1 x 2 z1realizar
1 /inferencias
n1 + 1inferencias
/ n 2 |acerca
H1 ) acerca
/2 realizar
de losdeparmetros
los parmetros
poblacionales
poblacionales
correspondientes
correspond
por n el tamao muestral y por xi el valor
por nobservado
el tamaopara
muestral
y pori-simo,
xi el valor
el sujeto
i = observado
1, ..., n, p
x x 2 ( 1 2 ) z1 / 2 1 / n1 + 1 / n 2 ( 1 2 )

aleatoriamente
hipertensos
al
de monoterapia
estndar
otros de la de
continuacin
continuacin
segrupo
describen
se describen
los principales
los principales
estimadores
tendencia
la tendencia
centrac
= P 501 pacientes

Hyestimadores
1

la media
por
la
media
vendra
dada
por
1 /vendra
n1 + 1 / ndada

1
/
n
+
1
/
n
2
1
2

50 pacientes de similares caractersticas


variable.
variable.al grupo de tratamiento combinado con el

| 1 2 |
z
x1 + x 2 + ... + x n
x + x2 + .
1 n
=
, 1 n

+
1
/
2

nuevo frmaco. Despus de


4
semanas
de
tratamiento,
la
media
y
la
desviacin
.
=
=
=
x
x
x
xi = 1

1
/
n
+
1
/
n
1
2aritmtica
1.2.1 1.2.1
Media
Media

aritmtica
n i =1
n
n i =1
n
tpica de la presin
arterial sistlica
fueron
155 y de
22 monoterapia
mm Hg en elestndar
grupo dey otros
aleatoriamente
50 pacientes
hipertensos
al grupo
La media
aritmtica,
aritmtica,
denotada
denotada
por xpor
se xdefine
se define
como
como
la suma
la suma
de cada
de uno
cadad
donde la ltima igualdad se deriva
deLalamedia
distribucin
normal
de
la hiptesis
1,
2, bajo
La media es la medida de tendencia central
La media
msesutilizada
la medida
y de
de ms
tendencia
fcil central ms ut
alternativa.
Notar que
se yalcanzara
si 1 > combinado.
2. combinado
Esta expresin
permite
monoterapia,
y 150
18 mm
Hgelenmismo
el grupo
de tratamiento
Como
50
pacientes
de
similares
caractersticas
al resultado
grupo
de tratamiento
con el
valores
valores
muestrales
muestrales
dividida
dividida
por
el
por
nmero
el
nmero
de
observaciones
de
observaciones
realizadas
Si d
donde
la
ltima
igualdad
se
deriva
de
la
distribucin
normal
de
x
x
bajo
la
hiptesis
1
2
determinar a posteriori la potencia de un contraste para detectar una diferencia de mediasrealizadas.
interpretacin. Corresponde al centro
interpretacin.
de gravedadCorresponde
de los datos de
al centro
la muestra.
de gravedad
Su
a la
partir
de dos
independientes
n2.
subyacente
frmaco.
paso previo
comparacin
medias,
contrastade
lalatamaos
igualdad
varianzas
1 2 a
1laydesviacin
nuevo
Despus
demuestras
4 de
semanas
desetratamiento,
media ynde
por
n
por
el
tamao
n
el
tamao
muestral
muestral
y
por
y
x
por
el
valor
x
el
valor
observado
observado
para el
para
sujeto
el sujeto
i-simo,
i-si
i
i
alternativa. Notar que se alcanzara el mismo resultado si 1 > 2. Esta expresin
principal limitacin es que est muy influenciada
principal limitacin
por los es
valores
que est
extremos
muy influenciada
y, en este por
mediante
estadstico
tpica
de 9.3
laelpresin
fueron
155 yla22eficacia
mm Hgantihipertensiva
en el grupo de de un nuevo
Ejemplo
En unarterial
ensayosistlica
para
evaluar
laclnico
media
la media
vendra
vendra
dada
por
dada por
permite
determinar
a
posteriori
la
potencia
de
un
contraste
para
detectar
una
frmaco en combinacin
conserununtratamiento
se asignaron
aleatoriamente
caso, puede no
fiel reflejo estndar,
de lacaso,
tendencia
puede
central
no ser un
de
fiel
ladiferencia
distribucin.
reflejo de50
la tendencia cent
2
monoterapia,
y
150
y
18
mm
Hg
en
el
grupo
de
tratamiento
combinado.
Como
2
pacientes hipertensos al grupo de monoterapia
estndar y otros 50 pacientes de similares
s
22muestras
1 - de
2 atratamiento
partir
independientes
de caractersticas
medias subyacente
1x y
=combinado
F = de12 dos
=
1,49,
+x
x1 + Despus
xx21 ++n...
x...
1 n frmaco.
1den tamaos
al grupo
con
el nuevo
2++de
n 4
2
. n.
=
=
=
=
x
x
x
x
18
s

i
i
2
Ejemplo
1.4
En
este
y
en
los
sucesivos
Ejemplo
ejemplos
1.4
sobre
En
este
estimadores
y
en
los
sucesivos
muestrales,
ejemplo
se
paso
previo
a
la
comparacin
de
medias,
se
contrasta
la
igualdad
de
varianzas
semanas de tratamiento, la media y la desviacin tpica de nlai =presin
arterial
n sistlica
n
1 n i =1
n2.fueron 155 y 22 mm Hg en el grupo de monoterapia, y 150 y 18 mm Hg en el grupo de
utilizarn
valores
HDL
utilizarn
obtenidos
los valores
en se
loscontrasta
10
delprimeros
colesterol
HDL obten
del
mediante
estadstico
tratamiento
combinado.
Como
paso
previo
acolesterol
la comparacin
de medias,
la sujetos
que bajo laeldistribucin
F
de los
Fisher
con
ndel
1 1 = 49 y n2 1 = 49 grados de
La
media
La
media
es
la
medida
es
la
medida
de
tendencia
de
tendencia
central
central
ms
utilizada
ms
utilizada
y
de
ms
y
de
fcil
ms
igualdad de varianzas mediante el estadstico
[Figura
9.1
aproximadamente
aqu]
estudio
European
Study
on Antioxidants,
estudio
Myocardial
EuropeanInfarction
Study on and
Antioxidants,
Cancer ofMyo
22P(F
libertad, corresponde
a un valor
P bilateral
49,49 1,49) = 20,082 = 0,164.
s12 22Corresponde
interpretacin.
interpretacin.
Corresponde
al
centro
al
centro
de
gravedad
de
gravedad
de
los
de
datos
los
datos
de la de
mues
la
F = 2 = 2 = 1,49,
s 2 18 un estudio the
(EURAMIC),
multicntrico
Breast
(EURAMIC),
de casos y controles
un estudio
realizado
multicntr
As, la comparacinthe
delBreast
nivel
medio
de
presin
arterial
sistlica
entre
ambos
principal
principal
limitacin
limitacin
es
queesest
quemuy
est influenciada
muy influenciada
por los
porvalores
los valores
extremos
extrey
9.3 En un ensayo
paranevaluar
la eficacia antihipertensiva de un
queEjemplo
bajo la distribucin
F de clnico
Fisher con
1 1 = 49 y n2 1 = 49 grados de libertad,
entremediante
1991 y 1992
en ocho
pases
Europeos
entre muestras
1991
e Israel
y 1992
paraenevaluar
ocho pases
el efecto
Europeos
de los e Is
grupos
la con
prueba
deun
t1,49)
1no
=Student
49
y reflejo
nfiel
1reflejo
49
de
que
bajopuede
la distribucin
decaso,
Fisher
n1ser
= un
20,082
==de0,164.
As,
la comparacin
corresponde
a realizarse
un valor PF
bilateral
2P(F
2 para
49,49
caso,
puede
puede
no
ser
fiel
la grados
de
tendencia
la tendencia
central
central
de la de
distribucin.
la distribuc
frmaco
en combinacin
con un tratamiento
se asignaron
del nuevo
nivel medio
de presin
arterial sistlica
entre ambosestndar,
grupos puede
realizarse mediante
independientes
asumiendo
igualdad
deindependientes
varianzas,
cuyo
estadstico
resulta
asumiendo
1,49)
= 20,082
= 0,164.
libertad,
a para
un valor
P bilateral
2P(F49,49
la
pruebacorresponde
t de Student
muestras
igualdad
de varianzas,
5
cuyo estadstico resulta
Ejemplo
Ejemplo
1.4 En1.4
este
Enyeste
en los
y ensucesivos
los sucesivos
ejemplos
ejemplos
sobresobre
estimadores
estimado
m
9
As, la comparacin del nivel
medio
de
presin
arterial
sistlica
entre
ambos
x1 x 2
155 150
t=
= utilizarn
=del
1,24,
utilizarn
los valores
los valores
colesterol
del colesterol
HDL HDL
obtenidos
obtenidos
en losen10los
primeros
10 prim
1
1
1
1
grupos puede realizarse mediante
la
prueba
t
de
Student
para
muestras
s
+
+
20,1
n1 nestudio
50European
50StudyStudy
2
estudio
European
on Antioxidants,
on Antioxidants,
Myocardial
Myocardial
Infarction
Infarction
and
independientes asumiendo igualdad
de
varianzas,
cuyo
estadstico
resulta
donde la varianza combinada es s2 = {(50 1)222 + (50 1)182}/(50 + 50 2) = 404.
the Breast
the Breast
(EURAMIC),
un2 estudio
undeestudio
multicntrico
multicntrico
de casos
de casos
y controle
y co
2 (EURAMIC),
(50
2 = -98
grados
Utilizando
la distribucin
t de es
Student
con
-n1)22
1)18
}/(50
+libertad,
50 - 2) =el valor P
donde la varianza
combinada
s2 = {(50
1 + n2 +
x1 x 2 = 0,216;
155
150 los resultados del estudio no aportan
esdecir,
bilateral es 2P(t98 1,24) = 20,108
1,24,
= entre
t=
entre
1991
1991
y 1992
y 1992
en=ocho
en ocho
pasespases
Europeos
Europeos
e Israel
e Israel
para evaluar
para evaluar
el efe
suficiente
evidencia
para afirmar
que
el
tratamiento
es
ms
2 = 98 grados
de eficaz que la
404. Utilizando
la distribucin
t
de
Student
con
1
1
1 n1 +
1 n2combinado
s
+
+
20,1
monoterapia.
n1 n 2
50 50
1,24) = 20,108
= 0,216; ambos
es decir,
los
libertad,
el valor
bilateral escabra
2P(t98preguntarse
A
partir de
estosPresultados
si en realidad
tratamientos
son

variable.
Determinacin del tamao muestral

igualmente eficaces o si, por el contrario,


el estudio
carece de
potencia suficiente para
2
2
2
resultados
del
estudio
no
aportan
suficiente
evidencia
para
afirmar
que
el - 2)en= trminos
donde
la
varianza
combinada
es
s
=
{(50
1)22
+
(50
1)18
}/(50
+ 50
detectar una diferencia que, aun siendo moderada o pequea, sea importante
clnicos. Si se considera clnicamente relevante una diferencia absoluta de |1 2| = 5
tratamiento
es mssistlica
eficaz
que
lacon
monoterapia.
grados
de
404.
Utilizando
la distribucin
t de Student
n 1 + n2 2 =
mm
Hg
en lacombinado
presin
arterial
media,
y asumiendo
un98
nivel
de significacin
=

144

A partir de
estos P
resultados
en realidad
ambos
tratamientos
20,108
= 0,216;
es decir,
los
libertad,
el valor
bilateral cabra
es 2P(tpreguntarse
98 1,24) = si

Pastor-Barriuso R.

son igualmente
eficaces
si, por el
contrario,
el estudio
carece
de potencia
resultados
del estudio
nooaportan
suficiente
evidencia
para
afirmar
que el

1
2
Por tanto, no
es sorprendente
que elsignificativa
estudio anterior
arrojara unreal
resultado
noHg.
detectaran
como
estadsticamente
una diferencia
de 5 mm

=diferencia
0,05 y una
desviacin
magnitud
= 20 mm
asumiendo
un nivel
de
significacin
significativo,
aunsorprendente
cuando
exista
subyacente
detpica
dicha
Por
tanto, no es
queuna
el estudio
anterior
arrojara
un
resultado
no de medias
Tamao
muestral
para
la comparacin
Hgentre
en ambos
la potencia para detectar dicha diferencia en un estudio con
ambosgrupos,
tratamientos.
significativo,
aun cuando exista una diferencia subyacente de dicha magnitud
0,05
tpica = 20 mm Hg en ambos grupos, la potencia para detectar
= 50desviacin
sera
n1 = ny2una
entre ambos tratamientos.
n2 = 50de
sera
dicha
diferencia
en
un
estudio
conenn1el= diseo
Como ilustra el ejemplo anterior,
un estudio es importante determinar

5
muestral
= anterior,
1el ejemplo
1,ser
96 +necesario
=estudio
(de
0,71)
0,239. para
a priori
tamao
en cada
grupo
comparacin
evitar la
Comoqu
ilustra
en el diseo
de un
es =importante
determinar
20 1 / 50 + 1 / 50

resultados
no 23,9%
concluyentes
poren
falta
degrupo
potencia.
Supongamos,
en el
casocomo
aobtencin
priori
qudetamao
muestral
ser necesario
cada
de comparacin
para
evitar
la
Es decir,
nicamente
un
de los estudios
con
este tamao
muestral detectaran

estadsticamente
significativa
unadediferencia
realcon
de 5este
mmtamao
Hg. Pormuestral
tanto, no es sorprendente
Es decir, nicamente
un 23,9%
los estudios
msque
general,
que
se
pretende
asignar
distinto
tamao
a
ambas
muestras
2 = kn
obtencin
de
resultados
no
concluyentes
por
falta
de
potencia.
Supongamos,
en1,eldonde
caso una
el estudio anterior arrojara un resultado no significativo, aunncuando
exista
diferencia
de dicha magnitud
entre ambos
tratamientos.
detectaransubyacente
como estadsticamente
significativa
una diferencia
real de 5 mm Hg.
k es un
nmero
prefijado.
A partir
detamao
la frmula
de la muestras
potencia ncon
2=
1, y
kn
donde
ms
general,
quepositivo
se pretende
asignar
distinto
a ambas
2 =n
1, kn
Como
anterior, que
en eleldiseo
deanterior
un estudio
es importante
determinar
a priori
Porilustra
tanto, el
noejemplo
es sorprendente
estudio
arrojara
un resultado
no
)
=
1

,
se
sigue
que
recordando
que
(z
=
kn
,
k
es
un
nmero
positivo
prefijado.
A
partir
de
la
frmula
de
la
potencia
con
n
1
1 y
qu tamao muestral ser necesario en cada grupo de comparacin para evitar la2 obtencin
de
resultados
no concluyentes
por falta
potencia.
Supongamos,
caso magnitud
ms general, que se
significativo,
aun cuando
existadeuna
diferencia
subyacenteendeeldicha
, se sigue
que n2|=kn1, donde
recordando
(z1-tamao
) = 1 - aambas
k es un nmero positivo prefijado.
pretende
asignarque
distinto
muestras
1
2 |
z1 con
= zn12=/ 2kn+1, y recordando
, que (z1) = 1 , se sigue que
A partir
de laambos
frmula
de la potencia
entre
tratamientos.
1
1
| + |
2
n1 1 kn
z1 = z1 / 2 +
1 ,
1 estudio
1
Como ilustra el ejemplo anterior, en el diseode un
es importante determinar
+
n1 kn1
de donde
puede despejarse
n1 para
obteneren cada grupo
a priori
qu tamao
muestral ser
necesario
de comparacin para evitar la
de donde puede despejarse n1 para obtener
de dondedepuede
despejarse
n1 para obtener
2
2 Supongamos, en el caso
obtencin
resultados
no concluyentes
de potencia.
(k + en
1por
)( la
z1falta
que corresponde
al tamao
necesario
y n2 = kn1 al de la segunda
primera
/ 2 + z 1muestra
)
n1 =
,
2
k ( tamao
1 2 )a ambas
2 muestras n2 = kn1, donde
msmuestra.
general,En
que
pretende
asignar
distinto
el se
caso
particular
de que
se
desee
un
mismo
muestral en ambos
(k + 1)( z1 / 2 + z1 ) 2 tamao
n
=
,
que corresponde al tamao necesario
en la primera muestra
y n = kn1 al de la segunda muestra.
1
kde
( la
2 ) 2 de la 2potencia
1 frmula
, y= 1, ste
k esgrupos
nmero
prefijado.
A partir
con ngrupos
2 = kn1k
En
eluncaso
de que
se desee
un mismo
tamao
muestral en ambos
kparticular
= 1,positivo
ste vendr
determinado
por
11
vendr determinado por
recordando que (z1-) = 1 - , se sigue que
2( z1 / 2 + z1 ) 2 2
11
n1 = n 2 =
.
2
( | 1 2 ) |
1
2
z1 = z1 / 2 +
,
La asignacin de igual tamao a ambas muestras
1 es,1 en general, ms eficiente ya que da
+ es,
lugar aLaunasignacin
menor tamao
totaltamao
del estudio.
No
obstante,
hayensituaciones
prcticas
en ya
lasque
que es
de igual
a ambas
muestras
general, ms
eficiente
n1 kn
1
preferible seleccionar muestras de distinto tamao, aun cuando ello conlleve un aumento de la
muestra
totalapara
alcanzar
la misma
tal esNo
el caso
de loshay
estudios
donde la
disponibilidad
da lugar
un menor
tamao
totalpotencia;
del estudio.
obstante,
situaciones
prcticas
en
de sujetos
donde puede
despejarse
n1 entre
para obtener
de
o los costes
difieren
los grupos, o cuando se requieren estimaciones ms precisas
en uno
de los
grupos. Adems
de estas
consideraciones,
el clculo
del tamao
las que
es preferible
seleccionar
muestras
de distinto en
tamao,
aun cuando
ellomuestral
conlleve para
la comparacin de medias es necesario determinar previamente
los siguientes elementos:
(k + 1)( z1 / 2 + z1 ) 2 2
un
aumento
de
la
muestra
total
para
alcanzar
la
misma
potencia;
tal es ellacaso
de los
n1 = del contraste bilateral,
,
yy El nivel de significacin
que
representa
probabilidad
de
2
k ( )
rechazar errneamente la hiptesis nula1 y se2establece usualmente en = 0,05.
estudios donde la disponibilidad de sujetos o los costes difieren entre los grupos, o
yy La potencia 1 del contraste, que determina la probabilidad de detectar hiptesis
alternativas
ciertasestimaciones
y se fija habitualmente
en en
1 uno
=de
0,80
0,90. Adems de estas
cuando
se requieren
ms precisas
losgrupos.
11
2
yy La varianza poblacional . En la determinacin del tamao muestral suele asumirse que
consideraciones,
en el clculo
del tamao
muestral
la comparacin
de medias
es
la varianza es comn
para ambos
grupos,
ya que para
generalmente
se carece
de informacin
previa suficiente para determinar una varianza especfica en cada uno de los grupos.
necesario determinar previamente los siguientes elementos:
yy La diferencia mnima detectable |1 2|. El tamao muestral ser tanto mayor cuanto
menor
sea la diferencia que se pretende detectar. La magnitud de esta diferencia debe ser
El nivel de significacin del contraste bilateral, que representa la probabilidad

de rechazar errneamente la hiptesis nula y se establece usualmente en = 0,05.

Pastor-Barriuso R.

La potencia 1 - del contraste, que determina la probabilidad de detectar

145

= 0,80 para detectar posibles diferencias de dicha magnitud. Asumiendo que se


potencia suficiente para detectar una diferencia subyacente de 5 mm Hg en la

pretende
asignar
el mismo
Determinacin
del tamao
muestral

nmero de pacientes a ambos brazos del ensayo


presin arterial sistlica media de los hipertensos bajo monoterapia y tratamiento

clnico, un nivel de significacin = 0,05 y una desviacin tpica = 20 mm Hg


combinado, se planea realizar un nuevo ensayo clnico que tenga una potencia 1 un valor plausible basado en conocimientos previos, o bien relevante desde el punto de
similar
a la del
estudio anterior, el tamao muestral necesario en cada uno de los
vista
clnico
epidemiolgico.
= 0,80
parao detectar
posibles diferencias de dicha magnitud. Asumiendo que se

grupos
sera
Ejemplo
9.4 Dado
que elnmero
estudiodedescrito
en aelambos
ejemplo
anterior
careca de potencia
pretende asignar
el mismo
pacientes
brazos
del ensayo
suficiente para detectar una diferencia subyacente de 5 mm Hg en la presin arterial
2
2
2
sistlica
media
hipertensos
tratamiento
se planea
zsignificacin
2(los
bajo
= 0,05
tpica combinado,
= 20 mm Hg
clnico, un
niveldede
2monoterapia
(1,y96una
+ 0desviacin
,84)y2 20
0 , 975 + z 0 ,80 )
=
n
=
251,
n
=
1 nuevo
2
realizar un
ensayo clnico2 que tenga una potencia
1 ==250,88
0,80 para
detectar posibles
2
( 1 2 )
5
diferencias
magnitud.
que se pretende
asignar
el uno
mismo
nmero de
similar a la de
deldicha
estudio
anterior,Asumiendo
el tamao muestral
necesario
en cada
de los
pacientes a ambos brazos del ensayo clnico, un nivel de significacin = 0,05 y una
desviacin
tpica total
= de
20 251
mm+Hg
la del estudio
anterior,por
el el
tamao muestral
para
unasera
muestra
251similar
= 502 apacientes.
Supongamos,
grupos
necesario en cada uno de los grupos sera
contrario, que el tratamiento combinado
con el nuevo 2frmaco
es muy costoso y
que se dispone de n pares de observac
2( z 0,975 Para
) 2 2 2el(1problema,
+ z 0,80concretar
,96 + 0,84)supongamos
20 2
n1 = n2 =
=
250,88
251,
=
2
52
2 ) de
que se decide estudiar( la1 mitad
sujetos bajo tratamiento
combinado que bajo
de una variable aleatoria continua. En cada pareja de datos dependientes, una
9.3.2 Tamao muestral para la comparacin de medias en dos muestras
para una muestra
total esto
de 251
= 502
pacientes.
por el contrario, que
= 0,5n
tal caso, Supongamos,
el tamao muestral
monoterapia
estndar;
es, +n2251
1. En
laSupongamos,
primera
yella
otra observacin
x2 a la segu
x1=corresponde
para
una muestra
totalobservacin
de 251
502
pacientes.
porse
el
tratamiento
combinado
con +el251
nuevo
frmaco
esamuy
costosomuestra
y que
decide
estudiar
dependientes
la mitad de
bajo
que bajo monoterapia estndar; esto es,
necesario
ensujetos
el grupo
de tratamiento
monoterapiacombinado
sera
9.3.2
Tamao
muestral
para
lacombinado
comparacin
de
medias
en
muestras
que
el
tratamiento
con
elcentra
nuevo
frmaco
es
muy
costoso
y sera
muestra.
El muestral
objetivo
se
enen
comparar
las
medias
poblacionales
1 y 2 a par
=
0,5n
.
En
tal
caso,
el
tamao
necesario
el dos
grupo
de
monoterapia
ncontrario,
2
1
Supongamos
que se planea seleccionar n parejas de datos dependientes procedentes de
2
dependientes
(0,mitad
5 +dos
1)(1de
,96sujetos
+ 0,84dependientes.
) 2 20tratamiento
que se decide estudiarestas
la
bajo
combinado que bajo
muestras
=
=376,32
377a la hiptesis
n
1
2
:
=

frente
dos poblaciones para contrastar la hiptesis
nula
H
0
1
2
0,5 5
Supongamos
queestndar;
se planeaesto
seleccionar
n parejas
de caso,
datos el
dependientes
procedentes
tal
tamao
monoterapia
es,procedimientos
n2 = 0,5n
Los
en el muestral
Apartado
6.3 node
pueden aplicarse a est
1. En desarrollados
y
en
el
grupo
de
tratamiento
combinado
n
=
0,5376,32
=
188,16

189.
El
nmero
en el Apartado 6.4, la media de las total
alternativa bilateral H1: 1 2. Como se discuti
2
de
pacientes
necesarios
para
el
estudio
sera
entonces
+ 189
= no
566;
decir, 64
= 0,5376,32
188,16
189.
El
en el grupo
degrupo
tratamiento
combinado
nnula
2=377
frente
a la
hiptesis
dosynecesario
poblaciones
para
contrastar
la hiptesis
H0: de
2 medias
en el
de
monoterapia
situacin,
ya quesera
las
muestras
sonesindependientes
por proven
1 =ambas
pacientes
ms
de
los
requeridos
en
el
caso
de
igual
tamao
muestral
para
alcanzar
una
diferencias en cada pareja d se distribuir de forma aproximadamente normal N(0,
misma potencia.
nmero
total de pacientes
necesarios
para
el2 estudio
sera
377
+ 189
correlacionadas.
Sin entonces
embargo,
lamedia
comparacin
discuti
en
6.4, la
de=las se simplifica notabl
alternativa
bilateral
H1: observaciones
1
2. Como se
2 el Apartado
(
0
,
5
+
1
)(
1
,
96
+
0
,
84
)
20
376,32
377 de las diferencias.
d2 /n) bajo H0 y N(1n1- =2, d2 /n) bajo
H12, donde d2= es
la varianza
0
,
5

5
566;
es
decir,
64
pacientes
ms
de
los
requeridos
en
el
caso
de
igual
tamao
si
se
calculan
las
diferencias
d
=
x
x
cadanormal
unadependientes
deN(0,
las n observaciones empar
1 dos
2 en
diferencias
en muestral
cada pareja
d se
distribuir de forma
aproximadamente
9.3.2
Tamao
para
la comparacin
de medias
en
muestras

preestablecido,
el contraste
arrojar
un resultado
Para
un nivelpara
de significacin
muestral
alcanzarPor
unaun
misma
potencia.
2
lado,
distintas
parejas
no estn
relacionadas
Supongamos
que
nHparejas
de datos
dependientes
procedentes
deentre
dos s, estas diferen
d2 y/n)enbajo
H0 yseN(
tratamiento
d2 /n)
bajocomo
de
las
diferencias.
= 188,16
189.
El
el grupo
deplanea
combinado
nlas
1 - 2,seleccionar
1, donde
2 = 0,5376,32
d es la varianza
poblaciones para contrastar la hiptesis nula H0: 1 = 2 frente a la hiptesis alternativa bilateral
cuando
la media
deApartado
las diferencias
: 1 nmero
. Como
se discuti
en independientes.
el
6.4, el
la estudio
media
de
lasladiferencias
en+diferencias
cada
H1significativo
son
Por
otro lado,
media de377
las
coincide con la
total
pacientes
necesarios
para
sera
entonces
189pareja
= 13 d se
preestablecido,
el contraste
arrojar
un resultado
Para un2 nivel
de de
significacin
2
2
distribuir de forma aproximadamente normal N(0, d /n) bajo H0 y N(1 2, d /n) bajo H1,
varianza
las
Para
significacin
preestablecido, el
donde
d2 esesladecir,
ddiferencia
diferencias.
-z
de
/medias
nrequeridos
un
dmuestrales,
nivel
z1-en
dcaso
/ n de
. igual tamao
566;
64 pacientes
ms
el
1-las
/2de
dlos
/2de
significativo
cuando
lademedia
de
diferencias
contraste arrojar un resultado significativo cuando la media de las diferencias
muestral para alcanzar una misma potencia.
1 n , la potencia
1 n
Por tanto, asumiendo como
apartado anterior que
=d1 /<
x i 2detectar
)
d en
n2d. i = ( x i1para
zel
1/2 d / n d z1d/2
n i =1
n i =1
13 una
Por
tanto,
asumiendo
como en
anterior que 1 igual
< 2n, ala potencia
para detectar
2apartado
ser aproximadamente
una
diferencia
de medias
n
1 -el
1
1
Por tanto,
enaproximadamente
el apartado anterior
quea=1 < 2,xla
2 ser
igual
diferencia
deasumiendo
medias 1 como
= x1detectar
x2
i1 potencia
xi 2para
n i =1
n i =1
= P( d 1 -
z12ser
/ n | H1 )
medias
igual a
una diferencia1de
/2 d aproximadamente

146

dy,en( consecuencia,
de la diferencia de medias
z1d / es
2)
n ( 1 insesgado
d / estimador
2 un
1 2 )

= P
H1

1 - = P(d -zd 1-//2


d / n
n d / n | H1)

poblacionales 1 - 2. As, el problema de la comparacin de medias en dos mues

| |

= d z1(/ 12 + 2 )1 2z1 ./ 2 d / n ( 1 2 )

/ n reducido
= P dependientes
H1
queda
a
una
simple
inferencia
sobre la media de una nica

/ n d

d / n
d

muestra de n diferencias independientes.

| 1 2 |
Pastor-Barriuso R.
+
.
= z1Los
/ 2 mtodos del Apartado
6.2.1 para la media de una muestra pueden entonces

/ n que
Como por definicin (z
1-) = 1 - ,sed sigue

utilizarse para calcular un intervalo de confianza al 100(1 - )% para 1 - 2 com


| 2 |
.
= z1 / 2 + 1

d / n
Tamao muestral para la comparacin de medias

( z1 / 2 + z1 ) 2 d2
n=
.
( 1 que
2) 2
Como por definicin (z1-) = 1 - , se sigue
+ z1 ) 2 d2
z1 / 2que
Como por definicin (z1) = 1 , se (sigue
n=
.
( 1 directamente
2) 2
En la prctica, resulta difcil determinar
| 2 | la varianza de las diferencias
z1 = z1 / 2 + 1
,
d / n
2
dEnyalaque
los datos
de una
misma
pareja estn
correlacionados.
Asumiendo
igual
prctica,
resulta
difcil
determinar
directamente
la varianza
de las diferencias
de donde puede despejarse n para obtener el nmero mnimo de parejas que sern necesarias
2 donde puede
2
despejarse
nmisma
para obtener
el
nmero
mnimo
de
que
estn
unade
potencia
1 parejas
, entre
parade
detectar
subyacente
1 coeficiente
2 concorrelacionados.
varianza
los
datos
depoblaciones
una
pareja
Asumiendo
igual
una
endiferencia
ambas
y un
correlacin
lossern
valores de
d ya que
2
2
( z1 / 2 + z1 ) d
1 -determinada
. 2 con una potencia
1 -resultados
,
necesarias
detectar
una diferencia
subyacente
2para
=
n
una
misma
pareja,
la
varianza
de
las
diferencias
viene
segn los
coeficiente
varianza en ambas poblaciones y un
( ) 2 de correlacin entre los valores de
1

dellaApartado
3.4
por
En
prctica,
resulta
difcil determinar
directamente
varianza de segn
las diferencias
d2 ya que
una
misma
pareja,
la varianza
de las diferencias
vieneladeterminada
los resultados
2
En la
resulta
difcil
determinar
directamente
la varianza
las diferencias
los datos
deprctica,
una misma
pareja
estn
correlacionados.
Asumiendo
igualdevarianza
en ambas
2
2
2
2
2
poblaciones
y un3.4
coeficiente
de correlacin
entre los valores de una misma pareja, la varianza
del Apartado
por
14
d = + - 2 = 2 (1 - ).
de las
viene de
determinada
resultados
del Apartado
3.4 por igual
d2 diferencias
ya que los datos
una mismasegn
parejalos
estn
correlacionados.
Asumiendo
2
2
2
2
2
d = + 2 = 2 (1 ).
2
As,
el
nmero
de
parejas
necesarias
tambin
puede
expresarse
como
entre los valores de
varianza en ambas poblaciones y un coeficiente de correlacin
As, el nmero de parejas necesarias tambin puede expresarse como
2
2expresarse
As, misma
el nmero
de parejas
necesarias
tambin
puede
como
una
pareja,
la varianza
de 2las
viene
determinada
segn los resultados
( z1diferencias
/ 2 + z1 ) (1 )
n=
( 1 2 ) 2
del Apartado 3.4 por
2( z1 / 2 + z1 ) 2 2 (1 )
n=
que, adems
de
los parmetros
descritos
en
depende
de la correlacin
ensayo
clnico
emparejado
donde,
enel
distintos
pacientes
a ambos entre
(lugar
apartado
de
2 asignar
) 2anterior,
2 en1 el 2apartado
2 anterior, depende de la
que,
adems
de
los
parmetros
cada pareja de datos. Si el emparejamiento
que est prximo a 0, el
2 =descritos
2 + no
- es
2efectivo,
= 2 de
(1tal
- forma
).
d

nmero
de parejas
necesarias
un estudio
aproximadamente
igual al nmero
grupos,
cada
paciente
espara
sometido
a laSiemparejado
monoterapiaser
estndar
durante
un primer
correlacin
entre
cada
de
datos.
no
es efectivo,
que,
adems
de
lospara
parmetros
descritos
enelelemparejamiento
apartado
anterior,
depende
de sujetos
por grupo
unpareja
estudio
con
muestras
independientes
(notar
que side la
=de0,tal
la frmula
As,
el
nmero
de
parejas
necesarias
tambin
puede
expresarse
como
anterior
se reduce
la obtenida
el caso de muestras
independientes
mismodurante
tamao). Si, por
periodo
de 4a semanas
y alentratamiento
combinado
con el nuevodel
frmaco
est prximo
a 0,es
elefectivo,
nmero
necesarias
un estudio
forma queel entre
correlacin
cada pareja
de
datos.
Side
el parejas
emparejamiento
nopara
es efectivo,
de tal
el contrario,
emparejamiento
los
datos de
cada pareja
estarn
correlacionados
2
2
positivamente
y, enperiodo
consecuencia,
ser
inferior
un segundo
de igualelduracin.
asume
que
la )desviacin tpica
de la al nmero
2nmero
( z1 / 2 de
+Sezparejas
(1 substancialmente
1 ) de
emparejado
aproximadamente
al nmero
sujetos bajo
por
grupo
para un
estudio
de forma
sujetos
requeridos
en cadaagrupo
deigual
un estudio
independiente
las
mismas
condiciones.
ser
est prximo
0,n el
de
parejas
necesarias
para
un
estudio
que
= nmero
(1 2 ) 2
presin arterial sistlica bajo ambos tratamientos es 20 mm Hg, y que el
=comparabilidad
0, la de
frmula
anterior
sepacientes
reduce
a hipertensos
la
conEjemplo
muestrasser
independientes
que sialla
emparejado
aproximadamente
igual
nmero
sujetos
por
grupo
para un
estudio
9.5
Con objeto (notar
de asegurar
de los
bajo
monoterapia
y tratamiento
combinado,
decide disear
undepende
ensayo
clnico
emparejado
coeficiente
correlacin
entre
las determinaciones
tomadas
en
un mismo
que,
adems
dedelos
parmetros
descritos
en el se
apartado
anterior,
de lasujeto
obtenida
en
el
caso
de
muestras
independientes
del
mimo
tamao).
Si,
por
el
contrario,
en lugar
de asignar (notar
distintos
grupos,
cada
frmula
anterior
se paciente
reduce aes
la sometido
condonde,
muestras
independientes
quepacientes
si = 0, alaambos
a
la
monoterapia
estndar
durante
un
primer
periodo
de
4
semanas
y
al
tratamiento
con un intervalo
de 4pareja
semanas
es aproximadamente
0,50. Para
unade tal
correlacin
entre cada
de datos.
Si el emparejamiento
no esdetectar
efectivo,
el emparejamiento
efectivo,
los
datos
de cada
pareja
estarn
correlacionados
combinado
frmaco
durante
un segundo
periodo
de igual
duracin.
Se asume
obtenida
en el con
casoeles
denuevo
muestras
independientes
del
mimo
tamao).
Si, por
el contrario,
que
la
desviacin
tpica
de
la
presin
arterial
sistlica
bajo
ambos
tratamientos
es
diferencia
subyacente
5 mm
Hg en de
la presin
sistlica
media
al final de20 mm
prximode
a 0,
el nmero
parejas arterial
necesarias
para un
estudio
forma
que est
positivamente
y,
en
consecuencia,
el
nmero
de
parejas
ser
substancialmente
inferior
Hg, y que el coeficiente
de correlacin
determinaciones
tomadas en
un mismo
el emparejamiento
es efectivo,
los datos deentre
cada las
pareja
estarn correlacionados
sujeto
con
un
intervalo
de
4
semanas
es
aproximadamente
0,50.
Para
detectar
ambos tratamientos
con una potencia
0,80 y undenivel
de significacin
deun
0,05,
emparejado
ser aproximadamente
igual de
al nmero
sujetos
por grupo para
estudiouna
al
nmero
de
sujetos
requeridos
en
cada
grupo
de
un
estudio
independiente
bajo
las
diferencia subyacente
de 5 mm Hg
en la presin
arterial
media al final
de ambos
positivamente
y, en consecuencia,
el nmero
de parejas
sersistlica
substancialmente
inferior
tratamientos
con
una
potencia
de
0,80
y
un
nivel
de
significacin
de
0,05,
el
nmero
de
elmuestras
nmero de
sujetos necesarios
este
sera se reduce a la
= 0, laemparejado
frmula anterior
con
independientes
(notaren
que
si estudio
mismas
condiciones.
parejas necesarias
sera
al nmero
de sujetos requeridos
en cada grupo de un estudio independiente bajo las

obtenida en el caso de muestras


2(1,96 + independientes
0,84) 2 20 2 (1 0del
,50)mimo tamao). Si, por el contrario,
mismas condiciones.
126;pacientes
n
=
= 125,44de
los
Ejemplo 9.5 Con objeto de asegurar
la comparabilidad
52
el emparejamiento es efectivo, los datos de cada pareja estarn correlacionados
es decir,
la mitad
demonoterapia
los sujetos
que
seran
necesarios
en de
cada
uno
dedisear
los grupos
hipertensos
y tratamiento
combinado,
selos
decide
un de un
Ejemplo
9.5bajo
Con
objeto
de asegurar
la comparabilidad
pacientes
es decir,nolaemparejado
mitad
de los(Ejemplo
sujetos el
que
seran de
necesarios
en cada
uno de los grupos
de
positivamente
y, en consecuencia,
nmero
parejas ser
substancialmente
inferior
diseo
9.4).
hipertensos bajo monoterapia y tratamiento combinado, se decide disear un
un
diseo
emparejado
9.4).
al
de no
sujetos
en cada
grupo
de un estudio
lasmuestras
15
Lanmero
determinacin
del requeridos
tamao (Ejemplo
muestral
para
la comparacin
de independiente
medias en ms bajo
de dos
dependientes o independientes sigue argumentos similares a los descritos en este apartado. No
mismas condiciones.
La determinacin del tamao muestral para la comparacin de medias en ms de dos 15
Pastor-Barriuso R.

muestrasEjemplo
dependientes
o independientes
siguelaargumentos
similares
a los
descritos en
9.5 Con
objeto de asegurar
comparabilidad
de los
pacientes

147

aproximacin
la frmulas
distribucin
muestral
de una proporcin
y, en consecuencia,
en el Apartadonormal
9.2.2, alas
descritas
a continuacin
se fundamentan
en la

(1 - ) 5 muestral
en ambosdegrupos
de comparacin.
En las
sern
vlidas
siempre
aproximacin
normal
a landistribucin
una proporcin
y, en consecuencia,
Determinacin
del tamao
muestralque
referencias
de siempre
este temaque
pueden
otros mtodos
alternativos
de clculo
) 5 en ambos
grupos de
comparacin.
En las del
sern vlidas
n(1 -consultarse
obstante, para preservar la incertidumbre global del proceso de inferencia, es necesario utilizar
tamao
muestral
particularmente
tiles para laotros
comparacin
de proporciones
muy del
referencias
de este
tema
pueden
consultarse
mtodos
de clculo
tcnicas
de correccin
por las
mltiples
comparaciones
que se alternativos
pretendan realizar
en el anlisis
(por ejemplo, un ensayo clnico en el que se comparan varios tratamientos frente a placebo). Estos
extremas
en muestras
reducidas. tiles para la comparacin de proporciones muy
tamao
muestral
particularmente
mtodos
pueden
consultarse
en los libros de tamao muestral referenciados al final del tema.

extremas
en muestras
reducidas.
9.4.1
Tamao
muestral
para la comparacin de proporciones en dos muestras
9.4 TAMAO MUESTRAL PARA LA COMPARACIN DE PROPORCIONES
independientes
9.4.1 Tamao muestral para la comparacin de proporciones en dos muestras
En esta seccin se aborda el problema de la determinacin del tamao muestral en estudios
observacionales
o ensayos
donde
se pretende
diferencias
entre proporciones
El
propsito se
centra enclnicos
contrastar
la hiptesis
nulacontrastar
de igualdad
de proporciones
independientes
a partir de dos muestras dependientes o independientes. Al igual que en el Apartado 9.2.2, las
frmulas
descritas
sea fundamentan
en
la aproximacin
distribucin
: continuacin
1 = en
2 frente
la la
hiptesis
alternativa
bilateral de
Hnormal
: 1 a2laa partir
de
poblacionales
Ha0centra
El propsito
se
contrastar
hiptesis
nula
de igualdad
1proporciones
muestral de una proporcin y, en consecuencia, sern vlidas siempre que n(1 ) 5 en
ambos
grupos deindependientes
comparacin.
En
este tema bilateral
pueden
7.3consultarse
se1:desprende
quemtodos
lade
dos
muestras
delas
tamaos
n1 y nde
a referencias
la hiptesis
alternativa
H
1 2otros
a partir
poblacionales
H0: 1 = 2 frente
2. Del Apartado
alternativos de clculo del tamao muestral particularmente tiles para la comparacin de
proporciones
muy
extremas enmuestrales
muestras
reducidas.
una distribucin
diferencia
de
proporciones
p1 -np12yseguir
n2. Delaproximadamente
Apartado 7.3 se desprende
que la
dos muestras
independientes
de tamaos
(1
- )(1/npara
bajo H
1 -proporciones
2, aproximadamente
1(1 - 1)/n
2(1
- distribucin
normal
N(0,demuestral
una
diferencia
proporciones
muestrales
p10 -ypN(
1 + 1/n
2)/n2) bajo
2 seguir
9.4.1
Tamao
la2))
comparacin
de
en1 +
dos
muestras
independientes
(11-1)(1/n
1/n
y N(1 - 2,combinada
1(1 - 1)/nque
2(1
- 2)/n
N(0,
=(n
+ n212+
)/(n
la0proporcin
asume
comn
a
Hnormal
2))nbajo
1 + se
2) bajo
1, donde
1+
2) es H
El propsito se centra en contrastar la hiptesis nula de igualdad de proporciones poblacionales
donde
=bajo
(na1la
nEl2contraste
+ n2resultar
) es la proporcin
que
seasume
comn
a
H11, =
significativo
un
cuando
lamuestras
H
grupos
bilateral
Hcombinada
partir
de dos
H0:ambos
1+
2)/(n1 alternativa
0.hiptesis
2 frente
1: para
1
2 anivel
independientes de tamaos n1 y n2. Del Apartado 7.3 se desprende que la diferencia de
pcontraste
una distribucin
N(0,la(1 )
proporciones
muestrales
diferencia
de
proporciones
muestrales
resultar significativo
para un nivelnormal
cuando
ambos grupos
bajo Hp0.1 El
2 seguir aproximadamente
(1/n1 + 1/n2)) bajo H0 y N(1 2, 1(1 1)/n1 + 2(1 2)/n2) bajo H1, donde = (n11 + n22)/
n2) es la proporcin
combinada
que se asume comn a ambos grupos bajo H0. El contraste
(n1 +diferencia
de proporciones
muestrales
p

-z
(la
1 diferencia
)(1 / n1 +de
1 /proporciones
n2 )
p
1
2
1- /2
resultar significativo para un nivel cuando
muestrales

p1 p2 z1 /2 (1 )(1 / n1 + 1 / n 2 )

o
o

p1 p2 z1 /2 (1 )(1 / n1 + 1 / n 2 ) .

As, asumiendo sin prdida de


21, /lan1potencia
detectar una diferencia
- p2 z1-/2 que
(11 <
)(
+ 1 / n 2 ) para
.
p1generalidad
As,
asumiendo
sin
prdida
de
generalidad
que

<

,
la
potencia
para
detectar una
1
2
de proporciones subyacente 1 2 vendr determinada por

As, asumiendo
de generalidad
1 < determinada
para detectar una
1 - que
diferencia
subyacente
2, la potenciapor
2 vendr
proporciones
1de
= sin
P( pprdida
1 p2 z1 /2 (1 )(1 / n1 + 1 / n 2 ) | H1 )

psubyacente
diferencia de proporciones
1 p 2 (
1 1-22 )vendr determinada por
= P
(1 ) / n + (1 ) / n
1
1
2
2
2
1

z1 / 2 (1 )(1 / n1 + 1 / n 2 ) ( 1 2 )

1 (1 1 ) / n1 + 2 (1 2 ) / n 2

H1

| 2 | z1 / 2 (1 )(1 / n1 + 1 / n 2 )
.
= 1

1 (1 1 ) / n1 + 2 (1 2 ) / n 2

148

Pastor-Barriuso
R.
Si las limitaciones

prcticas determinan de antemano el tamao muestral disponible

para un estudio o si el estudio ya ha sido llevado a cabo, la frmula anterior permitir

17
17

Tamao muestral para la comparacin de proporciones

Si las limitaciones prcticas determinan de antemano el tamao muestral disponible para un


estudio o si el estudio ya ha sido llevado a cabo, la frmula anterior permitir calcular la potencia
estadstica que tendra dicho estudio con la muestra disponible para detectar diferencias de una
determinada magnitud.
Ejemplo 9.6 Se planea realizar un estudio de cohortes para evaluar la asociacin entre
el =
uso
de anticonceptivos
de cncer
de (vase
mama Apartado
en mujeres2.4),
entre
0,00750.
Aplicando laorales
regla ydeellariesgo
probabilidad
total
la 40 y 49
aos. Para ello, se dispone de una cohorte de 6.000 mujeres en este rango de edad sin
evidencia
cncer
de mama,combinada
que sern seguidas
un en
periodo
decohorte
5 aos para
relacinbasal
entrede
esta
probabilidad
de cncerdurante
de mama
toda la
determinar casos incidentes de la enfermedad. Se estima que un 40% de estas mujeres han
utilizado
regularmente especficas
anticonceptivos
oralesdeyexposicin
que la tasavendr
de incidencia
y las probabilidades
por grupo
dada porde cncer de
mama en este grupo de edad es de I = 150 casos por 100.000 personas-ao. Para un nivel
de significacin = 0,05, cul sera la potenciacde este estudio
para detectar un hipottico
c

=
P(D)
=
P(E)P(D|E)
+
P(E
)P(D|E
)
aumento del riesgo de cncer de mama del 50% entre las usuarias de anticonceptivos
orales?
= 0,40 1 + 0,60 2 = 0,401,50 2 + 0,60 2 = 1,20 2 ,
Asumiendo
una tasa delaincidencia
en los
5 aos
deApartado
seguimiento,
= 0,00750. Aplicando
regla de laconstante
probabilidad
total
(vase
2.4),lalaincidencia
acumulada o probabilidad de desarrollar un cncer de mama en esta cohorte durante los
ya queentre
se
que aproximadamente
un 40% de
las mujeres
son
usuarias
de anticonceptivos
=
Aplicando la
prximos
5 estima
aos
de
= IA
5 = 0,001505
relacin
estasera
probabilidad
combinada
cncer
de mama
en0,00750.
toda la cohorte
regla de la probabilidad total (vase Apartado 2.4), la relacin entre esta probabilidad
detoda
padecer
un
cncer
devendr
mama dada
entrepor
lasespecficas
usuarias es por
orales
y que
la probabilidad
combinada
de cncer
de mama1por
en
lade
cohorte
y las
probabilidades
y las
probabilidades
especficas
grupo
exposicin
grupo de exposicin vendr dada por
As, la probabilidad de
un 50% superior a la probabilidad 2 entre clas no usuarias.
c
= P(D) = P(E)P(D|E) + P(E )P(D|E )

desarrollar un cncer
mama en los 5 aos de seguimiento sera 2 = /1,20 =
= 0,40de
1 + 0,60 2 = 0,401,50 2 + 0,60 2 = 1,20 2 ,
ya0,00750/1,20
que se estima=que
un 40%
de las mujeres
sonyusuarias
deanticonceptivos
y que
1 = 1,50
=
0,00625
entre
no usuarias
2 = 1,500,00625orales
la
de padecer
de mama
entre lasde
usuarias
es un 50% superior a
yaprobabilidad
que se estima1que
un 40% un
de cncer
las mujeres
son usuarias
anticonceptivos
entre
las
no
usuarias.
As,
la
probabilidad
de
desarrollar
cncer de
la 0,00938
probabilidad

2
entre las
usuarias de anticonceptivos orales. Como se espera que un
n1 =
/1,20 de
= 0,00750/1,20
= 0,00625
mama
los la
5 aos
de seguimiento
sera un
2 = cncer
1 de padecer
mama entre las
usuariasentre
es las
orales en
y que
probabilidad
= 1,50
=
1,500,00625
=
0,00938
entre
las
usuarias
de
anticonceptivos
no0,406.000
usuarias y =12.400
2
mujeres
de la muestra sean usuarias de estos anticonceptivos y
orales. Como se espera que n1 = 0,406.000 = 2.400 mujeres de la muestra sean usuarias
un 50% superior a la probabilidad 2 entre las no usuarias. As, la probabilidad de
= 0,606.000
= 3.600denoeste
usuarias,
potencia
delas
estos
anticonceptivos
y las restantes
n2 usuarias,
= 3.600 no
la potencia
estudiolasera
restantes
n2 = 0,606.000
de este estudio sera
desarrollar un cncer de mama en los 5 aos de seguimiento sera 2 = /1,20 =
| 0,00938 0,00625 | 1,96 0,00750(1 0,00750)(1 / 2.400 + 1 / 3.600)

0,00750/1,20
1 = = 0,00625 entre las no usuarias y 1 = 1,502 = 1,500,00625 =

0
,
00938
(
1

0
,
00938
)
/
2
.
400
+
0
,
00625
(
1

0
,
00625
)
/
3
.
600

0,00938 entre las usuarias de anticonceptivos orales. Como se espera que n1 =


0,00313 1,96 0,00227
=
= ( 0,56) = 0,287;
0
,
00237

sean usuarias de estos anticonceptivos y


0,406.000 = 2.400 mujeres de la muestra

es decir, la probabilidad de detectar un hipottico incremento del riesgo de cncer de


las restantes n = 0,606.000 = 3.600 no usuarias, la potencia de este estudio sera
mama del 50%2 entre las usuarias y no usuarias de anticonceptivos orales sera nicamente
es decir, la probabilidad de detectar un hipottico incremento del riesgo de cncer
del 28,7% a partir de una cohorte de 6.000 mujeres seguidas durante 5 aos.
| 0,00938 0,00625 | 1,96 0,00750(1 0,00750)(1 / 2.400 + 1 / 3.600)

1de- mama
= del 50% entre las usuarias y no usuarias de anticonceptivos orales sera

La expresin anterior
de,00938
la potencia
permite
asimismo
determinar
a priori) /la3.muestra
mnima
0
(
1

0
,
00938
)
/
2
.
400
+
0
,
00625
(
1

0
,
00625
600

que sernicamente
necesaria endel
cada
uno de
los grupos
alcanzar
una potencia
1 5 en
28,7%
a partir
de unapara
cohorte
de 6.000
mujeres preestablecida
seguidas durante
la deteccin de una diferencia subyacente de proporciones 1 2. En general, si se prev asignar
0,00313 1,96 0,00227 sigue a partir de la frmula de la potencia que
distinto aos.
tamao
= (-0,56) = 0,287;
= aambas muestras n2 = kn1, se
0,00237

La expresin anterior de la potencia permite asimismo determinar a priori laPastor-Barriuso


muestra R.
es decir, la probabilidad de detectar un hipottico incremento del riesgo de cncer
mnima que ser necesaria en cada uno de los grupos para alcanzar una potencia
de mama del 50% entre las usuarias y no usuarias de anticonceptivos orales sera

149

2
1

| 1 2 | z1 / 2 (1 ) +
n1 kn1
z1- = asignar distinto tamao a ambas muestras n = kn , se sigue a
2. Endegeneral,
si sedeprev
partir
la frmula
la potencia que
2
1
1 (1 1 ) 2 (1 2 )
Determinacin del tamao muestral
+
n
kn1
partir de la frmula de la potencia que 1
1
1

| 1 2 | z1 / 2 (1 ) +
(k + 1) (1n1 ) kn1
z1- = | 1 2 | z1 / 2
1
1
kn

| 1 2|1(1z
)1 2 ) +
(
1
1 /12) (12
=
, 1
n1 kn
+

k 1 (1 n1 1 ) + 2 (1 kn
12 )
z1 =
1 (1 kn
2 (1 2 )
1)
1 +
n1
kn
(k + 1) (11 )
| 1 2 | z1 / 2
de tal forma que el tamao muestral requerido ser
(k + 1kn
)1(1 ) ,
= | | z
1
2
1 / 2
k 1 (1 1 ) + 2 (1 kn
21 )
=
,
2
( z1 / 2 (k + 1) (1k1(1) +z1kn
(
1

)
+

1 k(11

)
1) +
1
2 (1 2 ) )
2
2
n1 =
k ( 1kn1 2 ) 2
de tal forma que el tamao muestral requerido ser
de en
tal la
forma
que muestra
el tamao
requerido ser
primera
y nmuestral
2 = kn1 en la segunda muestra, donde la proporcin combinada
de tal forma que el tamao
muestral requerido ser
( z1 / 2 (k + 1) (1 ) + z1 k 1 (1 1 ) + 2 (1 2 ) ) 2
n1 = viene dada por = (n11 + n22)/(n
+ n2) = (1 + k2)/(1 + k). En el
en ambas muestras
k ( 1 2 ) 2 1
( z1 / 2 (k + 1) (1 ) + z1 k 1 (1 1 ) + 2 (1 2 ) ) 2
n1 =
de asignar
igualytamao
grupos de
comparacin k = 1, el tamao muestral
en caso
la primera
muestra
n2 = kna1 ambos
en la segunda
k ( 1 muestra,
2 ) 2 donde la proporcin combinada en

+
n

)/(n
= (1 +lak
En el caso de
ambas
muestras
viene
dada
por

=
(n
en la primera muestra y n2 = kn1 en la
proporcin
1 1segunda
2 2 muestra,
1 + n2) donde
2)/(1 + k). combinada
en cada
una
de las amuestras
se reduce
a
asignar
igual
tamao
ambos grupos
de comparacin
k = 1, el tamao muestral en cada una de
las en
muestras
se
reduce
a
enambas
la primera
muestra
y ndada
la
= segunda
(n11 + nmuestra,
n2) = la
(1proporcin
+ k2)/(1 +combinada
k). En el
muestras
viene
por
2 = kn
1 en
22)/(n1 +donde
2

( z1 / 2 2 (1 ) + z1 1 (1 1 ) + 2 (1 2 ) ) 2
(n11 +den2comparacin
2)/(n1 + n2) =k =(1,
2)/(1
k). En el
en ambas
muestras
dada
por =grupos
caso
de asignar
a ambos
1 +elktamao
, + muestral
n1 =igual
n 2 viene
=tamao
( 1 2 ) 2
caso
de una
asignar
igual
tamaoseareduce
ambosagrupos de comparacin k = 1, el tamao muestral
en
cada
de las
muestras
donde la proporcin combinada es = (1 + 2)/2. Como se coment anteriormente, la asignacin
de donde
igual tamao
a las dos
muestras
eficiente
al requerir
un menor
tamao total
la proporcin
combinada
es es
=ms
( +
2)/2. Como
se coment
anteriormente,
la del
en cada una de las muestras se reduce a 1
2
estudio para alcanzar una (misma
estudios
z1 / 2 potencia.
2 (1 )Sin
+ zembargo,
el1 )diseo
+ 2 (1de
determinados
1 (1 en
1
2) )
n1igual
= n 2 tamao
= la aseleccin
(verasignacin
ejemplos de
posteriores),
de muestras
de2 eficiente
distinto al
tamao
puede
resultar ms
las dos muestras
es ms
requerir
un, menor
( pacientes.
1 2)
factible en trminos de coste
de
En cualquier caso, 2la determinacin
( z1odisponibilidad
/ 2 2 (1 ) + z1 1 (1 1 ) + 2 (1 2 ) )
n1 =estudio
npara
deltamao
tamaototal
muestral
comparacin
de proporciones
en muestras
independientes
2 = lapara
del
alcanzar una
misma potencia.
Sin embargo,
en ,el diseoprecisa
( 1 2 ) 2
de los
siguientes
elementos:
donde
la proporcin
combinada es = (1 + 2)/2. Como se coment anteriormente, la
de
determinados
estudios
(ver
ejemplos
posteriores),
la seleccin
de muestras
yy El nivel de significacin
del
contraste
bilateral, que
suele establecerse
pordeconvenio en
= (1 + es
Como
se coment
anteriormente,
donde
la proporcin
combinada
asignacin
de igual tamao
a las es
dos muestras
ms
eficiente
al requerir
un menor la
2)/2.
= 0,05.
distinto tamao puede resultar ms factible en trminos de coste o disponibilidad de
yy La potencia 1 para detectar hiptesis alternativas ciertas. La mayora de los estudios
asignacin
tamao
las dos muestras
es potencia.
ms eficiente
al requerirenunelmenor
tamao
totalde
deligual
estudio
paraaalcanzar
una misma
Sin embargo,
diseo
se disean con una potencia 1 = 0,80 0,90.
yde
y Las
proporciones
poblacionales
1 una
yposteriores),
2misma
. A diferencia
de Sin
la comparacin
medias, no
tamao
total del estudios
estudio
para
potencia.
embargo,
en de
eldediseo
determinados
(ver alcanzar
ejemplos
la seleccin
de muestras
es suficiente con determinar la diferencia de proporciones que se pretende detectar, sino
estamao
necesario
especificar
magnitud
aproximada
esta
en cada
grupo
deque
determinados
estudios
(verla
ejemplos
posteriores),
lade
seleccin
muestras
de de
distinto
puede
resultar
ms
factible
en trminos
de
costeproporcin
o de
disponibilidad
20 de
comparacin, para contar as con un valor aproximado de las varianzas poblacionales
1) y 2(1
2).resultar ms factible en trminos de coste o disponibilidad de
1(1 tamao
distinto
puede
Ejemplo 9.7 Como se vio en el ejemplo anterior, una cohorte de 6.000 mujeres carece
de potencia suficiente para detectar un hipottico incremento del 50% en la incidencia
20
acumulada de cncer de mama en 5 aos entre las mujeres usuarias y no usuarias de
anticonceptivos orales. Segn los clculos del ejemplo anterior, la incidencia acumulada
20
en este periodo en una cohorte de mujeres entre 40 y 49 aos ser aproximadamente
= 0,00750, siendo 1 = 0,00938 y 2 = 0,00625 las respectivas incidencias acumuladas
150

Pastor-Barriuso R.

aos ser aproximadamente = 0,00750, siendo 1 = 0,00938 y 2 = 0,00625 las

mujeres usuarias de estos anticonceptivos y n2 = 1,510.202,55 = 15.303,82


respectivas incidencias acumuladas en usuarias y no usuarias. Como se prev que

Tamao muestral para la comparacin de proporciones

15.304 no usuarias. As, para detectar un aumento subyacente del riesgo de cncer
la cohorte est compuesta de un 40% de mujeres usuarias de anticonceptivos

de mama del 50% entre las usuarias de anticonceptivos orales con una potencia de
en
usuarias
y no de
usuarias.
Comosesetiene
prev
que
cohorte
est compuesta
de de
un 40% de
= 1,5n
un nivel
orales
y un 60%
no usuarias,
que
n2 la
1. Asumiendo
mujeres
usuarias
de
anticonceptivos
orales
y
un
60%
de
no
usuarias,
se
0,80, se precisara de una cohorte inicial de 25.507 mujeres seguidas durante untiene que
nivel
de significacin
=se0,05
y una potencia 1 = 0,80, se
nsignificacin
= 0,05 un
y una
potencia
1 - = 0,80,
necesitaran
2 = 1,5n1. Asumiendo
necesitaran
periodo de 5 aos.
(1,96 2,5 0,00744 + 0,84 1,5 0,00929 + 0,00621 ) 2
n
=
El tamao necesario
de la cohorte se reducira si el seguimiento
del estudio se
1
1,5(0,00938 0,00625) 2

extendiera, por ejemplo,


hasta
los 10 aos, ya que el nmero esperado de eventos
= 10.202,55
10.203
mujeres usuarias de estos anticonceptivos y n2 = 1,510.202,55 = 15.303,82 15.304 no
aumentara
considerablemente.
Siguiendo
argumentos
similares
a los del
usuarias. As,
para detectar un aumento
subyacente
del riesgo
de cncer
deejemplo
mama del 50%
entre las usuarias de anticonceptivos orales con una potencia de 0,80, se precisara21de una
anterior,
la incidencia
acumulada
toda ladurante
cohorteun
durante
10 de
aos
sera =
cohorte inicial
de 25.507
mujeresen
seguidas
periodo
5 aos.
El tamaoy necesario
de la cohorte
se reducira
si elentre
seguimiento
del estudio
se extendiera,
0,01500,
las incidencias
acumuladas
especficas
las usuarias
y no usuarias
por ejemplo, hasta los 10 aos, ya que el nmero esperado de eventos aumentara
considerablemente.
Siguiendo
argumentos
similares
los del ejemplo
anterior, la incidencia
1 = 0,01875
y 2 =a 0,01250,
respectivamente.
La
de
anticonceptivos orales
seran
acumulada en toda la cohorte durante 10 aos sera = 0,01500, y las incidencias
acumuladas
especficas
entreentonces
las usuarias
cohorte
necesaria
consistira
en y no usuarias de anticonceptivos orales seran
1 = 0,01875 y 2 = 0,01250, respectivamente. La cohorte necesaria consistira entonces en

n1 =

(1,96 2,5 0,01478 + 0,84 1,5 0,01840 + 0,01234 ) 2


1,5(0,01875 0,01250) 2

= 5.061,27 5.062
usuarias de anticonceptivos orales y n2 = 1,55.061,27 = 7.591,90 7.592 no usuarias; es
decir, 12.654 mujeres seguidas a lo largo de 10 aos.
usuarias de anticonceptivos orales y n2 = 1,55.061,27 = 7.591,90 7.592 no
de la poblacin de referencia, la proporcin de utilizacin de anticonceptivos
Dado
que la
realizacin
de un
prospectivo
Ejemplo es
9.8decir,
usuarias;
12.654
mujeres
seguidas
a loestudio
largo de
10 aos. requerira de una gran
= 0,40. Ade casos de
orales
entre
las
mujeres
del
grupo
control
ser
aproximadamente
cantidad de personas-ao de seguimiento para obtener un nmero2suficiente
de la poblacin
referencia,
proporcin
utilizacin
de anticonceptivos
cncer
de mama,deresultar
mslaviable
llevar adecabo
un estudio
de casos y controles. En tal
partir
de
la
expresin
del
odds
ratio
en
estudios
de
casos
y
controles
(vase
caso, el propsito se centrar en seleccionar un nmero suficiente de
casos y controles
Ejemplo
9.8 las
Dado
queratio
ladel
realizacin
de
estudio
requerira
deyAuna
usuarias
=
0,40.
oralesdetectar
entre
grupo
control
ser
aproximadamente
para
unmujeres
odds
de
cncer
deun
mama
=prospectivo
1,50 entre las
no usuarias
2
Apartado
7.6.2),
se
tiene
que
de anticonceptivos orales con una potencia 1 = 0,80. Si los controles seleccionados
gran
de personas-ao
de
seguimiento
para
obtener
un
nmero
suficiente
constituyen
una
muestra
representativa
de la poblacin
referencia,
la proporcin de
partircantidad
de la expresin
del odds
ratio
en estudios
de casos
ydecontroles
(vase
utilizacin de anticonceptivos
1 (1mujeres
2 ) del grupo control ser
) P( E c | entre
P( E | Dorales
D c ) las
, ratio
de
casos
de
cncer
de
mama,
resultar
ms
viable
llevar
aodds
cabo
un estudio
de de casos y

=
=
=
0,40.
A
partir
de
la
expresin
del
en estudios
aproximadamente

Apartado 7.6.2), se 2tiene que


P( E | D c ) P( E c | D) 2 (1 1 )
controles (vase Apartado 7.6.2), se tiene que
casos y controles. En tal caso, el propsito
se centrar en seleccionar un nmero
P( E | D) P( E c | D c ) 1 (1 2 ) ,
= la proporcin
=
de donde puede despejarse
1 de mujeres
que han usado
2 (ratio
1 1de
) cncer de mama =
| D c detectar
) P( E c | D
P( Epara
suficiente de casos y controles
un) odds

anticonceptivos
entre la
losproporcin
casos de cncer
mamaque
como
de donde puede orales
despejarse
1 de de
mujeres
han usado anticonceptivos
1,50 entre las usuarias y no usuarias de anticonceptivos
orales con una potencia 1
orales
entre
los casos
de cncer
de mama como
de donde
puede
despejarse
la proporcin
1 de mujeres que han usado
2
1,50 0,40 una muestra representativa
seleccionados
constituyen
- = 0,80. Si los controles
1 =entre
= 0,50.
= cncer
anticonceptivos orales
los
casos
de
1 + ( 1) 2 1 + 0,50de
0,mama
40 como
22

2
1,50 0,40
1 =
= 0,50.la seleccin del
Para un nivel de significacin
estndar = = 0,05 y asumiendo
1 + ( 1) 2 1 + 0,50 0,40
mismo nmero de casos que controles, de tal forma que la proporcin combinada
Pastor-Barriuso R.
Para un nivel de significacin estndar = 0,05 y asumiendo la seleccin del
= (1 + 2)/2 = (0,50 + 0,40)/2 = 0,45, el nmero necesario de casos y controles
mismo nmero de casos que controles, de tal forma que la proporcin combinada

151

Para un nivel de significacin estndar = 0,05 y asumiendo la seleccin del


Determinacin
del nmero
tamao muestral
mismo
de casos

que controles, de tal forma que la proporcin combinada

= (1 + 2)/2 = (0,50 + 0,40)/2 = 0,45, el nmero necesario de casos y controles

Para un nivel de significacin estndar = 0,05 y asumiendo la seleccin del mismo


sera
nmero de casos que controles, de tal forma que la proporcin combinada = (1 + 2)/2
= (0,50 + 0,40)/2 = 0,45, el nmero necesario de casos y controles sera
n1 = n2 =

(1,96 2 0,45(1 0,45) + 0,84 0,50(1 0,50) + 0,40(1 0,40) ) 2


(0,50 0,40) 2

= 386,90 387,

para una muestra total de 774 mujeres.


Supongamos
que,total
dadadela774
bajamujeres.
incidencia de cncer de mama, la disponibilidad de casos
para
una muestra
incidentes de esta enfermedad en la poblacin es limitada y, por tanto, se decide reclutar el
la proporcin
combinada
ser = (
doble de controles
que de
As, n2 = 2n
Supongamos
que, dada
lacasos.
baja incidencia
de1 ycncer
de mama,
la disponibilidad
de1 + k2)/
(1 + k) = (0,50 + 20,40)/3 = 0,43. La muestra necesaria estara entonces compuesta por
casos incidentes de esta enfermedad en la poblacin es limitada y, por tanto, 2se
(1,96 3 0,43(1 0,43) + 0,84 2 0,50(1 0,50) + 0,40(1 0,40) )
n1 =
2
(0,50
0,40)As,
decide reclutar el doble de controles 2que
de casos.
n2 = 2n1 y la proporcin
= 289,17 290
combinada ser = (1 + k2)/(1 + k) = (0,50 + 20,40)/3 = 0,43. La muestra
casos de cncer de mama y n2 = 2289,17 = 578,33 579 controles libres de la enfermedad.
necesaria
estara
entonces
compuesta
pores decir, 95 mujeres ms de las requeridas en un
El
tamao
total sera
290 y+
= 869;
casos
de cncer
de mama
n579
2 = 2289,17 = 578,33 579 controles libres de la
estudio con el mismo nmero de casos que controles.
enfermedad. El tamao total sera 290 + 579 = 869; es decir, 95 mujeres ms de
9.4.2Tamao muestral para la comparacin de proporciones en dos muestras dependientes
23
las requeridas en un estudio con el mismo nmero de casos que controles.
Supongamos que se pretende contrastar la hiptesis nula H0: 1 = 2 frente a la hiptesis alternativa
n parejas de datos dependientes. Para simplificar la exposicin,
bilateral H1: 1 2 a partir
var( pde
b - pc ) = var( pb ) + var( pc) - 2 cov( pb , pc )
supondremos adems que se trata de un estudio de casos y controles emparejados uno a uno,
9.4.2 Tamao
muestrallas
para
la comparacin
de proporciones
enexpuestos
dos muestras
respectivas
a un determinado
donde
1 y 2 representan
proporciones
poblacionales
2de
b c
b (1 b )
c (1 c )
+
=
factor antecedente entre casos y controles.
Como+las parejas concordantes
reflejan una misma
n proporciones
n en un diseo emparejado
dependientes
exposicin
en caso y control, la hiptesis nulan de igualdad de
discordantes con el caso expuesto
es equivalente a H0: b = c, donde b es la proporcin de parejas
2
Supongamos
que
se
pretende
contrastar
la
hiptesis
nula
H
:

la hiptesis
(

)
0
1=
2 frente
b
c
b
c
y c es la proporcin de parejas discordantes
con el control expuesto.
Segn
la anotacin
de la Tabla
=
,
n pares discordantes sern pb = b/n y pc = c/n.
7.6, las proporciones muestrales de ambos tipos de
2 a partir correlacionadas,
de n parejas de datos
Para esperado de la
alternativa
bilateralestarn
H1: 1 obviamente
Estas
proporciones
de taldependientes.
forma que el valor
= b centre
y su varianza
(vase
Apartado
3.4) , p ) = - /n. As, la
diferencia
ser
E(pb pc)negativa
y pc viene
pordecov(p
donde la
b
c
c
simplificar
lacovarianza
exposicin,
supondremospbadems
que dada
se trata
un estudio
de bcasos
y
var( pb pc ) = var( pb ) + var( pc) 2cov( pb , pc )
diferencia
en la proporcin
muestral
de parejas
discordantes
pb - pc seguir
y 2 )representan
controles
emparejados
uno a uno,
donde
b(11
c (1 c las
) respectivas
2
b
+
+ b c
=
n
nH y N( - , {( +
bajo
aproximadamente
una distribucin
normal
(b +nc)/n)
0
b entre
c
b
proporciones
poblacionales
de expuestos
a un N(0,
determinado
factor
antecedente
2
( + c ) ( b c )
= b
,
2

)
(

)
}/n)
bajo
H
.
b
c
casosc y controles.
Como las 1parejas concordantesnreflejan una misma exposicin en

152

dondePara
la covarianza
negativa
entre pby, pelc viene
dadaarrojar
por cov(p
, pc) = bsignificativo
/n. As, la diferencia
contraste
un
un nivel
de
significacin
caso y control,
la hiptesis
nula de igualdad
de proporciones
enb resultado
un diseo cemparejado
en la proporcin muestral de parejas discordantes pb pc seguir aproximadamente una
por cov(p
donde la covarianza
negativa
entre
pbHy pyc viene
b, pc) = -b2c/n. As, la
+ c)/n)
bajo
N(b dada
c, {(
distribucin
N(0, (
0
b + c) (b c) }/n) bajo H1.
cuando normal
b es la proporcin
de parejas
discordantes con el
es equivalente
a H0: b = cb, donde
Para
un nivelen
delasignificacin
, el contraste
arrojar
un resultado
cuando
diferencia
proporcin muestral
de parejas
discordantes
pb - psignificativo
c seguir
proporcin
el
expuesto.
caso expuesto y
( bde+ parejas
c ) / n discordantes
pb pc z1con
( control
pbc espla
c z1 /2
/2
b + c)/n .
aproximadamente una distribucin normal N(0, (b + c)/n) bajo H0 y N(b - c, {(b +
Segn la notacin de la Tabla 7.6, las proporciones muestrales de ambos tipos de pares
Pastor-Barriuso
c) - (R.b - sin
c)2prdida
}/n) bajodeHgeneralidad
1.
Asumiendo
que b < c, la probabilidad del segundo evento
discordantes sern pb = b/n y pc = c/n. Estas proporciones estarn obviamente
, el contraste
unpodr
resultado
significativo
Para un nivelbajo
de significacin
ser despreciable
la hiptesis
alternativa
y laarrojar
potencia
entonces
aproximarse
correlacionadas, de tal forma que el valor esperado de la diferencia ser E(p - p ) = -

Asumiendo sin prdida de generalidad que b < c, la


probabilidad del segundo evento
Tamao muestral para la comparacin de proporciones
ser despreciable bajo la hiptesis alternativa y la potencia podr entonces aproximarse
Asumiendo
mediante sin prdida de generalidad que b < c, la probabilidad del segundo evento ser
despreciable bajo la hiptesis alternativa y la potencia podr entonces aproximarse mediante

1 = P( pb pc z1 / 2 ( b + c ) / n | H1)

z1 / 2 ( b + c ) / n ( b c )
p b p c ( b c )
= P
H1

{( + ) ( ) 2 } / n
{( b + c ) ( b c ) 2 } / n
b
c
b
c

| b c | z1 / 2 ( b + c ) / n
.
=
{( + ) ( ) 2 } / n
b
c
b
c

A partir de esta expresin, se sigue que el nmero total de parejas necesarias para alcanzar una
potencia 1 es
A partir de esta expresin, se sigue que el nmero total de parejas necesarias para
( z1 / 2 b + c + z1 ( b + c ) ( b c ) 2 ) 2
,
n
=
alcanzar una potencia 1 - es
( ) 2
b

para cuyo clculo se precisa de una idea aproximada de las probabilidades de obtener ambos
paradecuyo
clculo
se precisa de
aproximada
de las
de obtener
y cidea
. Aunque
son pocos
losprobabilidades
diseos emparejados
donde se
tipos
parejas
discordantes
b una
cuenta con informacin a priori de estas probabilidades, las siguientes consideraciones generales
pueden
resultar
tiles
en ladiscordantes
prctica. Si elbemparejamiento
fueralos
efectivo,
ambos
tipos de
parejas
y c. Aunque sonnopocos
diseospongamos por
25
ejemplo un estudio de casos y controles donde las variables de emparejamiento no estuvieran
asociadas
con la
exposicin
principal,
el nivel ade
exposicin
entonces virtualmente
emparejados
donde
se cuenta
con informacin
priori
de estas sera
probabilidades,
las
independiente entre caso y control, de tal forma que la proporcin esperada de parejas con el
1(1 tiles
2) y con
control expuesto
y el caso
caso
expuestoconsideraciones
y el control no expuesto
b =resultar
siguientes
generalessera
pueden
en laelprctica.
Si el
no expuesto c = 2(1 1), para una proporcin total de pares discordantes b + c = 1(1 2)
+ emparejamiento
probarse
quepor
el ejemplo
nmero un
necesario
parejas
no caso,
fuera puede
efectivo,
pongamos
estudio de casos
y coincidira
2(1 1). En tal
aproximadamente con el nmero de sujetos por grupo en un estudio de casos y controles
independientes;
resultado
esperable
siempre que seno
empareje
porasociadas
caractersticas
controles donde
las variables
de emparejamiento
estuvieran
con lairrelevantes.
Por el contrario, si el emparejamiento fuera efectivo, esto es, si los factores pronsticos
empleados
en principal,
el emparejamiento
asociados
con la exposicin
estudio, los casos y
exposicin
el nivel deestuvieran
exposicin
sera entonces
virtualmentea independiente
controles se asemejaran en su nivel de exposicin, induciendo as una correlacin positiva en
entre caso ydecontrol,
de taldeforma
la proporcin
esperada
de parejas
con entonces
el caso menos
la exposicin
cada pareja
caso que
y control.
Las parejas
discordantes
seran
probables b + c < 1(1 2) + 2(1 1) y, en consecuencia, para obtener un nmero suficiente
de expuesto
pares discordantes
para
anlisis, sera
el nmero
de ser
superiory al
b = total
2parejas
) y con habra
el control
expuesto
el nmero
y el control
noelexpuesto
1(1 -de
de sujetos por grupo en un estudio independiente. En general, la comparacin de proporciones
en caso
muestras
emparejadas
menor
potencia
que la comparacin
cruda
de proporciones
c = tiene
una proporcin
total de pares
discordantes
b + c en
no expuesto
2(1 -
1), para
muestras independientes, pero mayor validez interna al controlar los posibles sesgos derivados
de =los1factores
utilizados en el emparejamiento.
(1 - 2) +deconfusin
2(1 - 1). En tal caso, puede probarse que el nmero necesario de parejas
y de
controles
ejemplo
anterior,
Ejemploaproximadamente
9.9 En el estudio
coincidira
condeel casos
nmero
sujetos independientes
por grupo en undel
estudio
de casos
cabra esperar que la edad media de los casos sea superior a la de los controles ya que la
incidencia
de cncer de mama
aumenta
con la edad.
Adems,
como
la edadpor
est inversamente
y controles
independientes;
resultado
esperable
siempre
que se
empareje
relacionada con el uso de anticonceptivos orales, esta variable podra provocar una
confusin negativa
en la asociacin
a estudio,
tal forma que elfuera
oddsefectivo,
ratio obtenido
de la
caractersticas
irrelevantes.
Por el contrario,
si elde
emparejamiento
esto es,
comparacin cruda de casos y controles independientes tendera a infraestimar el potencial
efecto
nocivo
del uso deempleados
anticonceptivos
orales en el riesgo
de cncerasociados
de mama.con la
si los
factores
pronsticos
en el emparejamiento
estuvieran

exposicin a estudio, los casos y controles se asemejaran en su nivel de exposicin,


Pastor-Barriuso R.

induciendo as una correlacin positiva en la exposicin de cada pareja de caso y

control. Las parejas discordantes seran entonces menos probables b + c < 1(1 - 2) +

153

Determinacin del tamao muestral

Para evitar esta posible confusin, se decide disear un estudio de casos y controles
emparejados, donde cada caso de cncer de mama se empareja aleatoriamente con un
control de su misma edad. Como consecuencia de este emparejamiento por edad, se
inducira un cierto grado de correlacin positiva en la utilizacin de anticonceptivos de
cada pareja. As, la proporcin esperada de pares discordantes sera inferior a 1(1 2) +
2(1 1) = 0,50(1 0,40) + 0,40(1 0,50) = 0,50, donde 1 = 0,50 y 2 = 0,40 son las
proporciones poblacionales de usuarias de anticonceptivos orales entre casos y controles
obtenidas del ejemplo anterior. Asumiendo una correlacin moderada, podra establecerse
a priori una proporcin aproximada de parejas discordantes b + c = 0,40. Para un
hipottico odds ratio de cncer de mama = b/c = 1,50, se esperara entonces una
proporcin
de parejas
condicho
el control
depotencia
anticonceptivos
orales
y elnivel
caso de
no usuario
y un
necesarias para
detectar
efectousuario
con una
1 - = 0,80
c = (b + c)/( + 1) = 0,40/2,50 = 0,16, y con el caso usuario y el control no usuario
= 0,24.
significacin
= 0,05
sera As, el nmero total de parejas necesarias para detectar dicho
b = c = 1,500,16
efecto con una potencia 1 = 0,80 y un nivel de significacin = 0,05 sera

n=

(1,96 0,24 + 0,16 + 0,84 (0,24 + 0,16) (0,24 0,16) 2 ) 2


(0,24 0,16) 2

= 487,64 488,
con lo que se tendran aproximadamente 0,40488 = 195 pares discordantes para el anlisis.
Notar que el nmero de parejas requeridas para este estudio sera mayor que los 387 casos
ycon
controles
en el correspondiente
estudio
independiente
(Ejemplo
lo que senecesarios
tendran aproximadamente
0,40488
= 195
pares discordantes
para9.8). No
obstante, el anlisis emparejado de casos y controles de igual edad eliminara la posibilidad
de
sesgos por
diferencias
de edadde
entre
casos
y controles.
el anlisis.
Notar
que el nmero
parejas
requeridas
para este estudio sera
El clculo
del tamao
puede extenderse
a laen
comparacin
de tres oestudio
ms proporciones
mayor que
los 387 muestral
casos y controles
necesarios
el correspondiente
en muestras dependientes o independientes. Aunque las frmulas se derivan siguiendo
procedimientos
similares
a los 9.8).
aqu descritos,
suelen
emplearse
mtodos de
de casos
correccin
del nivel
independiente
(Ejemplo
No obstante,
el anlisis
emparejado
y
de significacin para preservar la probabilidad global de obtener un resultado significativo
entre las
mltiples
comparaciones
que selapretendan
realizar
(ver referencias
bibliogrficas).
controles
de igual
edad eliminara
posibilidad
de sesgos
por diferencias
de edad
9.5REFERENCIAS
entre casos y controles.
1. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The Design and
Lyon:
International
for Research
on Cancer,
ElAnalysis
clculo of
delCohort
tamaoStudies.
muestral
puede
extenderse Agency
a la comparacin
de tres
o ms 1987.
2. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & Sons, 1977.
proporciones
enRaghavarao
muestras dependientes
o independientes.
frmulas
se 1990.
3.
Desu MM,
D. Sample Size
Methodology. Aunque
Boston: las
Academic
Press,

4. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley &
derivan siguiendo procedimientos similares a los aqu descritos, suelen emplearse
Sons, 1986.
5.
FleissdeJL,
Levin B, del
Paiknivel
MC.deStatistical
Methods
forpreservar
Rates andlaProportions,
Edition.
para
probabilidadThird
global
mtodos
correccin
significacin
New York: John Wiley & Sons, 2003.
6.
Lemeshow
S, Hosmer
DW, Klar J,entre
Lwanga
SK. Adequacy
of Sampleque
Sizese
in Health Studies.
de obtener
un resultado
significativo
las mltiples
comparaciones
New York: John Wiley & Sons, 1990.
pretendan
realizar
(ver referencias
bibliogrficas).
7.
Levy PS,
Lemeshow
S. Sampling
of Populations: Methods and Applications, Third Edition.
New York: John Wiley & Sons, 1999.
8.
Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
9.5 REFERENCIAS
9. Silva LC. Diseo Razonado de Muestras y Captacin de Datos para la Investigacin
Sanitaria. Madrid: Daz de Santos, 2000.
1. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The
154

Pastor-Barriuso R.

Design and Analysis of Cohort Studies. Lyon: International Agency for Research
on Cancer, 1987.

TEMA 10
CORRELACIN Y
REGRESIN LINEAL SIMPLE
10.1INTRODUCCIN
En el Tema 6 se discutieron las tcnicas estadsticas adecuadas para comparar los niveles medios
de una variable continua en dos grupos de sujetos definidos segn la presencia o ausencia de
una determinada caracterstica dicotmica; esto es, la dependencia entre una variable continua
y otra dicotmica. Asimismo, en el Tema 7 se presentaron distintos procedimientos para
determinar la existencia o no de asociacin entre dos variables dicotmicas. Queda pendiente,
por tanto, describir los mtodos necesarios para evaluar la relacin entre dos variables continuas.
En este tema se presentan el coeficiente de correlacin y la regresin lineal simple como las
dos tcnicas estadsticas ms utilizadas para investigar la relacin entre dos variables continuas
X e Y. Como veremos ms adelante, ambos procedimientos estn estrechamente relacionados,
aunque obedecen a estrategias de anlisis un tanto diferentes. Por un lado, el coeficiente de
correlacin determina el grado de asociacin lineal entre X e Y, sin establecer a priori ninguna
direccionalidad en la relacin entre ambas variables. Por el contrario, la regresin lineal simple
permite cuantificar el cambio en el nivel medio de la variable Y conforme cambia la variable X,
asumiendo
implcitamenteDE
queCORRELACIN
X es la variable explicativa o independiente e Y es la variable
10.2 COEFICIENTE
respuesta o dependiente.
Como ya se anticip en el Apartado 3.4, el parmetro ms utilizado para medir la
10.2 COEFICIENTE DE CORRELACIN
asociacin lineal entre dos variables aleatorias X e Y es el coeficiente de correlacin
Como ya se anticip en el Apartado 3.4, el parmetro ms utilizado para medir la asociacin
xy, que sealeatorias
define como
poblacional
lineal
entre dos variables
X e Y es el coeficiente de correlacin poblacional xy, que
se define como
xy =

cov( X , Y )
x y

E{( X x )(Y y )}
x y

donde x y y son las respectivas medias poblacionales de X e Y y x y y son sus correspondientes


desviaciones
El numerador
del coeficiente
cov(X, Y) =
y son poblacionales.
las respectivas medias
poblacionales
de X e Y de
y correlacin
donde x ytpicas
x y y son sus
E{(X x)(Y y)} es la covarianza poblacional entre ambas variables y se define como la
esperanza
del producto
de las desviaciones
de cada variable
respecto de del
su media.
As, sidevalores
correspondientes
desviaciones
tpicas poblacionales.
El numerador
coeficiente
altos (o bajos) de X tienden a asociarse con valores altos (o bajos) de Y, el producto de las
=y)E{(X
tender
ser-positivo
y la
covarianzapoblacional
ser positiva.
Por ambas
el contrario,
desviaciones
x)(yY)
y)} es la
covarianza
entre
correlacin(xcov(X,
- xa)(Y
si valores altos de una variable se relacionan con valores bajos de la otra variable, el producto
de variables
las desviaciones
tender
seresperanza
negativo del
y laproducto
covarianza
serdesviaciones
negativa. Nodeobstante,
resulta
y se define
comoa la
de las
cada
complicado determinar el grado de asociacin lineal entre dos variables a partir de la magnitud
de variable
la covarianza,
ya que
depende
las unidades
de bajos)
medidadedeX las
variables.
respecto
de susta
media.
As, de
si valores
altos (o
tienden
a asociarse
Al dividir la covarianza por el producto de las desviaciones tpicas de X e Y, el coeficiente de
- y) tender
a o
con valores
altos (o bajos)
el producto
de las desviaciones
- x)(y
correlacin
poblacional
carecededeY,unidades
y permanece
inalterable(xante
cambios
de origen
escala en cualquiera de las dos variables. Puede comprobarse, adems, que la covarianza entre
positivo
y lavalor
covarianza
Por de
el contrario,
si valores
altosy,de
X eser
Y es
menor en
absolutoser
quepositiva.
el producto
sus desviaciones
tpicas
en una
consecuencia,

variable se relacionan con valores bajos de la otra variable, el producto de las

Pastor-Barriuso R.

desviaciones tender a ser negativo y la covarianza ser negativa. No obstante, resulta

155

comprendido entre -1 y 1. En el caso extremo de que xy = 1, las variables


Correlacin y regresin lineal simple
estandarizadas Zx = (X -

x)/x y Zy = (Y - y)/y verifican que (vase Apartado 3.4)

comprendido entre -1 y 1. En el caso extremo de que xy = 1, las variables


var(Zx)est
+ var(Z
= 2(1
xyel) =caso
0; extremo de que
x - Zy) =
y) - 2cov(Z
x, Zy)1
el coeficiente de var(Z
correlacin
siempre
comprendido
entre
y 1. -En
(X - x)/x y ZyZ=x =
(Y(X
- y)/xy)/
verifican
que (vase Apartado 3.4)
Zx =estandarizadas
xy estandarizadas
= 1, las variables
x y Zy = (Y y)/y verifican que (vase
Apartado
3.4)
es decir,
Zx - Zy es una variable aleatoria degenerada (constante) en su valor esperado, Zx
var(Zx Zy ) = var(Zx ) + var(Zy ) 2cov(Zx , Zy ) = 2(1 xy ) = 0;
- Zy = E(Zx - Zy) = 0, lo que implica que las variables X e Y presentan una relacin lineal
es decir, Zx Zy es una variable aleatoria degenerada (constante) en su valor esperado, Zx Zy =
Zy que
esYuna
degenerada
en su
valor esperado,
Zx
es
decir, perfecta,
Z0,
x - lo
quealeatoria
las variables
X e Y (constante)
presentan una
relacin
lineal positiva
E(Zpositiva
variable
=implica
x Zy) =
y + y/x(X - x). De igual forma, si xy = -1, se cumple que
perfecta, Y = y + y/x(X x). De igual forma, si xy = 1, se cumple que
- Zy = E(Zx - Zy) = 0, lo que implica que las variables X e Y presentan una relacin lineal
var(Zx + Zy ) = var(Zx ) + var(Zy ) + 2cov(Zx , Zy ) = 2(1 + xy ) = 0
+ y/x(X
- x). De
igual forma,
xyvalor
= -1,esperado,
se cumpleZque
positiva
= yvariable
y, por
tanto,perfecta,
Z + Z esY una
aleatoria
constante
igual si
a su
+ Z = E(Z
x

una variable
igual a su
valor
esperado,
+ Zy
por tanto, Zx + Zsey es
deduce
que lasaleatoria
variablesconstante
X e Y presentan
una
relacin
linealZxnegativa
+ Zy,
y) = 0, de donde
y/
(XZy) =xvar(Z
). Cuando
xy =y) 0,
se dicex, que
variables
linealmente
perfecta, Y = y var(Z
+ 2cov(Z
Zy) =las2(1
+ xy) = estn
0
x x+
x) + var(Z
de que
donde
deduce
que laslineal
variables
e Y presentan
unaNotar
relacin
= E(Zx + Zy) = 0, ya
incorrelacionadas
noseexiste
relacin
entreXambas
variables.
que si dos
variables son estadsticamente independientes, en el sentido de que el conocimiento del valor
+ Zyno
esaporta
una
aleatoria
igual
a su
esperado,
Zentonces
y,toma
por negativa
tanto,
Zx perfecta,
x + Zy
ninguna
(X - x).constante
Cuando
= 0,
se
dice
que
las variables
Y =variable
quelineal
una variable
sobre
el
devalor
la otra
variable,
y - y/xinformacin
xy valor
estn incorrelacionadas; pero que la incorrelacin no implica necesariamente independencia, ya
=las
E(Zvariables
x + Zy) = 0, de donde se deduce que las variables X e Y presentan una relacin
0.
queestn
podran
presentar una dependencia
no lineal
aun cuando
xy =ambas
incorrelacionadas
ya que no existe
relacin
lineal entre
linealmente
El
coeficiente
de
correlacin
por
cuantificar
de asociacin
lineal
ypermite,
- y/son
- tanto,
= 0,elsegrado
dice que
laselvariables
lineal
negativa
perfecta,
Y =variables
x(X estadsticamente
x). Cuando xy independientes,
variables.
Notar
que
si
dos
en
sentido
entre dos variables, de tal forma que cuanto ms prximo est el coeficiente de correlacin a 1
1,
mayor
ser la dependencia
lineal positiva
negativa
entre lineal
las variables.
Este hecho se
incorrelacionadas
ya queuna
noovariable
existe
relacin
entre informacin
ambas
estn
linealmente
de
que
el
conocimiento
del
valor
que
toma
no
aporta
ninguna
ilustra en los diagramas de dispersin de la Figura 10.1, donde se representan los valores de
la variable
X en
el eje
horizontal
y los correspondientes
valoresindependientes,
de Y en el eje vertical.
A medida
variables.
Notar
que
si dos
variables
son estadsticamente
en la
el sentido
sobre
el
valor
de
la
otra
variable,
entonces
estn
incorrelacionadas;
pero
que
que los puntos del diagrama de dispersin se desvan de una lnea recta perfecta con pendiente
positiva
negativa,
el coeficiente
de que
correlacin
sevariable
aleja de no
1 aporta
1. Aunque la interpretacin
de
de queo el
conocimiento
valor
toma
una
informacin
incorrelacin
no implicadel
necesariamente
independencia,
ya que lasninguna
variables
podran
la magnitud del coeficiente de correlacin depende del contexto particular de aplicacin, en
trminos
generales
que una
correlacin
baja por debajo depero
0,30que
en valor
sobre el
valor
deselaconsidera
otra variable,
entonces
estn es
incorrelacionadas;
la absoluto,

=
0.
presentar
una
dependencia
no
lineal
aun
cuando
xy
moderada entre 0,30 y 0,50, y alta por encima de 0,50.
incorrelacin
no implica
ya que
las
variables
podran
Notar,
por ltimo,
ennecesariamente
la interpretacin
coeficiente
de elcorrelacin
hay
dos errores
El coeficiente
deque
correlacin
permite, independencia,
pordel
tanto,
cuantificar
grado
de asociacin
frecuentes que deben ser evitados:
xyms
= 0.prximo est el coeficiente de
presentar
una
dependencia
notal
lineal
aunque
cuando
entre
dos
variables,
de
forma
cuanto
ylineal
y El coeficiente
de correlacin
entre
X e Y no
es una
medida de la magnitud de la pendiente
de la recta de regresin entre ambas variables. El coeficiente de correlacin determina el
El coeficiente
de correlacin
permite,
por tanto,
cuantificar
grado deentre
asociacin
correlacin
1 -1,
mayor de
serlos
la dependencia
lineal
positiva
oelnegativa
grado de aaproximacin
puntos del diagrama
de dispersin
a una las
lnea recta,
independientemente de cul sea la magnitud de la pendiente de dicha recta. Como se
lineal entreEste
dos variables,
de tal formadiagramas
que cuanto ms
prximo est
coeficiente
de
dispersin
laelFigura
10.1,
variables.
seailustra
ilustra en los hecho
paneles
y b deenlalos
Figura 10.2, el de
coeficiente
de de
correlacin
es
mayor en el
panel a, a pesar de que la pendiente de la recta de regresin es mayor en el panel b. La
correlacin
a 1 -1, mayor
ser ladedependencia
positiva
o negativa
las
donde
se representan
losdevalores
la
Xlineal
en el
eje horizontal
y losentre
pendiente
de la recta
regresin
novariable
se determina
mediante
el coeficiente
de correlacin,
sino mediante las tcnicas de regresin lineal simple que se discutirn en la segunda parte
variables. Este hecho
se ilustra en los diagramas de dispersin de la Figura 10.1,
correspondientes
de este tema. valores de Y en el eje vertical. A medida que los puntos del diagrama
yde
y El
coeficiente
de correlacin
no la
esrecta
unaperfecta
medida
deeje
la
idoneidad
lineal.
donde
se representan
los de
valores
de
variable
X en con
el
horizontal
ydel
losmodelo
dispersin
se desvan
una lnea
pendiente
positiva
o negativa,
el El
coeficiente de correlacin slo determina la existencia de una componente lineal en la
relacin entre
dos
variables,
independientemente
dela
lainterpretacin
forma
demagnitud
dicha
relacin.
correspondientes
valores
de
en eldeeje1 vertical.
A medida
que subyacente
los puntos
del
diagrama
coeficiente
de correlacin
seYaleja
-1. Aunque
de la
As, por ejemplo, el coeficiente de correlacin es mayor en el panel d que en el panel c de
Figura 10.2,
aun cuando
relacin
subyacente
entre las variables
panel el
d es
deladispersin
se desvan
de una la
lnea
recta perfecta
con pendiente
positiva o del
negativa,
3
claramente no lineal (en este caso, cuadrtica). Por ello, antes de analizar el grado de
asociacindelineal
entre se
dosaleja
variables,
es Aunque
aconsejable
inspeccionardelalanaturaleza
coeficiente
correlacin
de 1 -1.
la interpretacin
magnitud de la
relacin mediante un diagrama de dispersin.
3
156

Pastor-Barriuso R.

Coeficiente de correlacin

(a) xy = 0,70

(b) xy = 0,50

(c) xy = 0,30

(d) xy = -0,70

(e) xy = -0,50

(f) xy = -0,30

Figura 10.1

Figura 10.1 Diagramas de dispersin entre dos variables aleatorias X e Y con coeficientes de correlacin
positivos xy = 0,70 (a), 0,50 (b) y 0,30 (c), as como con coeficientes de correlacin negativos xy = 0,70 (d),
0,50 (e) y 0,30 (f).

(a) xy = 0,70

(b) xy = 0,50

(c) xy = -0,70

(d) xy = -0,80

Figura 10.2

Figura 10.2 Diagramas de dispersin, coeficientes de correlacin y rectas de regresin entre dos variables
aleatorias X e Y con distintas pendientes de la recta de regresin (paneles a y b) y distintas formas de la
relacin subyacente (paneles c y d).
Pastor-Barriuso R.

157

Una vez descritas las propiedades e interpretacin del coeficiente de correlacin

poblacional, en este apartado se presentan los mtodos para estimar el coeficiente de


Correlacin y regresin lineal simple
AS DE TENDENCIA
CENTRAL
correlacin entre dos variables X e Y a partir de los valores observados de ambas

de tendencia central informan acerca de cul es el valor ms representativo


una
muestra demuestral
n sujetos de
mutuamente
variables
(xi, yi) ende
10.2.1
Coeficiente
correlacin
Pearson independientes, i = 1, ..., n.

minada variableUna
o, dicho
de forma las
equivalente,
estos
estimadores indican
vez
descritas
propiedades
e interpretacin
del coeficiente
de correlacin
El estimador
muestral
ms utilizado
para evaluar
la dependencia
lineal entrepoblacional,
dos
en este apartado se presentan los mtodos para estimar el coeficiente de correlacin entre dos
qu valor se agrupan
los X
datos
medidas
de tendenciaambas variables (x , y ) en una muestra de
variables
eXYeaobservados.
losLas
valores
variables
Ypartir
es el de
coeficiente
de observados
correlacin de
muestral de Pearson, que
i
i se denota por
n sujetos mutuamente independientes, i = 1, ..., n.
muestra sirven tanto para resumir los resultados observados como para
o simplemente
por ms
r, y se
define para
comoevaluar
la covarianza
muestrallineal
entreentre
X e Ydos
dividida
rEl
xy,estimador
muestral
utilizado
la dependencia
variables X
Y esparmetros
el coeficiente
de correlacin
muestral de Pearson,
que se denota por rxy, o simplemente
encias acerca dee los
poblacionales
correspondientes.
A
producto
sus la
desviaciones
muestrales,
porpor
r, yel se
define de
como
covarianzatpicas
muestral
entre X e Y dividida por el producto de sus
muestrales,
se describen losdesviaciones
principales tpicas
estimadores
de la tendencia central de una
n
1 n
(
x

x
)(
y

y
)
( x i x )( y i y )
i

i
n 1 i =1
i =1
,
r=
=
n
n
sx s y
( xi x ) 2 ( y i y ) 2
aritmtica
i =1

i =1

mtica, denotada
por x ,ysesxdefine
la ysuma
de cada uno
de los
donde
son lacomo
media
la desviacin
tpica
muestral de X y y y sy son la media y la
donde xtpica
y sx son
la media
y la
desviacin
tpicademuestral
de Xmuestral
y y y syde
son
la media
y
desviacin
muestral
de Y.
As,
el coeficiente
correlacin
Pearson
se define
trales dividida por
el nmero
de observaciones
Si denotamos
de forma
anloga
al coeficiente realizadas.
de correlacin
poblacional, reemplazando la covarianza y las
desviaciones
tpicas
poblacionales
suselcorrespondientes
estimadores
muestrales.
. As,
coeficiente de correlacin
muestral
de Al igual
la desviacin
tpica
muestral de Ypor
quexielelcoeficiente
de correlacin
poblacional,
de correlacin muestral siempre
o muestral y por
valor observado
para el sujeto
i-simo, iel= coeficiente
1, ..., n,
1 yforma
1, de anloga
tal formaal que
cuanto ms
se aproxime
a 1 1, mayor ser la
toma
valores
Pearson
se entre
definede
coeficiente
de correlacin
poblacional,
dra dada por dependencia lineal positiva o negativa entre las variables.
reemplazando la covarianza y las desviaciones tpicas poblacionales por sus
Ejemplo 10.1 En la Figura 10.3 se presenta el diagrama de dispersin entre el ndice de
x + x 2 + ... + x n
1 n
masa
medida de. obesidad
queAl
se igual
obtiene
el peso
kilogramos por la
= 1
x =correspondientes
x i corporal,
estimadores
muestrales.
quedeeldividir
coeficiente
deencorrelacin

n i =1
n

Colesterol HDL (mmol/l)

poblacional, el coeficiente de correlacin muestral siempre toma valores entre -1 y 1, de


2,25
es la medida de tendencia central
ms utilizada y de ms fcil
tal forma que cuanto ms se aproxime a 1 -1, mayor ser la dependencia lineal
2
n. Corresponde al centro de gravedad
de los datos de la muestra. Su
positiva o negativa entre las variables.
itacin es que est muy influenciada por los valores extremos y, en este

1,5
10.1
En lade
Figura
10.3 se presenta el diagrama de dispersin entre el
no ser un fiel reflejo de laEjemplo
tendencia
central
la distribucin.

ndice de masa corporal, medida de obesidad que se obtiene de dividir el peso en


o 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
1

n los valores del colesterol HDL obtenidos en los 10 primeros sujetos del

European Study on Antioxidants,


Myocardial Infarction and Cancer of
0,5

ast (EURAMIC), un estudio


0,25multicntrico de casos y controles realizado

991 y 1992 en ocho pases Europeos e20Israel para evaluar


el efecto de
24
28 los

32

36

Indice de masa corporal (kg/m)

Figura 10.3
Figura 10.3 Diagrama de dispersin entre el ndice de masa corporal y el colesterol HDL en el grupo
control del estudio EURAMIC.

158

Pastor-Barriuso R.

que indica una asociacin lineal negativa moderada entre el ndice de masa
controles del estudio EURAMIC con valores para ambas variables. A simple
corporal y el colesterol HDL.
Coeficiente de correlacin
vista, se aprecia un cierto grado de dependencia lineal negativa entre ambas
variables; esto es, el colesterol HDL tiende a decrecer conforme aumenta el ndice
altura en metros al cuadrado,
el colesterol
HDL enaqu]
los 533 controles del estudio
[Figura y10.3
aproximadamente
de masa corporal.
Esta apreciacin
se confirma
mediante
clculoundelcierto grado
EURAMIC
con valores
para ambasvisual
variables.
A simple
vista, seelaprecia
de dependencia lineal negativa entre ambas variables; esto es, el colesterol HDL tiende a
coeficiente
de de
correlacin
de
decrecer
conforme
aumentamuestral
elrndice
dePearson,
masa
corporal.
Esta apreciacin
visual
se confirma
de Pearson
tiene
una distribucin
muestral
tanto
ms
El coeficiente
correlacin
mediante el clculo del coeficiente de correlacin muestral de Pearson,
asimtrica cuanto ms distante
1 533 est la correlacin subyacente del valor 0. Cuando
( xi x )( y i y ) 0,285
532 i =1
est relativamenterprximo
a 1 -1, las estimaciones
muestrales
del coeficiente de
=
=
= 0,276,
sx s y
3,50 0,295
en la de
cola
que corporal
no est y el
correlacin
tendern
por fuerza
a desviarse
del parmetro
que indica
una asociacin
lineal
negativams
moderada
entre el ndice
masa
que indicaHDL.
una asociacin lineal negativa moderada entre el ndice de masa
colesterol
limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribucin con
El coeficiente
decolesterol
correlacin
r de Pearson tiene una distribucin muestral tanto ms asimtrica
corporal y el
HDL.
un marcado
sesgoest
negativo
o positivo.
Por ello, el
intervalo
de confianza
cuanto
ms distante
la correlacin
subyacente
clculo
del valorde0.unCuando
est
relativamente
prximo a 1 1, las estimaciones muestrales del coeficiente de correlacin tendern por fuerza
realizarse
a partir
de la por
distribucin
r,
y un test ms
de hiptesis
para no
a desviarse
del parmetro
ensuele
la cola
que no est
limitada
el rango muestral
[1, 1] dedevalores
10.3 aproximadamente
aqu]sesgo negativo o positivo. Por
posibles de r, resultando en[Figura
una distribucin
con un marcado
z de Fisher
sino
mediante
ello,
el clculo
delauntransformacin
intervalo de confianza
y un test de hiptesis para no suele realizarse a
partir de la distribucin muestral de r, sino mediante la transformacin z de Fisher
El coeficiente de correlacin r de Pearson tiene una distribucin muestral tanto ms
1
1 + r
z = log
,
2no es
r pequeo,
del
valor 0. Cuando
asimtrica
cuanto
msydistante
estmuestral
la correlacin
subyacente
1muy
del modelo
normal
el tamao
tpicamente
n > 50, la
cuya distribucin muestral presenta una mayor simetra para cualquier valor de . Puede
esttransformacin
relativamente
a 1sedistribuye
-1,poblacionales
las estimaciones
muestrales
del
de mucho del
de
Fisher
forma
aproximadamente
con
probarse
que si laszprximo
distribuciones
de
las
variables
X coeficiente
e Ynormal
no
distan
. Puede
cuya distribucin
muestral
presenta
una de
mayor
simetra
para cualquier
valor
de media
modelo normal y el tamao muestral no es muy pequeo, tpicamente n > 50, la transformacin
en la cola
que+no
est )}/2 y
tendern
porde
a desviarse
parmetro
que
)/(1
)}/2
yfuerza
varianza
1/(n
- 3),ms del
zcorrelacin
delog{(1
Fisher+se
distribuye
forma
aproximadamente
normal
con media
)/(1
probarse
si- las
distribuciones
poblaciones
de las
variables
X e Y log{(1
no distan
mucho
varianza 1/(n 3),
limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribucin con 6
~ N 1 log 1 + , 1 .
z
1el
2 ello,
n de
3 un intervalo de confianza
un marcado sesgo negativo o positivo. Por
clculo

Notar
quedelahiptesis
varianza para
de z es
inversamente
proporcional
al la
tamao
muestral
e independiente
de
no
suele realizarse
a partir de
distribucin
muestral
de r,
y un test
Notar que lasubyacente
varianza de
la correlacin
. z es inversamente proporcional al tamao muestral e

sino mediante la transformacin z de Fisher


independiente
de laLas
correlacin
subyacente
Ejemplo 10.2
Figuras 10.4(a)
y (b).muestran las distribuciones del coeficiente de
correlacin r de Pearson y de la transformacin z de Fisher entre el ndice de masa corporal
1
1 + r simples de tamao 50 obtenidas a partir
y el colesterol HDL en 1000 muestras
z = logaleatorias
muestran
,
10.2 del
Lasestudio
FigurasEURAMIC.
10.4(a)
las distribuciones
coeficiente
de Ejemplo
los controles
muestral de rdel
presenta
un leve
2 y (b)
1 La
r distribucin

sesgo positivo ya que el percentil 75 (0,18) est ligeramente ms alejado de la mediana


de correlacin
r de Pearson
y de la
transformacin
de Fisher
entrelaeltransformacin
ndice de
(0,28)
que el percentil
25 (0,36).
Para
corregir esta zleve
asimetra,
z
Puede de la
cuya distribucin
muestral
presenta
una
mayor
simetra
para
cualquier
valor
de
de Fisher aumenta la dispersin de los valores de r ms distantes de 0 (cola.inferior
masa corporal
y el colesterol
HDL constantes
en 1000 muestras
aleatorias
simples
de tamao
distribucin)
y mantiene
virtualmente
los valores
prximos
a 0 (cola
superior),
probarse
que
si
las
distribuciones
poblaciones
de
las
variables
X
e
Y
no
distan
mucho
dando lugar as a una distribucin sensiblemente ms simtrica.
50 obtenidas a partir de los controles del estudio EURAMIC. La distribucin
6
En este ejemplo, la distribucin muestral del coeficiente de correlacin r de Pearson
presenta
unade
leve
asimetraunyaleve
quesesgo
la correlacin
0,276 en
losest
controles
muestral
r presenta
positivo subyacente
ya que el percentil
75 todos
(-0,18)
del estudio EURAMIC es moderadamente baja. En otras situaciones donde la correlacin
subyacente
sea
la distribucin
muestral
r ser
notablemente
asimtrica
ligeramente
msalta,
alejado
de la mediana
(-0,28)deque
el percentil
25 (-0,36).
Para y, en
consecuencia, el efecto normalizador de la transformacin z de Fisher ser mucho ms
marcado.
corregir esta leve asimetra, la transformacin z de Fisher aumenta la dispersin

de los valores de r ms distantes de 0 (cola inferior de la distribucin) y Pastor-Barriuso


mantiene R.
virtualmente constantes los valores prximos a 0 (cola superior), dando lugar as a

159

Correlacin y regresin lineal simple

Frecuencia relativa (%)

20
15

20

[Figura 10.4 aproximadamente


aqu]
15

10

10

En base a la distribucin muestral de la transformacin z de Fisher, el intervalo de

confianza al 100(1 - )% para el parmetro log{(1 + )/(1 - )}/2 viene dado por
[Figura 10.4 aproximadamente
aqu]
0
1
(z1, z2)0= z 0,2z1 / 2 -0,8 , -0,6 -0,4 -0,2
-0,8
-0,6
-0,4
-0,2
0
0,2
3
n

En base a la distribucin muestral de la transformacin z de Fisher,


de
1 elintervalo
1+ r
0

(a) r

(b ) z =

log

1 r

log{(1 +normal
)/(1 - estandarizada.
)}/2 viene dado
confianza
100(1
- )% para
el percentil
1 - el/2parmetro
de la distribucin
As,por
el
donde
z1-/2ales

Figura 10.4 Distribucin muestral


del coeficiente
de correlacin r deaqu]
Pearson (a) y de la transformacin
[Figura
10.4 aproximadamente
z deintervalo
Fisher (b)de
entre
el
ndice
de
masa
corporal
y
el
colesterol
HDL
en
1000
muestraspoblacional
aleatorias simples
correlacin
de
confianza al 100(1 - )% para el coeficiente
1 deLas
tamao 50 obtenidas a partir de los controles
del
estudio
EURAMIC.
lneas
verticales
en
trazo
discon,
(z1, z2) = z z1 / 2
tinuo representan los parmetros subyacentes = 0,276
y log{(1
+
)/(1

)}/2
=
0,284.
n3

se obtiene
el inverso
de la transformacin
de Fisher
ambos el
lmites
del Figura
En basedea aplicar
la distribucin
muestral
de la transformacin
z dea Fisher,
intervalo
de 10.4

intervalo,
para
log{(1 +normal
)/(1
)}/2 viene
dado
confianza
100(1
- )%muestral
el percentil
1 - el/2parmetro
de
As,por
el confianza
donde
z1-a/2al
En base
laes
distribucin
de la
la distribucin
transformacin
z de- estandarizada.
Fisher,
el intervalo
de
al 100(1 )% para el parmetro log{(1 + )/(1 )}/2 viene dado por
coeficiente
intervalo de confianza al 100(1
- )%
exp(
2 z1para
) 1 elexp(
2 z )1 1 de correlacin poblacional
z ,z1 / 2 2
, .
(z1 , z2 ) =
n

3
z
z
exp(
2
)
1
+
exp(
2
)
+
1
1
2

se obtiene de aplicar el inverso de la transformacin de Fisher


a ambos lmites del
donde z1/2 es el percentil 1 /2 de la distribucin normal estandarizada. As, el intervalo de
intervalo,
confianza
)%
de correlacin
sepuntual
obtiene
elpercentil
1el- ms
coeficiente
/2 de
la distribucin
normal
As, elr de aplicar
donde
zal
1-100(1
/2 es para
espara
tanto
asimtrico
alrededor
depoblacional
laestandarizada.
estimacin
Este
intervalo
el inverso de la transformacin de Fisher a ambos lmites del intervalo,
coeficiente
poblacional
intervalo
de confianza
al 100(1
- )%
cuanto
mayor
sea r en valor
absoluto
sea2el
muestral. Asimismo,
el
exp(
2 zy1para
)menor
z 2 tamao
1 elexp(
) 1 de correlacin
.

,
1
1 ) + 1 exp( 2 z 2 )
exp(
se obtienededelaaplicar
el inverso
de la2 ztransformacin
de+ Fisher
a ambos lmites del
contraste
hiptesis
nula H
0: = 0 frente a la hiptesis alternativa bilateral H1:
Este intervalo para es tanto ms asimtrico alrededor de la estimacin puntual r cuanto mayor
intervalo,
sea
r0 en
valor absoluto
sea
tamao muestral.
Asimismo,
el contraste
de la
se intervalo
realiza
mediante
eltanto
estadstico
mselasimtrico
alrededor
de la estimacin
puntual
r hiptesis
Este
para yesmenor
nula H0: = 0 frente a la hiptesis alternativa bilateral H1: 0 se realiza mediante el estadstico
cuanto mayor sea r en valor absoluto
sea el tamao muestral. Asimismo, el
exp(2 zy1 )menor
1 + 20z 2 ) 1 .
1 1 ,exp(

exp(z2z1 2) +log
1 exp(
2 z 2 ) + 1

alternativa bilateral H1:


a la0hiptesis
contraste de la hiptesis nula H0: = 0 frente

,
1
Este
realiza mediante
estadstico
ms asimtrico
de la estimacin puntual r
para eseltanto
0 se intervalo
3
n alrededor

160

que bajo H0 sigue aproximadamente una distribucin normal estandarizada. El valor P del
cuanto mayor sea r en valor absoluto y menor sea el tamao muestral. Asimismo, el
contraste
se Hcalcula,
tanto, como el una
rea
bajo
normal
estandarizadaElpara
1 +lacurva
que bajo
aproximadamente
estandarizada.
valoraquellos
P
1 distribucin
0 sigue por
0 normal

log
z

valores tanto o ms distantes de 0 que el valor


observado
del estadstico.
0hiptesis
alternativa bilateral H :
contraste de la hiptesis nula H0: = 20 frente
1 a la

, curva normal estandarizada1 para


del contraste se calcula, por tanto, como el rea bajo la
1
Ejemplo 10.3 A partir de 533 controles del estudio EURAMIC, la estimacin puntual del
0 se realiza
mediante el estadstico
nque
masa
3 el corporal
aquellos
valores
tanto o msentre
distantes
de 0de
valor observado
del estadstico.
coeficiente
de correlacin
el ndice
y el colesterol
HDL fue r = 0,276.
La transformacin z de Fisher de esta correlacin es z = log{(1 0,276)/(1 + 0,276)}/2 = 0,284.
estimacin por una
intervalo
correlacin subyacente entre ambas
1 +dela
quePara
bajoobtener
H0 sigueuna
aproximadamente
1 distribucin
0 normal estandarizada. El valor P

log del estudio


Ejemplo 10.3 A partir de 533zcontroles
EURAMIC, la estimacin
2
1 0
, curva normal estandarizada para
del contraste se calcula, por tanto, como el rea bajo la
puntual
del coeficiente de correlacin1entre el ndice de masa corporal y el
Pastor-Barriuso
R.
3 el valor observado del estadstico.
aquellos valores tanto o ms distantes de 0nque
8

referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el


1
= -0,284 1,960,043 = (-0,369; -0,199)
0,284 z 0,975
entre ambas variables en la poblacin de
intervalo de la correlacin533
subyacente
3

parmetro log{(1 + )/(1 - )}/2 como


Coeficiente de correlacin
referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el
y, a continuacin, se aplica el
1 inverso de la transformacin de Fisher a ambos
= -0,284 1,960,043 = (-0,369; -0,199)
0,284 z 0,975
-533
)}/2
como del estudio EURAMIC, se calcula en primer lugar
parmetro
log{(1
+ )/(1 de
variables en
la poblacin
referencia
3

lmites
el
IC al del
95%intervalo
para el parmetro log{(1 + )/(1 )}/2 como
asociacin lineal subyacente entre ambas variables. Adems, las inferencias basadas en
1 inverso de la transformacin de Fisher a ambos
y, a continuacin,
aplica el
0,284
2(zse
= 0,284
1,96
= ( 0,369; 0,199)
0 ,0
975
exp{
,
369
)}

1 exp{
2(de
0,199
)} 0,043
1 muestral
la transformacin
correlacin
asumen que las
533coeficiente
,3
de Fisher del
= (-0,353; -0,196).
exp{
2
(
0
,
369
)}
1

+
exp{
2
(

0
,
199
)}
+
1

lmites del intervalo


y, a continuacin, se aplica el inverso de la transformacin de Fisher a ambos lmites del
variables se distribuyen de forma aproximadamente normal y que el tamao muestral es
intervalo
y,
a continuacin, se aplica el inverso de la transformacin de Fisher a ambos
Notar que elexp{
intervalo
resultante
es ligeramente
respecto
aevidencia
la
2(0,En
369
)} 1 exp{
2(0,199)} asimtrico
1
suficientemente
grande.
aquellas
una
clara
en
= ( 0,353;
0,196).
, situaciones dondeexista
lmites delintervalo
exp{2(0,369)} + 1 exp{2(0,199)} + 1
puntual
estimacin
r =o-0,276.
Para contrastar
hiptesis
de ausencia
contra
de la normalidad,
bien cuando
la muestralasea
muy pequea,
estasde
inferencias
Notar que el intervalo resultante es ligeramente asimtrico respecto a la estimacin
exp{
2entre
(0Para
,369
)}contrastar
1variables
exp{2la(H
0,199
)}0,
de
1se ausencia
elde
estadstico
asociacin
ambas
0,276.
hiptesis
asociacin
lineal entre
puntual
r =ellineal
Notar
que
intervalo
resultante
asimtrico
respecto
a la En este
0: =mtodos
calcula
= (-0,353;
-0,196).
, es ligeramente
pueden
resultar
engaosas
y es
preferible
utilizar
no paramtricos.
exp{
2
(
0
,
369
)}
1

+
exp{
2
(

0
,
199
)}
+
1
ambas variables
H0: = 0, se calcula el estadstico

estimacin
puntual
= -0,276. Para
contrastar la
hiptesis
dede
ausencia
de como un
apartado se presenta elrcoeficiente
de correlacin
los rangos
Spearman
6,53,
0,284
533 3 =de
Notar que el intervalo resultante es ligeramente asimtrico respecto a la
0, se calcula
elrelacin
estadstico
asociacin
lineal
ambas
Hla
que corresponde
aentre
un valor
P variables
bilateral
bajo
la=distribucin
normal
estandarizada
0:
procedimiento
no paramtrico
para
detectar
existencia
de una
montona 2P(Z
que
corresponde
a
un
valor
P
bilateral
bajo
la
distribucin
normal
estandarizada
6,53)
=
2F(6,53)
<
0,001.
En
conclusin,
existe
una
asociacin
lineal
estimacin puntual r = -0,276. Para contrastar la hiptesis de ausencia de moderada pero
significativa
entre el ndice
corporal y ellineal)
colesterol HDL con un coeficiente de
(creciente
o decreciente,
aunquede
nomasa
necesariamente
-0,284
533 3 = -6,53, entre dos variables
correlacin
de
0,28
(IC
al
95%
0,35
a
0,20;
P
<
0,001).

-6,53)
=
2

(-6,53)
<
0,001.
En
conclusin,
unaelasociacin
2P(Z
calcula
estadsticolineal
asociacin lineal entre ambas variables H0: = 0, seexiste
cualesquiera, que pueden ser variables continuas con distribuciones subyacentes no
moderada
pero de
significativa
el ndice
masa
corporal
y el colesterol
HDL
corresponde
a correlacin
un valor Pentre
bilateral
bajo de
la de
distribucin
normal
estandarizada
10.2.2que
Coeficiente
de los
rangos
Spearman
-0,284 533
3 = -6,53,
normales o incluso variables cualitativas
ordinales.
Al igual
que
la
media
y
la
desviacin
tpica
muestral,
el 95%
coeficiente
correlacin
de Pearson es
con
un
coeficiente
de
correlacin
de
-0,28
(IC al
-0,35
ade-0,20;
P < 0,001).
existe
una
asociacin
lineal
2P(Z -6,53) = 2(-6,53) < 0,001. En conclusin,
sensible
a
la
presencia
de
valores
extremos
en
alguna
de
las
variables,
que
podran
distorsionar
la
Si se desea determinar el grado en que dos variables se relacionan de forma
que
corresponde
a
un
valor
P
bilateral
bajo
la
distribucin
normal
estandarizada
estimacin
resultante,
no siendo entonces
buen reflejo
decorporal
la asociacin
lineal subyacente
moderada
pero significativa
entre elunndice
de masa
y el colesterol
HDL entre
ambas
variables.
Adems,
las
inferencias
basadas
en
la
transformacin
de
Fisher
del
coeficiente
montona
sin realizar
ninguna asuncin
sobre la
poblacional de ambas
10.2.2
Coeficiente
de
correlacin
de los En
rangos
dedistribucin
Spearman

-6,53)
=
2

(-6,53)
<
0,001.
conclusin,
existe
una
asociacin
lineal
2P(Z
de correlacin
muestral asumen
que lasdevariables
forma
con un coeficiente
de correlacin
-0,28 (ICseal distribuyen
95% -0,35 ade
-0,20;
P <aproximadamente
0,001).
normal
y
que
el
tamao
muestral
es
suficientemente
grande.
En
aquellas
situaciones
donde
exista
variables,
basta
con
utilizar
el
orden
de
las
observaciones
de
cada
variable
en
lugar
Al igual
que la media
y la desviacin
tpica
muestral,
el coeficiente
de
correlacin
de de
moderada
pero
significativa
entre
el
ndice
de
masa
corporal
y
el
colesterol
HDL
una clara evidencia en contra de la normalidad, o bien cuando la muestra sea muy pequea, estas
inferencias
puedenvalores.
resultar As,
engaosas
ysujeto
es preferible
utilizar
noyparamtricos.
En este
rangos
si en funcin
sus verdaderos
a cada
se
le de
asignan
losmtodos
Pearson
esunsensible
a lacorrelacin
presencia
de
valores
extremos
en alguna
de
lasri variables,
que de
10.2.2
Coeficiente
de
de
los
rangos
Spearman
con
coeficiente
de
correlacin
de
-0,28
(IC
al
95%
-0,35
a
-0,20;
P
<
0,001).
apartado se presenta el coeficiente de correlacin de los rangos de Spearman como un procedimiento
no la
paramtrico
para
detectar
existencia valores
de una observados
relacin montona
(creciente
decreciente,
yi de
dentro
de la omuestra
posicin
que
ocupan
suslarespectivos
xi eun
podran
distorsionar
layestimacin
resultante,
no siendo
entonces
buen
reflejo
dedela
Al
igual
que
la
media
la
desviacin
tpica
muestral,
el
coeficiente
correlacin
aunque no necesariamente lineal) entre dos variables cualesquiera, que pueden ser variables
continuas
conascendentemente
distribuciones
subyacentes
normales
o que
incluso
variables
cualitativas
ordinales.
10.2.2
Coeficiente
de correlacin
los
rangos
dede
Spearman
ordenada
por de
Xdeevalores
Y. no
En
elextremos
caso
existan
observaciones
Pearson
es sensible
a la presencia
en alguna
devarias
las variables,
que
9 sin
Si se desea determinar el grado en que dos variables se relacionan de forma montona
Al
igual
que
la
media
y
la
desviacin
tpica
muestral,
el
coeficiente
de
correlacin
de
con
el
mismo
valor
de
una
variable
(empates),
se
asigna
a
cada
una
de
ellas
la
media
de con
realizar distorsionar
ninguna asuncin
sobre la
distribucin
poblacional
deun
ambas
basta
podran
la estimacin
resultante,
no siendo
entonces
buen variables,
reflejo de la
utilizar el orden de las observaciones de cada variable en lugar de sus verdaderos valores. As,
Pearson
es sensible
a la presencia
valores
enlaalguna
las variables,
que
se sus
calcula
los rangos
correspondientes.
Elde
coeficiente
de correlacin
rs dedeSpearman
funcin
de
posicin
que
ocupan
respectivos
a cada
sujeto
se
le asignan
los rangos
ri y si enextremos
valores observados xi e yi dentro de la muestra ordenada ascendentemente por X e Y. En 9el caso
podran
distorsionar
laobservaciones
estimacin
resultante,
no siendo
entonces
un buen(empates),
reflejo
la asigna a
como
el
coeficiente
de correlacin
de Pearson
los de
valores
de simplemente
que existan
varias
con
el mismo
valor
de unareemplazando
variable
se
cada una de ellas la media de los rangos correspondientes. El coeficiente de correlacin rs de
por sus correspondientes
rangos (r
si),
observados
(xi, yi)simplemente
Spearman
se calcula
como el coeficiente
dei, correlacin
de Pearson reemplazando
9
los valores observados (xi, yi) por sus correspondientes rangos (ri, si),
n

rs =

(r
i =1

(r
i =1

r )( s i s )

r)2

(s
i =1

s)2

Pastor-Barriuso R.

10

161

= -1,
verifican
que si =orden
n+
montona
creciente
perfecta.
De igual forma,
si rs de
decir,
observados
de valores
las variables
Xlose rangos
Y presentan
una relacin
yi < yj; es que
correspondientes
la variable
Y preservan
verifican
xi <losxde
j,valores
clculo
del
correlacin
desimplifica
Spearman
se simplifica
notablemente
yadicho
que la
lculo del coeficiente
decoeficiente
correlacin
desus
Spearman
se
notablemente
ya que
la

donde
se
deduce
que
losigual
valores
e presentan
Y presentan
relacin
1ymontona
- ri,j;yde
verifican
que
si = n +
creciente
perfecta.
De
forma,
si variables
rs = -1, Xlos
loses
valores
observados
dede
laslas
variables
eXYrangos
unauna
relacin
Correlacin
regresin
lineal
simple
i<y
de es
losdecir,
rangos
varianza de losvarianza
rangos
es

= 0,
rangos X
estn
montona
decreciente
perfecta.
Cuando
rsde
se deduce
queDe
los
valores
las
e Y incorrelacionados
presentan
una
relacin
1 - ri, de donde
rangos
verifican
que
si y=no
n+
montona
creciente
perfecta.
igual
forma,
silos
rvariables
s = -1, los
n
n
n
n
1
1
2
2
21
21
r
si s )Elde
(rs)i ==sentre
(ri r montona
)medios
)= (n
= (son
donde
losrelacin
rangos
+ (valores
1)/2.
coeficiente
de correlacin de Spearman

i alguna
los
ambas
= 0,
rangos
estn
incorrelacionados
y no
montona
decreciente
perfecta.
Cuando
rsde
donde
se
deduce
que
los
valores
laslos
variables
X
evariables.
Y presentan
una relacin
1existe
- ri,1de
n
n
1
1

n
n
1

i
i
1
1
=
=
i
i
1
1
=
=
siempre toma valores entre 1 y 1. Si rs = 1, los rangos son necesariamente idnticos si = ri, de
2
2 n
n
tal existe
forma
que
si de
dos
observaciones
variable
verifican
xi < xel
, sus
+de
n(en
nestn
+variables.
1) Xincorrelacionados
nentre
+cualesquiera
nvalores
1perfecta.
1 idnticos
(n0,+n1los
) 1de
la ambas
valores
En el
caso
que
no
haya
(empates)
ninguna
de las que
variables,
relacin
montona
alguna
los
=
rangos
y noj
montona
decreciente
Cuando
r
s
=

=
i
=

=
i

correspondientes valores
variable
dicho orden
12 yi < yj; es decir, los valores
n de
1 i =la
2n 1Yi =preservan
1 12 2
1
observados
de
las
variables
X
e
Y
presentan
una
relacin
montona
creciente
perfecta.
De el
igual
clculo
del
coeficiente
correlacin
de
simplifica
notablemente
ya que
la
En el
caso
demontona
que nodehaya
valores
(empates)
envariables.
ninguna
de las
variables,
existe
relacin
alguna
entreidnticos
losSpearman
valores
deseambas
forma, si rs = 1, los rangos verifican que si = n + 1 ri, de donde se deduce que los valores de
y su
y su covarianza
es covarianza
las
variables
ede
Yrangos
presentan
unavalores
relacin
decreciente
perfecta.
Cuando
varianza
deXes
los
s = 0,
clculo
coeficiente
de
correlacin
demontona
Spearman
se simplifica
notablemente
yarque
la los
En eldel
caso
que noes
haya
idnticos
(empates)
en ninguna
de las
variables,
el
rangos estn incorrelacionados y no existe relacin montona alguna entre los valores de ambas
n
1 del
1 2 de
1 nvariables.
1 1es
varianza
den coeficiente
los rangos
n
n
clculo
den correlacin
Spearman
se simplifica
notablemente ya que la
2 2
(
r

r
)(
s

s
)
=
ri s)(2rs)2(+rsi )(
) (ri s i ) 2 }
(
r

r
)(
s

s
)
=
{(
r

r
)
+
( s1{(
2
2s is

i ( ri r ) =
i
i i
i
i ) s}

i
i
1 i =de
2(n
1) i =n1 1 (empates) en ninguna de las variables, el clculo
n 1 i =1 En elncaso
2(no
n nhaya
1) 1i =1valores
idnticos
1 que
i =1
1
de los
rangos es i =nde
delvarianza
coeficiente
de correlacin
Spearman
ya que la varianza de los
n(n + 11)
1nn 2 n notablemente
1n(n +2n1) se
1 simplifica
2
2
2
=

(
r

s
)
.
n
+
n
n
+
r
r
s
s

1
1
(
1
)
(
)
(
)
=

(
r

s
)
.

rangos es
i )

i
i
= i (1n
i i=
i
12n 1 i =21(n 112
i =1 n 2
i
=11) i =1
n
n
n

1
2 2
12
1
1 i =n1
2
2
r
r
s
s
(
)
(
)

n(n + 1)
1 i n +1
i
= n 1
n 1 i =1
=
i =1 i
Aplicando
ambos
resultados, el
dereduce
Spearman
Aplicando ambos
resultados,
el coeficiente
decoeficiente
correlacinde
a se reduce a
nde
correlacin
1Spearman
2se
12
i =1
2
y su covarianza es
n(n + 1)
1 n n +1
=
i 2 = 12
n 1n i =1
n
6
6
y su covarianza
1 (ri 2s i )12 , n(ri s i ) 2 ,2
rs1= 1nes 2 rs =
r

r
s

{( ri r ) + ( s i s ) 2 (ri s i ) 2 }
(
)(
y su covarianza es ni(n 1)i i =1 s )n=(n 1) i =
n 1 i =1
2(n 1) 1i =1
y su covarianzanes
n
1
1
n
(ri r )( s i s ) =
= n(n + 1)
{( r1i r ) 2 +(r( si
s) 2).2 (ri s i ) 2 }

s
i i
frmula
slo
emplearse
no
rmula que slo
puedeque
emplearse
no haycuando
empates.
1 i =cuando
n puede
2(n12
1hay
) i =1empates.
1
n 2( n 1) i =1
1 n
1
(ri r )( s i s ) = n(n + 1) {( r1i r ) 2n + ( s i s )2 2 (ri s i ) 2 }

n 10.4
1 i =1 En la Tabla 10.1= se
2(npresentan
1)
(ri si ) .
Ejemplo
12 i =1 2(los
n niveles
1) i =1 de -tocoferol y Aplicando ambos resultados, el coeficiente
de
correlacin
de Spearman se reduce a
n
n(n + 1)
1
2
(r10
controles
s-tocoferol

Aplicando
ambos
resultados,
el coeficiente
de correlacin
de
reduce
iSpearman
i ) . 11sedel
Ejemplo
10.4
En laadiposo
Tabla
10.1
se 12
presentan
los
niveles
de
yestudio
- a 11
caroteno
en
tejido
en =una
muestra
aleatoria
de
2(n 1) i =1
Aplicando ambos resultados, el coeficiente
de Spearman se reduce a
n
6 de correlacin
2
=

(
r

s
)
,valores
r
1
s

i
ilos
EURAMIC,
junto con
los rangos
ade
de ambas
caroteno en tejido
adiposo
en unacorrespondientes
10
controles
del estudio
nmuestra
(n 2 1)aleatoria
i =1
Aplicando ambos resultados, el coeficiente de correlacin
de
Spearman
se reduce a
n
6
2
1 correspondientes
=cuando
(ri de
ascorrelacin
) ,valores de Spearman
srangos,
frmula
que sloApuede
hay
empates.
variables.
partir
de estos
elno
coeficiente
se
EURAMIC,
junto emplearse
con
los rrangos
ambas
ilos
n(n 2 1) i =1
frmula que slo puede emplearse cuando
n empates.
6 no hay
2
1
=

(ri de
niveles
scorrelacin
r
calcula
como
s
variables.
A
partir
de
estos
rangos,
el
coeficiente
de Spearman
se
Ejemplo 10.4 En la Tabla 10.1 se presentan
los
y b-caroteno
en

i ) , de a-tocoferol
2
n(n 1) i =1
tejidoque
adiposo
una emplearse
muestra aleatoria
frmula
slo en
puede
cuando de
no10
haycontroles
empates.del estudio EURAMIC, junto con
calcula
como
los
rangos
correspondientes
a los valores de ambas variables. A partir de estos rangos, el
1 10
(
r )( s i no
s ) calcula
coeficiente
de correlacin
de
se
como
frmula
que slo
puede emplearse
hay empates.
rSpearman
i cuando
11
5,06
9 i =1
10
rs =
=
0,552,
=
1
3,03 3,03
1 10 (ri 2 r )(
1 s10i s )
2
11
(
)
(
)
r
r
s
s

5,06
9
i
i
= 0,552,
rs = 9 i =1 i =1
9 i =1
=
3,03 3,03
1 10
1 10
2
11
(
)
(si s ) 2
r
r

i
9 i =1
9 i =1
o de forma equivalente mediante la frmula simplificada en ausencia de empates
o de forma equivalente mediante la frmula simplificada en ausencia de empates
o de forma equivalente
frmula simplificada en6 ausencia
de empates
6 mediante la
74
2
2
rs = 1
{(
7

3
)
+
...
+
(
6

6
)
}
=
1

=
0,552,
10(10 2 1)
10(10 2 1)
6
6 74
fuerte
= 0,552,
{(7 3) 2 + ... + (6 6) 2 } = 1
rs = 1una
que refleja
2 relacin montonamente creciente entre2 los niveles de a-tocoferol
10(10 1)
10(10 1)
yque
b-caroteno.
destacar
quemontonamente
esta estimacincreciente
no esta influenciada
por elde
valor
refleja unaCabe
fuerte
relacin
entre los niveles
- extremo
1,46 mg/g de b-caroteno ya que el rango de esta observacin continuara siendo 10 para
cualquier
arbitrariamente
mayor que
que esta
los dems.
que reflejayvalor
una
fuerte relacin
montonamente
creciente entre
los influenciada
niveles de -por
tocoferol
-caroteno.
Cabe destacar
estimacin
no esta
162

Pastor-Barriuso
R. extremo
tocoferol
y -caroteno.
Cabe
queya
esta
noesta
estaobservacin
influenciada
el
valor
1,46 g/g
dedestacar
-caroteno
queestimacin
el rango de

por

el valor extremo
1,46
de -caroteno
que el rango de
esta observacin
continuara
siendo
10 g/g
para cualquier
valorya
arbitrariamente
mayor
que los dems.

Coeficiente de correlacin

Tabla 10.1 -tocoferol y -caroteno en tejido adiposo en una muestra aleatoria


de 10 controles del estudio EURAMIC.
-tocoferol
Control

-caroteno

Rango (ri)

Valor (g/g)

Valor (g/g)

rs

Rango (si)

t=
1
163,8
7
0,14
3
110
rs2
2
331,9
0,45
8
3
125,1
0,07
1
n 4 2
4
42,9
1
0,44
7
5
211,0
8
1,46
10
sigue aproximadamente
una115,9
distribucin t de Student
con n - 2 grados
de libertad,4
6
2
0,18
7
128,6
5
0,37
5
8 tamao muestral
271,0 sea n > 10. As,
9 el valor P bilateral
0,66 del contraste puede
9
siempre que el
9
118,8
3
0,11
2
10
128,7
6
0,40
6
aproximarse mediante el rea bajo la distribucin t para valores tanto o ms alejados
n-2

igual
que otros
procedimientos
no t.
paramtricos,
el coeficiente
de correlacin
de Al
0 que
el valor
observado
del estadstico
Aparte del mnimo
requerimiento
muestral,de los
rangos de Spearman permite contrastar la hiptesis nula de ausencia de asociacin montona
entre
dos variables.
esta hiptesis
se ha aplicarse
comprobado
que el coeficiente
de correlacin
este contraste
tiene Bajo
la ventaja
adicionalnula,
de poder
a cualquier
distribucin
rs de Spearman tiende a distribuirse de forma normal o, ms concretamente, que el estadstico
rs contraste paramtrico basado en el
subyacente de las variables X e Y, a diferencia del
t=
1 rs2
coeficiente de correlacin de Pearson que requiere de
distribuciones poblacionales
n2
sigue
aproximadamente
una distribucin t de Student con n 2 grados de libertad, siempre que
aproximadamente
normales.
el tamao
muestral
sea
n
> 10.
As,
el valor P bilateral
del contraste
sigue aproximadamente
una
distribucin
t de Student
con n - 2 puede
gradosaproximarse
de libertad, mediante
el rea bajo la distribucin tn2 para valores tanto o ms alejados de 0 que el valor observado del
estadstico
t.que
Aparte
del
mnimo
requerimiento
muestral,
este
la
adicional
Ejemplo
10.5
Como
las distribuciones
subyacentes
delPcontraste
-tocoferol
el ventaja
siempre
el tamao
muestral
sea n > 10.
As, el valor
bilateraltiene
delycontraste
puede
de poder aplicarse a cualquier distribucin subyacente de las variables X e Y, a diferencia del
contraste
paramtrico
basado
el coeficiente
de tcorrelacin
de Pearson
requiere de
caroteno
(Figura
4.3)
marcadamente
asimtricas
en los controles
delque
estudio
aproximarse
mediante
el son
reaen
bajo
la distribucin
n-2 para valores tanto o ms alejados
distribuciones poblacionales aproximadamente normales.
contraste bilateral
de la hiptesis
asociacin
entre ambas
de EURAMIC,
0 que el valorelobservado
del estadstico
t. Apartede
delnomnimo
requerimiento
muestral,
Ejemplo 10.5 Como las distribuciones subyacentes del a-tocoferol y el b-caroteno
variables
a tiene
partir
deventaja
los 10 controles
de
Tabla
10.1
haade
realizarse
mediante
el
4.3)
son la
marcadamente
asimtricas
enaplicarse
los
controles
del estudio
EURAMIC,
el
este(Figura
contraste
adicional
de la
poder
cualquier
distribucin
contraste bilateral de la hiptesis de no asociacin entre ambas variables a partir de los 10
estadstico
en10.1
la correlacin
de losmediante
rangos
deelSpearman
controles
debasado
la Tabla
estadstico
basado
en la correlacin
subyacente
de
las
variables
Xhae de
Y, realizarse
a diferencia
del contraste
paramtrico
basado
en el
de los rangos de Spearman
coeficiente de correlacin de Pearson
rs que requiere
0,552 de distribuciones poblacionales
=
= 1,87,
t=
2
2
1

r
1

0
,
552
s
aproximadamente normales.
8
n2
que bajo la distribucin t de Student con 8 grados de libertad corresponde a un valor
Ejemplo 10.5
subyacentes
del
ydeelcorrelacin
distribuciones
1,87)
= 0,098.
As, aunque
el -tocoferol
coeficiente
de
aproximado
de PComo
= 2P(tlas
que bajo la distribucin
t8de
Student
con 8 grados
de libertad
corresponde
a un
Spearman rs = 0,55 estima una fuerte relacin montonamente creciente entre los valores
caroteno de
(Figura
4.3) sony marcadamente
controles
del estudio
observados
a-tocoferol
b-caroteno,
estaasimtricas
asociacinennolosllega
a ser estadsticamente
valor aproximado
de P = 2P(t
8 1,87) = 0,098. As, aunque el coeficiente de
significativa, probablemente debido a la escasa potencia del test para detectar cualquier
EURAMIC, el contraste
bilateral
de la hiptesis
de no asociacin entre ambas
asociacin
conr tan
reducido
muestral.
correlacinsubyacente
de Spearman
= 0,55
estimatamao
una fuerte
relacin montonamente
s

variables
a partir
de los 10inferior
controles
de laaTabla
ha de realizarse
mediante el
Cuando
el tamao
muestral
o de
igual
10, la10.1
distribucin
creciente
entre los
valoresesobservados
-tocoferol
y -caroteno,t de
estaStudent no es una
buena aproximacin a la distribucin muestral del estadstico t y, en consecuencia, el contraste
estadstico basado en la correlacin de los rangos de Spearman
asociacin no llega a ser estadsticamente significativa, probablemente debido a la
Pastor-Barriuso R.

t=

rs
1 rs2

0,552
1 0,552 2

= 1,87,

163

dada por 1/n!. Haciendo uso de este resultado, es posible derivar la distribucin bajo la
Correlacin
regresin
simple
hiptesisynula
dellineal
coeficiente

de correlacin de Spearman, cuyos percentiles en


10.3 REGRESIN LINEAL SIMPLE

muestras de tamao n 10 se presentan en la Tabla 10 del Apndice. Para un contraste


Lasbasarse
tcnicasendelaregresin
evalan
la relacin
entre dosde
variables
siguiendo
una
debe
distribucin
exacta
del coeficiente
correlacin
de Spearman
bajo la
bilateral con
unSinivel
de significacin
preestablecido,
la hiptesis
de no asociacin
seri de la
hiptesis
nula.
no existe
ninguna relacin
montona entre
las variables,
y los rangos
estrategia
anlisis
distinta a cualquier
la correlacin.
Mientrass ,que
el coeficiente de correlacin
variable
X se de
asumen
constantes,
permutacin
1 ..., sn de los rangos de la variable Y
rechazar
si elprobable
coeficiente
deprobabilidad
correlacin rviene
inferior
al percentil
/2 oresultado,
es
igualmente
y su
dada por es
1/n!.
Haciendo
uso de
este
s de Spearman
determina
el
grado
de
asociacin
lineal
entre
X
e
Y
tratando
ambas
variables
de
forma de
es posible derivar la distribucin bajo la hiptesis nula del coeficiente de correlacin
Spearman,
cuyos percentiles
muestras
superior al percentil
1 - /2 deendicha
tabla. de tamao n 10 se presentan en la Tabla 10 del
simtrica,
la
regresin
lineal
estudia
variacin
el nivel medio
de la variablela hiptesis
10.3
REGRESIN
LINEAL
SIMPLE
Apndice. Para un contraste bilateral conlaun
nivel deen
significacin
preestablecido,
de no asociacin se rechazar si el coeficiente de correlacin rs de Spearman es inferior al
respuesta
medida
cambia
la variable
explicativa
X, estableciendo
as una
10.6
El valor
exacto 1de
para
contraste
bilateral
de
la hiptesis
percentil
/2 Yo asuperior
alque
percentil
de el
dicha
tabla.
LasEjemplo
tcnicas
de regresin
evalan
laP/2
relacin
entre
dos variables
siguiendo
una de no
direccionalidad
en laelrelacin
entreydichas
variables.
Aunque
en
ocasiones la eleccin
asociacin
entre
-tocoferol
el
dadoel
por
estrategia
de10.6
anlisis
a la correlacin.
que
coeficiente
correlacin
Ejemplo
Eldistinta
valor exacto
de-caroteno
P paraMientras
el viene
contraste
bilateral
de ladehiptesis
de no
asociacin entre el a-tocoferol y el b-caroteno viene dado por
entre la variable respuesta y explicativa es un tanto arbitraria (por ejemplo, en la
determina el grado
de asociacin
X e Y tratando
variables
P = P(r
0,552|H )lineal
+ P(rentre
0,552|H
) = 2P(rambas
0,552|H
), de forma
s

asociacin
el -tocoferol
y eldel
-caroteno),
direccionalidad
establecerse
de
ya que laentre
distribucin
bajoestudia
H
de
es simtrica
simtrica,
regresin
lineal
lacoeficiente
variacinlaen
elcorrelacin
nivel mediodesuele
deSpearman
la variable
0
ya que la distribucin
bajo la
H0Tabla
del coeficiente
de correlacin
es el percentil
alrededor
de 0. Utilizando
10 del Apndice
para n = de
10,Spearman
se tiene que
forma
natural
por
el
propio
diseo
del
estudio
o
la
naturaleza
de
las
variables
(porEste valor
de loque
cualcambia
se deduce
que P =explicativa
2P(rs 0,552|H
= 0,10.
rs;0,95 = Y0,552,
respuesta
a medida
la variable
X, estableciendo
una
0) 20,05 as
simtrica
de 0.
la Tabla mediante
10 del Apndice
para n =t 10,
tiene en el
exacto
de alrededor
P es similar
al Utilizando
valor aproximado
la distribucin
de se
Student
ejemplo,
los
cambios
medios
en
el
colesterol
HDL
conforme
aumenta
el
ndice
de
masa
ejemplo anterior.
direccionalidad
en la relacin entre dichas variables. Aunque en ocasiones la eleccin
que el percentil rs;0,95 = 0,552, de lo cual se deduce que P = 2P(rs 0,552|H0)
corporal).
entre la variable respuesta y explicativa es un tanto arbitraria (por ejemplo, en la
10.3 20,05
REGRESIN
LINEAL
SIMPLE
= 0,10. Este
valor exacto
de P es similar al valor aproximado mediante la
El modelo
de regresin
linealy asume
que la media
de la variable suele
respuesta
Y cambiade
asociacin
entre
el -tocoferol
el -caroteno),
la direccionalidad
establecerse
Las tcnicas
de regresin
evalan
relacinanterior.
entre dos variables siguiendo una estrategia de
distribucin
t de Student
en ellaejemplo
linealmente
con
lacorrelacin.
variable explicativa
X;
esto
es, para un de
valor
fijo x de la
variable el grado
anlisis
distinta
a
la
Mientras
que
el
correlacin
determina
forma natural por el propio diseo del estudio coeficiente
o la naturaleza
de las variables
(por
de asociacin lineal entre X e Y tratando ambas variables de forma simtrica, la regresin lineal
explicativa,
el valor
de la variable
respuesta
es Y a medida que cambia la variable
estudia
la variacin
en elesperado
nivel medio
la variable
respuesta
ejemplo,
los cambios
medios
en elde
colesterol
HDL
conforme
aumenta el ndice de masa
explicativa X, estableciendo as una direccionalidad en la relacin entre dichas variables.
Aunque
en ocasiones la eleccin entreE(Y|x)
la variable
y explicativa es un tanto arbitraria
corporal).
= 0 +respuesta
1x,
14
(por ejemplo, en la asociacin entre el a-tocoferol y el b-caroteno), la direccionalidad suele
establecerse
de forma
natural lineal
por elasume
propioque
diseo
del estudio
o la naturaleza
variables
El modelo
de regresin
la media
de la variable
respuestadeYlas
cambia
donde

son
la
constante
y
la
pendiente
de
la
recta
de
regresin
,
respectivamente.
0
1 cambios medios en el colesterol HDL conforme aumenta el ndice de masa
(por ejemplo,
los
corporal).
linealmente con la variable explicativa X; esto es, para un valor fijo x de la variable
La constante 0 determina la media de Y cuando X = 0, E(Y|0) = 0 + 10 = 0, y la
El modelo de regresin lineal asume que la media de la variable respuesta Y cambia
explicativa,
esperado
de la variable
respuesta
linealmente
conellavalor
variable
explicativa
X; esto es,
para un es
valor fijo x de la variable explicativa,
pendiente

corresponde
al
cambio
en
el
valor
medio de Y por cada aumento de una
1
el valor esperado de la variable respuesta es
= 0 + 1 x,
unidad en X, E(Y|x + 1) - E(Y|x) = E(Y|x)
0 + 1(x + 1) - (0 + 1x) = 1. La especificacin del
donde 0 y 1 son la constante y la pendiente de la recta de regresin, respectivamente. La
modelo
completa
los valores
de
la variable
respuesta se
determina
la
media de
Y pendiente
cuando
X de
= individuales
0,la E(Y|0)
= regresin
constante
donde se
1 son la asumiendo
constante
yque
la
recta de
respectivamente.
00 y
0 + 10 =,
0, y la pendiente 1
corresponde al cambio en el valor medio de Y por cada aumento de una unidad en X, E(Y|x + 1)
distribuyen
forma
delcuando
valor esperado
definido
la0 recta

+ 1) normal
(0 +laalrededor
especificacin
del
modelo
E(Y|x)
= 0 + de
La constante
media
Y
X = 0, E(Y|0)
= 0 por
+se1completa
= 0, de
y asumiendo
la
1(x
1x) = de
1. La
0 determina
que los valores individuales de la variable respuesta se distribuyen de forma normal alrededor
As,
ladefinido
estructura
de regresin
lineal esgeneral del modelo de
delregresin.
valor esperado
porgeneral
la rectadel
demodelo
regresin.
As, la estructura
pendiente

1 corresponde al cambio en el valor medio de Y por cada aumento de una


regresin lineal es
unidad en X, E(Y|x + 1) - E(Y|x) = 0Y+=10(x++ 1)
- (,0 + 1x) = 1. La especificacin del
1x +
donde el trmino de error aleatorio , que representa la desviacin de cada respuesta individual
modelo se completa asumiendo que los valores individuales de la variable respuesta se
Y respecto de la recta de regresin 0 + 1x, se distribuye de forma normal con media150 y

distribuyen de forma normal alrededor del valor esperado definido por la recta de
164

Pastor-Barriuso R.

regresin. As, la estructura general del modelo de regresin lineal es


Y = + x + ,

individual Y respecto de la recta de regresin 0 + 1x, se distribuye de forma normal


lineal
con media 0 y varianza 2. Por tanto, la regresin lineal establece que para Regresin
un valor
fijosimple

x de la variable explicativa, la variable respuesta Y sigue una distribucin normal con


varianza 2. Por tanto, la regresin lineal establece que para un valor fijo x de la variable
2
media E(Y|x)
= 0 + respuesta
1x + E()Y=sigue
0 + una
1x distribucin
y varianza var(Y|x)
var(
) = E(Y|x)
,
explicativa,
la variable
normal=con
media
= 0 + 1x +
2
E() = 0 + 1x y varianza var(Y|x) = var() = ,
Y|x ~ N( 0 + 1 x, 2 ),
de donde se derivan las siguientes asunciones:
de donde se derivan las siguientes asunciones:
yy Linealidad: El valor esperado de la variable respuesta Y es una funcin lineal de la variable
explicativa X, de tal forma que cambios de magnitud constante a distintos niveles de X se
Linealidad: El valor esperado de la variable respuesta Y es una funcin lineal de
asocian con un mismo cambio en el valor medio de Y.
yy Homogeneidad
de la varianza:
Laforma
varianza
la variable
respuesta
Y es la misma
para
la variable explicativa
X, de tal
que de
cambios
de magnitud
constante
a
cualquier valor de la variable explicativa X; es decir, a diferencia de la media, la varianza
de Ydistintos
no est relacionada
X.
niveles de Xcon
se asocian
con un mismo cambio en el valor medio de Y.
yy Normalidad: Para un valor fijo de la variable explicativa X, la variable respuesta Y sigue
Homogeneidad
de la varianza: La varianza de la variable respuesta Y es la
una
distribucin normal.
Las asunciones
subyacentes
modelo
devariable
regresin
lineal se X;
representan
misma para
cualquieralvalor
de la
explicativa
es decir, agrficamente
diferencia de en
la la
Figura 10.5. Estas asunciones facilitan el proceso de inferencia sobre la recta de regresin y su
idoneidadmedia,
debe ser
evaluadade
utilizando
diagnsticas,
la varianza
Y no esttcnicas
relacionada
con X. algunas de las cuales se presentan
al final de este tema.
Normalidad
Para unsevalor
fijo la
dedistribucin
la variable explicativa
la una
variable
respuesta
En regresin
lineal: simple
estudia
condicionalX,de
variable
respuesta
continua en funcin de una nica variable explicativa. Esta variable explicativa puede ser tanto
siguecategrica
una distribucin
continua Ycomo
ya que normal.
el modelo de regresin lineal no establece ninguna asuncin
respecto a su distribucin. La extensin de estos modelos al anlisis de regresin lineal mltiple,
Lasse
asunciones
al modelo
regresin
lineal
se representan
grficamente
donde
consideransubyacentes
simultneamente
dos odems
variables
explicativas,
se tratar
en el Tema 11.

en la Figura 10.5. Estas asunciones facilitan el proceso de inferencia sobre la recta de


regresin y su idoneidad debe ser evaluada utilizando tcnicas diagnsticas, algunas de
las cuales se presentan al final de este tema.

Recta de regresin:
E(Y|x) = 0 + 1x

0 + 1x4

[Figura 10.5
aqu]
0 +aproximadamente
1x3
0 + 1x2
Y

0 + 1x1
Enregresin
lineal simple se estudia la distribucin condicional de una variable

respuesta continua en funcin de una nica variable explicativa. Esta variable


explicativa puede ser tanto continua como categrica ya que el modelo de regresin

16
x1

x2

x3

x4

Figura 10.5 Asunciones estadsticas subyacentes al modelo de regresin lineal simple.

Figura 10.5

Pastor-Barriuso R.

165

mutuamente independientes. Intuitivamente, se tratara de identificar la lnea recta que


Correlacin
y regresin
linealal
simple
ms se
aproxime
conjunto

de todos los puntos del diagrama de dispersin entre

ambas variables. Para formalizar esta idea, es preciso calcular la distancia de cada punto
10.3.1 Estimacin de la recta de regresin
observado (xi, yi) respecto al punto correspondiente (xi, y i ) = (xi, b0 + b1xi) sobre la
El primer objetivo de la regresin lineal es obtener estimaciones puntuales b0 y b1 de la constante
0 yrecta
la pendiente
1 deestimada
la recta de
que mejor
se se
ajuste
a los valores
observados
de regresin
enregresin
xi. Esta distancia,
que
representa
en la Figura
10.6, (xi, yi)
de las variables explicativa y respuesta en una muestra de n sujetos mutuamente independientes.
Intuitivamente,
se tratara
lnea
recta que
ms se aproxime
viene dada por
el errorde
deidentificar
estimacinlaen
la variable
respuesta
ei = yi - yali =conjunto
yi - b0 - de
b1xtodos
i.
los puntos del diagrama de dispersin entre ambas variables. Para formalizar esta idea, es
correspondiente
preciso
la distancia
cada determinada
punto observado
(xi, yi) respecto
As, calcular
la recta de
regresinde
vendr
por aquellos
valoresalb0punto
y b1 que
hagan
(xi, y i) = (xi, b0 + b1xi) sobre la recta de regresin estimada en xi. Esta distancia, que se representa
en laeste
Figura
viene
dada por
el error
de estimacin
en la variable o,
respuesta
ei = yi y i =que
yi b0
error10.6,
lo ms
pequeo
posible
para
todas las observaciones
equivalentemente,
b1xi. As, la recta de regresin vendr determinada por aquellos valores b0 y b1 que hagan este
error
lo ms pequeo
para todas
laserror
observaciones o, equivalentemente, que minimicen
minimicen
la sumaposible
de cuadrados
del
la suma de cuadrados del error

SSE =

e
i =1

2
i

i =1

i =1

= ( y i y i ) 2 = ( y i b0 b1 x i ) 2,

tambin llamada suma de cuadrados residual. Notar que los errores se elevan al cuadrado
paratambin
evitar llamada
que se compensen
los errores
positivos
negativos.
Este
procedimiento
para
suma de cuadrados
residual.
Notaryque
los errores
se elevan
al
estimar los parmetros de la recta de regresin se conoce como el mtodo de mnimos
cuadrados.
cuadrado para evitar que se compensen los errores positivos y negativos. Este

procedimiento para estimar los parmetros de la recta de regresin se conoce como el


mtodo de mnimos cuadrados.

[Figura 10.6 aproximadamente aqu]

(xi, yi)

ei = yi y i

17
( xi , y i ) = ( xi , b0 + b1 xi )

Recta de regresin estimada:


y = b0 + b1 x

Figura 10.6 Error o desviacin del valor observado de la variable respuesta respecto a su valor estimado
Figura 10.6
por la recta de regresin.

166

Pastor-Barriuso R.

i =1
1
Para obtener los valores
b0 yi =b11 que minimizan
la suma de cuadrados del error, se

calculan
las derivadas parciales de SSE respecto a b y b1 y se igualan a cero,
resultando
cuya
solucin
lineal simple
Para
obtenereslos valores b0 y b1 que minimizan la0suma
de cuadrados delRegresin
error, se
el sistema de ecuaciones lineales
calculan las derivadas parciales denSSE respecto a b0 y b1 y se igualan a cero, resultando
x i x )( y i
(minimizan
)

Para obtener los valores b0 y b1 que


la ysuma
de
s y cuadrados del error, se calculan
i n=1
,a cero, resultando el sistema de
brespecto
=r
sistema de
ecuaciones
lineales
1=
las el
derivadas
parciales
deSSE
an b0 y bn 1 y se igualan
= 2 ei = 2 ( y2 i b0 sbx1 x i ) = 0,
ecuaciones lineales
( x i i =1x )
b0
i =1
i =1
n
n
1.2elMEDIDAS
DE TENDENCIA
CENTRAL
antioxidantes en
riesgo
un primer
infarto agudo de miocardio en
SSEde desarrollar
=

2
e
=

2
(
y

b0 binfarto
n
n

i
i
1 x i ) = 0,
1.2
MEDIDAS
DE
TENDENCIA
CENTRAL
antioxidantes en
de
desarrollar un primer
agudo de miocardio en
SSE
elb0riesgo
i =1 b0 = yi =1- b1 x .
=

2
x
e
=

2
x
(
y

b0,79,
= 0, 1,42, 0,84,

i i
i0,89,
i
0
1 x i ) 1,29,
hombres adultos.
Los
valores
obtenidos
fueron
1,58,
Las medidas
central
informan acerca de cul
es el valor ms representativo
b1 de tendencia
i =1
i =1
n fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84,
n
hombres
adultos.
Los
valores
obtenidos

SSE
Las medidas de= tendencia
central informan
el valor ms representativo
2
x i (niveles
y i b0acerca
b1colesterol
x ide
) =cul
0, es

i e i = 2
1,06,
0,87, 1,96
1,53
Laxvariable
media
de
los
del
HDL
en estimadores
La
pendiente
estimada
de
regresin
es
igual
al
producto
del
coeficiente
de
1 de la recta
deyuna
o,
dicho
de
forma
equivalente,
estos
indican
determinada
bb1mmol/l.
i =1
i =1
cuya solucin
es
1,06,de
0,87,
1,96
y
1,53
mmol/l.
La
media
de
los
niveles
del
colesterol
HDL
en
una determinada variable o, dicho de forma equivalente, estos estimadores indican
estos
10 participantes
esde
correlacin
r dealrededor
Pearson
porqu
el cociente
las los
desviaciones
tpicas muestrales
de Ydeytendencia
cuya
solucin
es
valor se entre
agrupan
datos observados.
Las medidas
estos
10
participantes
es
alrededor
de qu valor nse agrupan los datos observados. Las medidas de tendencia
cuya solucin
es
y)
( x i xtanto
)( y para
X. As, aunque central
los signos
demuestra
b10,y89rcoinciden,
de la pendiente b no slo
10 la
+sirven
1 de
1,58 + ... +lai 1,magnitud
53 resumir
s y los resultados 1observados como para
i =1
x
x
=
1,223
=
=
, mmol/l.
r los

central de la
muestra
tanto
para
resultados observados como para
+ 1,58
+ ...resumir
+=1,53
1i b101 = sirven
n 0,n89
10
10
i
=
1
s
2parmetros
x i =acerca
1,223
mmol/l.correspondientes.
=de correlacin
depende del coeficiente
r,
sino
tambin
de
las
desviaciones
tpicas sy y sx
x =poblacionales

realizarxinferencias
de
los
A
yx10
x i (xxi )(
i) y )
10 i =1 (
s
y
i =1 i =1de los parmetros poblacionales correspondientes. A
realizar inferencias
b1 =acerca
,
=r
n
de las variables.continuacin
Una vez estimada
la pendiente,
la constante
b0 = y -de
b1lax tendencia
corresponde
se describen
los principales
estimadores
central de una
s
2
x
La media aritmtica presenta las siguientes
xb) 1 x .
b
y
0 (=xpropiedades:

i
continuacin se describeni =los
principales estimadores de la tendencia central de una
1
La media aritmtica presenta las siguientes
propiedades:
simplemente
al
valor
que
fuerza
a
la
recta
de regresin
a atravesar
el punto
( xcoeficiente
, y)
variable.
La
pendiente
estimada
b
de
la
recta
de
regresin
es igual
al producto
deldatos
de
Cambio de origen (traslacin).
Si se suma una constante
a cada
uno de los
1
variable.
correlacin
r de Pearson
por
el
entre
muestrales
de Ydatos
y X.
=seylas
- desviaciones
b1 xuna
. igual
bSi
Cambio
de origen
suma
constante
a cada
unocoeficiente
de los
0 regresin
decociente
la recta de
es
altpicas
producto
del
deAs,
La pendiente
estimada
b1(traslacin).
correspondiente
a
la
media
muestral
de
ambas
variables.
Si
la
relacin
subyacente
entre
aunque
losmuestra,
signos1.2.1
de
bMedia
coinciden,
la resultante
magnitud es
deigual
la pendiente
b1inicial
no slo
depende
del
de una
la media
la muestra
a la media
ms
la
aritmtica
1 y r de
coeficiente
de
correlacin
r,
sino
tambin
de
las
desviaciones
tpicas
s
y
s
de
las
variables.
Una
de
una
muestra,
la
media
de
la
muestra
resultante
es
igual
a
la
media
inicial
ms
la
1.2.1
Media
aritmtica
correlacin
r de
Pearson
el recta
cociente
entre las desviaciones
tpicas
y
xmuestrales de Y y
La
pendiente
estimada
b por
de la
de regresin
es igual
alestimadores
producto
del
coeficiente
variables
lineal
de linealidad),
insesgados
dede
la que
vezlas
estimada
laespendiente,
la xconstante
b0 = y por
=bb0x1yx+b,corresponde
simplemente
valor
La
media
denotada
define
como
suma que
dealcada
uno
de los
yi1aritmtica,
=
c1se.son
Un
cambio
delaorigen
constante
utilizada;
si(asuncin
i + c, entonces
y
=
x
+
c
,
entonces
y
=
x
+
c
.
Un
cambio
de
origen
que
constante
utilizada;
si
La
media
aritmtica,
denotada
por
x
,
se
define
como
la
suma
de
cada
uno
de
los
fuerza
a
la
recta
de
regresin
a
atravesar
el
punto
(
,
)
correspondiente
a
la
media
muestral
de
X. As, aunque
signospor
de el
b1i cociente
y ri coinciden,
la magnitud
de latpicas
pendiente
b1 no slo
correlacin
rydelalos
Pearson
entre
las
desviaciones
muestrales
de Y y
constante

pendiente

de
la
recta
de
regresin.
0
1
valores
muestrales
dividida
elvariables
nmero
observaciones
realizadas.
Si denotamos
ambas
variables.
Si
la relacin
entre
esconsiste
lineal (asuncin
se
essubyacente
el centrado
de por
la las
variable,
quede
en restar
ade linealidad),
querealiza
facilitacon
unafrecuencia
estimacin
del
valor esperado
o predicho
de la variable
respuesta
para
valores
muestrales
dividida
por
el
nmero
de
observaciones
realizadas.
Si
denotamos
b0 yX.
b1As,
sonse
estimadores
insesgados
der el
la centrado
constante
y variable,
la pendiente
consiste
de regresin.
depende
del
coeficiente
dedecorrelacin
r, sino la
tambin
de las
desviaciones
tpicas
syay sx
realiza
con
frecuencia
demagnitud
restar
0la
1 de la recta
aunque
los
signos
b1 yes
coinciden,
de que
lapor
pendiente
ben
1 no slo
La valor
recta
de la
regresin
estimada
viene
entonces
determinada
pormuestra
n el tamao
muestral
y por de
xi el
valor
observado
paraser,
el sujeto
i-simo, i = 1, ..., n,
cada
de
su
media.
La
media
una
variable
centrada
por
cada
valor
de la variable
explicativa.
Paradeterminada
completar lapor
estimacin de los
La
recta
de fijo
regresin
estimada
viene
por nUna
el
muestral
ypendiente,
porLa
xi media
el valor
i-simo,
i = 1, ..., n,
de las
variables.
la entonces
la constante
b0 =para
y centrada
-elb1sujeto
x tpicas
corresponde
cada
detamao
lavez
muestra
su media.
deobservado
unalas
variable
ser,
depende
delvalor
coeficiente
deestimada
correlacin
r, sino
tambin
de
desviaciones
spor
y y sx
la media vendra
dada
por
tanto,
igual del
a 0.
=
b0 +estimarse
b1 x = y tambin
+ b1 (x la
x ),varianza 2 de la variable
parmetros
modelo lineal,y ha
de
la
media
vendra
dada
por
tanto,
igual
a
0.
simplemente
al
valor
que
fuerza
a
la
recta
de
regresin
a
atravesar
(x, y)
defacilita
las variables.
Una vez del
estimada
pendiente,
la constante
= yel-punto
b1respuesta
x corresponde
que
una estimacin
valor la
esperado
o predicho
de lab0variable
para cada
Cambio de escala (unidades). Si se multiplica cadan uno de los datos de una
+
+
...
+
x
x
x
1
respuesta
alrededor
de
dicha
recta.
A
partir
de
la
suma
de
cuadrados
del
error,
esta
1
2
n
valor fijo
de la variable explicativa. Para completar
la=estimacin
de
los. de
parmetros
x =variables.
Cambio de escala (unidades). Si se multiplica
cada
de...los
datos
una entre del
n x
correspondiente
a la
media
muestral
delaambas
Si
la2 +
relacin
subyacente
+uno
+elxrespuesta
xvariable
2 i xa1 atravesar
simplemente
al de
valor
que fuerza
a la recta
de 1regresin
punto
( x ,alrededor
y)
n
n
n
de
la
de
modelo
lineal,
ha
estimarse
tambin
varianza

=
i
1
= x iresultante
=
muestra por una constante, la media de lax muestra
es igual a .la media
varianza
residual
puede
estimarse
mediante
n
n
dicha recta.
A partir
deuna
la suma
de cuadrados
esta varianza
residual
puede
estimarse
muestra
constante,
mediadel
deerror,
laib=10muestra
resultante
es igual
a la media
18
las variables
espor
lineal
(asuncin
delalinealidad),
y b1 son
estimadores
insesgados
de la
correspondiente
a
la
media
muestral
de
ambas
variables.
Si
la
relacin
subyacente
entre
mediante
y
=
cx
,
entonces
y
=
c
x
.
inicial por la constante
utilizada;
si
i
La media es la medida
dei tendencia central ms utilizada y de ms fcil
n
yi regresin.
=
cxi, entonces
y = c x . y de ms fcil
inicial
por
la
constante
utilizada;
si
SSE
1
La
media
es
la
medida
de
ms
2
constante
0 yeslalineal
pendiente
1 dedelalinealidad),
recta
de
= tendencia
(by0i ycentral
b1estimadores
x i ) 2.utilizadainsesgados
s =
las
variables
(asuncin
bb10 son
de la

interpretacin.
ali =1multiplica
centro decada
gravedad
datos
Cambio simultneo
de origenCorresponde
uno dede
loslos
datos
dede la muestra. Su
ny escala.
2 n Si
2se
interpretacin.
Corresponde
al centro
de
gravedad
de uno
los datos
la muestra.
Su
recta
Cambio
simultneo
de
origen y escala.
Si se
multiplica
cada
de losdedatos
de
La
de
regresin
estimada
entonces
determinada
por
constante
0que
y la
pendiente
1 de laviene
recta
de
regresin.
Cabe
destacar
la
suma
de
cuadrados
del
error
se
divide
por
n

2
ya
que,
una
vez
estimadas
principal
limitacin
que estse
muy
influenciada
por los la
valores
una muestra por
una constante
y alesresultado
le suma
otra constante,
mediaextremos y, en este
la constante
la
pendiente
de la
recta
deyregresin,
los
errores
ootra
de
lavez
variable
Cabe destacar
que la
suma
de
cuadrados
error
sesendivide
por
ndesviaciones
- constante,
2 valores
ya que, extremos
una
principal
limitacin
es que
est
muy
influenciada
por
los
y, en este
unay muestra
por
una
constante
aldel
resultado
le
suma
la media
La
recta
de
regresin
estimada
viene
entonces
determinada
por
,
b
y
n

2
errores,
respuesta
respecto
de
la
recta
contienen
n

2
grados
de
libertad
(conocidos
b

y
=
b
+
b
x
=
y
+
b
(x
x
),
0
1
1
0
1
caso, puede
ser aun
reflejo
de la
central
de la distribucin.
de la muestra resultante
es no
igual
la fiel
media
inicial
portendencia
la primera
constante,
ms la
los 2estimadas
errores
seresultante
derivan
automticamente).
Asumiendo
sencumplen
constante
ynolaser
pendiente
dea la
la media
recta
deinicial
regresin,
errores
olas hiptesis
puede
un
fiel reflejo
de la
tendencia
central
de
laconstante,
distribucin.
de restantes
lalacaso,
muestra
es igual
por2que
lalos
primera
ms lade
linealidad
y homogeneidad
varianza,
varianza residual s es un estimador insesgado del
+ bla
= cla
segunda
constante; si2yi de
1x = yy +=bc11(xx - +xc),2.
1xy
i +=c2b,0entonces
.
desviaciones
de
la
variable
respuesta
respecto
de la
- 2 grados
de
parmetro
poblacional

Ejemplo
este
en los
sucesivos
estimadores
muestrales, se
= cEn
c2,yentonces
yrecta
= c1contienen
xejemplos
+ c2. n sobre
segunda constante;
si yi1.4
1 xi +
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
libertad
(conocidos
butilizarn
, bestudio
2deerrores,
los
errores
restantes
semmol/l
derivan
18 sujetos del
0el
1 y n -los
valores
del
HDL
en
losy10
primeros
Ejemplo
En
la relacin
entre
el ndice
corporal
else
colesterol
Ejemplo
1.510.7
Para transformar
los
valores
del2colesterol
colesterol
HDLdeobtenidos
demasa
a mg/dl
utilizarn
los valores
del
colesterol
HDL obtenidos
enmmol/l
los 10
primeros
del
HDL,
resulta1.5
natural
el los
ndice
de masa
corporal
como
explicativa
ysujetos
el
Ejemplo
Paraconsiderar
transformar
valores
del colesterol
HDLvariable
de
a mg/dl se
automticamente).
Asumiendo
que
se
cumplen
las
hiptesis
de
linealidad
y
estudio
European
Study
on
Antioxidants,
Myocardial
andenCancer of
colesterol
HDL
como
variable
respuesta.
El
objetivo
es, por
tanto,
estimar
los cambios
18
multiplica
por
el factor
de
conversin
38,8.
As,
utilizando
la propiedad
delInfarction
estudio
European
Study
on
Antioxidants,
Myocardial
Infarction
and
Cancer of
multiplica por el factor de conversin 38,8. As,
2 utilizando la propiedad del
homogeneidad
de
la
varianza,
la
varianza
residual
s
es
un
estimador
insesgado
del
Breast
(EURAMIC),
multicntrico
cambio de escala, lathe
media
del colesterol
HDLun
enestudio
mg/dl se
calculara de casos y controles realizado
the
Breast
(EURAMIC),
un
estudio
multicntrico
de casos y controles realizado
cambio de escala, la
2 media del colesterol HDL en mg/dl se calculara
Pastor-Barriuso
R. 167de los
parmetro
poblacional

.
y 1992
en ocho
pases
Europeos
e Israelmg/dl.
para evaluar
el efecto
38,8 = 47,45
directamente a partirentre
de su1991
media
en mmol/l
como
1,223
entre
1991de
y 1992
en ocho
pases como
Europeos
e Israel
evaluar
38,8 =para
47,45
mg/dl.el efecto de los
directamente
a partir
su media
en mmol/l
1,223
Ejemplo 10.7 En el estudio de la relacin entre el ndice de masa corporal y6el

central de la muestra sirven tanto para resumir los resultados observados como para
1 10
0,89 + 1,58 + ...
1,53 de estos datos, las estimaciones de la pendiente y
variables
A +partir
x
x iacerca
= 1,223 mmol/l.
=
=de r =de-0,276.

realizar inferencias
los parmetros
poblacionales
correspondientes. A
10 yi =regresin
Correlacin
lineal simple10
1
delos
la recta
de regresin
por elde
mtodo
de mnimos
cuadrados
continuacinlaseconstante
describen
principales
estimadores
la tendencia
central
de una son

La media aritmtica presenta las siguientes propiedades:


variable. el nivel medio del colesterol HDL
s y conforme 0aumenta
,295 el ndice de masa corporal utilizando
= 0,276
= -0,023
1 = r simple.
un modelo de regresinblineal
En este caso,
tanto la variable respuesta como la
,50 de los datos
sx
Cambio de origen (traslacin). Si se suma una constante
a cada3uno
variable explicativa
son continuas.
10.1 se obtuvo
un coeficiente de correlacin de Pearson entre ambas
1.2.1 MediaEjemplo
aritmtica

En
n =de
533
del un
estudio
la media
y laPearson
desviacin
del ndice de
de una muestra, la ymedia
lacontroles
muestra
resultante
esEURAMIC,
igual de
a lacorrelacin
media
inicial
ms
la entretpica
Ejemplo
10.1
se obtuvo
coeficiente
de
ambas
variables
de r =fueron
-0,276.
partir
de
datos,
lasde
2estimaciones de la pendiente y
26,0
y sestos
=
3,50
kg/m
,
y
los
correspondientes
valores del
masa
corporal
La media aritmtica,
denotada
por xA,=se
define
como
la
suma
cada
uno
de
los
x
fueron
s1,09
0,295
mmol/l.
Ejemplo y10.1 se
+HDL
cr, entonces
y y=
xb1+xde
cy=. estos
Un
de
origen
que deenlaelpendiente
constante utilizada;colesterol
si yi = xi de
variables
= -0,276.
A
partir
datos,
las
estimaciones
y =cambio
-1,09
+mtodo
0,023
26,0
=Adems,
1,69.
b0 =de
la constante
de la
regresin
por
de mnimos
cuadrados
obtuvo
un coeficiente
de correlacin
de el
Pearson
entre
ambas
deson
r = 0,276. A
valores muestrales
dividida
porrecta
el nmero
de observaciones
realizadas.
Si variables
denotamos
partir
de
las
estimaciones
de consiste
la
y mnimos
la constante
de la recta
se realiza con frecuencia
es estos
el centrado
de de
la variable,
ende
restar
a
la constante
dedatos,
la recta
regresinque
por
elpendiente
mtodo
cuadrados
sonde regresin
La
= mnimos
1,69
es
una
estimacin
del
valor
esperado
de
colesterol
porconstante
el
mtodoby0de
cuadrados
son
valor
observado
para
el
sujeto
i-simo,
i
=
1,
...,
n,
por n el tamao
muestral
por
xi elmmol/l
sy
0,295
b1 de
= runa variable
= 0,276centrada=ser,
-0,023
cada valor de la muestra su media. La media
por
3
,
50
s xy
0,295 igual a 0 kg/m2, extrapolacin
HDL dada
para por
un sujeto con bun=ndice
de
masa
corporal
la media vendra
= 0,276
r
= 0,023
1
sx
3,50
tanto, igual a 0.
y carece de sentido biolgico. La pendiente b1 = -0,023 estima que, por cada
que
y
x + x + ... + x n
1 n
. de una
= 1 uno 2de los datos
x = x icada
Cambio de escala (unidades).
Si se multiplica
y
=
b1 x =de1,09
+ 0,023
26,0el=nivel
1,69.medio de colesterol
nmasa
=1 y
incremento de 1 kg/mbn20 ien
elndice
corporal,
muestra por una constante, la media de la
igual26,0
a la media
=mmol/l
y - b1resultante
x una
= 1,09
+es0,023
= 1,69.
b0 muestra
La constante
b0 =en1,69
es
estimacin
del valor
esperado
de colesterol
HDL
disminuye
0,023
mmol/l.
En
general,
la
pendiente
puede
utilizarse
para HDL
La mediapara
es
la
medida
de
tendencia
central
ms
utilizada
y
de
ms
fcil
2
La constante
b
=
1,69
mmol/l
es
una
estimacin
del
valor
esperado
de
colesterol
0
un sujeto con un ndice de masa corporal igual a 0 kg/m , extrapolacin que carece
inicial por la constante utilizada; si yi = cxi, entonces y = c x .
0,023
estima
que,esperado
por cada
incremento
de
sentido
biolgico.
Lammol/l
pendiente
b1 =estimacin
La Corresponde
constante
b0 =alasociado
1,69
es una
del valor
calcular
el efecto
a incrementos
delos
cualquier
magnitud
c en
la colesterol
variable de 1 kg/
2 de
interpretacin.
centro
de
gravedad
de
datos
de
la
muestra.
Su
HDL
para
un
sujeto
con
un
ndice
de
masa
corporal
igual
a
0
kg/m
,
extrapolacin
2
m en el ndice de masa corporal, el nivel medio de colesterol HDL disminuye en 0,023
Cambio simultneommol/l.
de origen
y general,
escala. Silasependiente
multiplicapuede
cada uno
de los datos
de
2el efecto asociado a
Enun
utilizarse
para acalcular
HDL para
sujeto
con influenciada
un ndice de
masa
corporal
igual
0 kg/m
, este
extrapolacin
explicativa,
principal limitacin
es
que
est
muy
por
los
valores
extremos
y,
en
que
carece
de
sentido
biolgico.
La
pendiente
b
=
-0,023
estima
que,
por cada
1
incrementos de cualquier magnitud c en la variable explicativa,
una muestra por una constante y al resultado se le suma otra constante, la media
queser
carece
de reflejo
sentido
2biolgico. La pendiente b1 = -0,023 estima que, por cada
(xy +
caso, puede incremento
no
un fiel
de
lael
tendencia
y-ndice
(x)
= bde
+masa
b1 (x de
+
c)ladistribucin.
(b0 +
cb1 . de colesterol
de 1 ykg/m
en
corporal,
el bnivel
0central
1 x) = medio
=c)
1,69
0,023x,
de la muestra resultante es igual a la media
inicial
por
la
primera
constante,
ms
la
2
incremento
de 1 kg/m
en el ndice
de masa
corporal,
el nivel
medio
de colesterol
2
As,
ejemplo,
de
una
desviacin
tpica
c=
3,50
kg/m
enpara
el ndice de
HDLpor
disminuye
enincrementos
0,023 mmol/l.
general,
la pendiente
puede
utilizarse
y En
= 1,69
- 0,023x,
2
As,
por
ejemplo,
incrementos
de
una
desviacin
tpica
c
=
3,50
kg/m
en
el
ndice
que
se
muestra
en
la
Figura
10.7.
Esta
recta
regresin
puede
utilizarse
para
Ejemplo
1.4
En
este
y
en
los
sucesivos
ejemplos
sobre
estimadores
muestrales,
se
asocian ycon
disminucin
media en el colesterol HDL de cb1 =
c1xi + c2,seentonces
= cuna
c2 .
segunda constante;masa
si yi =corporal
1x +
HDL disminuye
en 0,023
mmol/l.
Enque,
general,
laconsecuencia
pendiente puede
para
3,50(0,023)
=
0,081
mmol/l.
Notar
como
de lac utilizarse
hiptesis
de
linealidad,
calcular el efecto asociado a incrementos de cualquier magnitud
en la variable
de
masa
corporal
se
asocian
con
una
disminucin
media
en
el
colesterol
HDL
de
que
se
muestra
en
la
Figura
10.7.
Esta
recta
de
regresin
puede
utilizarse
para
estimarutilizarn
o predecir
el
valor
esperado
del
colesterol
HDL
en
funcin
del
ndice
de
los
valores
del
colesterol
HDL
obtenidos
en
los
10
primeros
sujetos
del
esta disminucin se asume constante a lo largo de todo el rango observado del ndice de
calcular el efecto asociado a incrementos de cualquier magnitud c en la variable
masa
corporal;
esto es,del
el colesterol
modelo deHDL
regresin
lineal
estima
explicativa,
Ejemplo 1.5 Para transformar
los valores
de mmol/l
a mg/dl
seuna misma reduccin de
2
=
-0,081
mmol/l.
Notar
que,
como
consecuencia
de masa
la
estimar
o
predecir
el
valor
esperado
del
colesterol
HDL
funcin
del
ndice
de
1 = 3,50(-0,023)
,
el
masa corporal.
Por
ejemplo,
para
un
ndice
de
masa
corporal
de
25
kg/m
2en and
estudiocb
European
Study
on
Antioxidants,
Myocardial
Infarction
Cancer
ofhiptesis
0,081 mmol/l en el colesterol HDL entre 25 y 28,5 kg/m del ndice
de
corporal
que
explicativa,
2
multiplica por el factor
conversin
As,
utilizando
propiedad
del
entrede
28,5
y 32 kg/m
2
yde
(x38,8.
+. c)
- ypara
(x)
b0de
+ bla
(x
+dec)
- (b
b1x) =de
cbtodo
. kg/m
0lo
de
linealidad,
esta
disminucin
se=un
asume
acorporal
largo
el rango
, el
masa
corporal.
Por
ejemplo,
ndice
de
masa
25
modelothe
estima
un
nivel
medio
colesterol
HDL
y1constante
(25)
=casos
1,69
-+
25
=1realizado
Breast
(EURAMIC),
un
estudio
multicntrico
y0,023
controles
La recta de regresin estimada del colesterol HDL sobre el ndice de masa corporal es
y (x + HDL
c) - yen
(x)mg/dl
= b0 +sebcalculara
cambio de escala, la media del colesterol
1(x + c) - (b0 + b1x) = cb1.
observado
del
ndice
de
masa
corporal;
esto
es,
el modelo
de=efecto
regresin
lineal
2 los
modelo
estima
un
nivel
medio
de
colesterol
HDL
de
y (25)
1,69
0,023
25ndice
=
entre
1991
y
1992
en
ocho
pases
Europeos
e
Israel
para
evaluar
1,11 mmol/l. As,
Por supuesto,
los valores
observados
del
colesterol
HDL
de-de
por ejemplo,
incrementos
dey una
desviacin
tpica
c difieren
=el3,50
kg/m
en el
= 1,69
0,023x,
directamente a partir de su media en mmol/l como 1,22338,8 = 47,45 mg/dl.
2
As,
por
ejemplo,
incrementos
una
desviacin
tpica
c =puede
3,50
kg/m
en25
el
estima
una
misma
reduccin
dede
0,081
mmol/l
enregresin
el
colesterol
HDL
entre
yndice
que
se
muestra
en
Figura
10.7.
Esta
recta
utilizarse
para
estimar o
1,11
mmol/l.
Por
supuesto,
valores
observados
del
colesterol
HDL
difieren
de
los valores medios
predichos
por
recta los
de
La de
varianza
residual
del
de
masa
corporal
selala
asocian
conregresin.
una
disminucin
media
en el colesterol
HDL
de
5
que
se
muestra
en
la
Figura
10.7.
Esta
recta
de
regresin
puede
utilizarse
para
predecir el2 valor esperado del colesterol HDL en funcin del ndice
de masa corporal. Por
2
2 y 32
de
masa
corporal
se
asocian
con
una
disminucin
media
en
el
colesterol
HDL
de medio
6
28,5
kg/m
del
ndice
de
masa
corporal
que
entre
28,5
kg/m
.
,
el
modelo
estima
undel
nivel
ejemplo,
para
un
ndice
de
masa
corporal
de
25
kg/m
los1respecto
valores
medios
por laesrecta
regresin.
La varianza residual
colesterol HDL
a la recta
de regresin
cb
= 3,50(-0,023)
=predichos
-0,081
mmol/l.
Notardeque,
como consecuencia
de la hiptesis
estimar
o predecir
colesterol
HDLmmol/l.
en funcin
ndice los
de valores
de colesterol
HDLeldevalor
(25)esperado
= 1,69 del
0,02325
= 1,11
Por del
supuesto,
cb
=
3,50(-0,023)
=
-0,081
mmol/l.
Notar
que,
como
consecuencia
de
la
hiptesis
La
recta
de
regresin
estimada
del
colesterol
HDL
sobre
el
ndice
de
masa
1
observados
del533
colesterol
difieren
de
los valores
por la recta de
colesterol
HDL
respecto
aHDL
la recta
de regresin
es a lo medios
de
linealidad,
esta
disminucin
se
asume
constante
largo depredichos
todo el rango
2
SSE
1
42,63
,
el
masa
corporal.
Por
ejemplo,
para
un
ndice
de
masa
corporal
de
25
kg/m
2
es
=
= La varianza
{ y i (residual
1,69 0,del
023colesterol
x i )} = HDL=respecto
0,080. a la recta de regresin
s2 regresin.
de 531
linealidad,
esta
disminucin
se
asume
constante
a
lo
largo
de
todo
el
rango
corporal
es531
531
i
=
1
observado del ndice
533 corporal; esto es, el modelo de regresin lineal
SSE de medio
1masa
42,63
2y
(25)
modelo estima
= 1,69
- 0,02325 =
=
y i colesterol
(1,69 0HDL
= 0,080.
{de
,023xde
s2 = un nivel

i )} =
observado del ndice
de
masa
corporal;
esto
es,
el
modelo
de
regresin
lineal
531
531 HDL entre
531 i =1
estimaque
unadebido
misma
mmol/l en de
el colesterol
25 y 20
Notar, por ltimo,
a reduccin
la hiptesisdede0,081
homogeneidad
la varianza,
la
1,11 mmol/l. Por supuesto, los valores observados del colesterol HDL difieren de
Notar,
debido de
a la0,081
hiptesis
de homogeneidad
la2 varianza,
estima por
una2ltimo,
misma que
reduccin
mmol/l
en el colesteroldeHDL
entre 25lay desviacin
28,5
kg/m
del
ndice
de
masa
corporal
que
entre
28,5
y
32
kg/m
.
Notar,
por
ltimo,
que
debido
a
la
hiptesis
de
homogeneidad
de
la
tpica
residualdel
delcolesterol
colesterolHDL
HDLss== 0,080 ==0,283
constantelaalrededor
desviacin tpica
residual
0,283mmol/l
mmol/lseseasumevarianza,
los valores2 medios predichos por la recta de regresin. La varianza
2 residual del
de
cualquier
punto
de de
la recta
regresin.
28,5
kg/m del
ndice
masade
corporal
que entre 28,5 y 32 kg/m .
La
recta de tpica
regresin
estimada
del colesterol
HDL
masa se
desviacin
residual
del
colesterol
HDL
= sobre
0,080el=ndice
0,283de
mmol/l
asume constante
alrededor
derespecto
cualquiera la
punto
recta
desregresin.
colesterol
HDL
rectadedelaregresin
es
La recta de regresin estimada del colesterol HDL sobre el ndice de masa
corporal es
asume constante alrededor de cualquier punto de la recta de regresin.
533
168 Pastor-Barriuso R.
42,63
corporal ess2 = SSE = 1
{ y i (1,69 0,023x i )}2 =
= 0,080.

[Figura 531
10.7 aproximadamente
aqu]
531 i =1
531
20

Regresin lineal simple

2,25

Colesterol HDL (mmol/l)

1,5

0,5
0,25
20

24

28

antioxidantes en el riesgo de desarrollar un primer infarto


agudo de miocardio en
Indice de masa corporal (kg/m)

32

36

Figura
10.7del
Figura
10.7
de regresin
del
HDL
sobre1,29,
el ndice
de
masa
en el grupo
control
hombres adultos.
Los
valores
obtenidos
1,58,
0,84,corporal
encolesterol
el0,89,
riesgo
de 0,79,
desarrollar
unidoneidad
primer
infarto
agudo
de miocardio
en
sentido
deRecta
queantioxidantes
no
facilitafueron
ninguna
informacin
sobre
la1,42,
del modelo
lineal

estudio EURAMIC.

1,06, 0,87, 1,96 para


y 1,53
mmol/l.
media
de losLos
niveles
dellas
colesterol
HDL
en0,89, 1,58,
hombres
adultos.
valores
obtenidos
fueron
0,79, 1,29, 1,42, 0,84,
describir
laLa
relacin
subyacente
entre
variables
explicativa
y respuesta.

sentido
de que nodel
facilita
ninguna
informacin
sobre
la idoneidad del modelo lineal
10.3.2
Contraste
modelo
regresin
lineal
simple
estos 10 participantes
es
1,06,del
0,87,
1,96 de
yde
1,53
mmol/l.
media
los niveles
colesterol
La realizacin
contraste
regresin
seLa
basa
en eldeanlisis
de ladel
varianza
de laHDL en

En para
general,
el contraste
de regresin
lineal
permite
evaluar explicativa
si el modeloyen
su conjunto explica
describir
la relacin
subyacente
entre
las variables
respuesta.
estos
10
participantes
es
10significativa
variable
respuesta.
Una
vez
estimada
la
recta
de
regresin,
la
desviacin
de cada
valor de la
una
parte
de
la
variabilidad
de
la
variable
respuesta.
En
el
caso
particular
1
0,89 + 1,58 + ... + 1,53
x
x
=
1,223
mmol/l.
=
=

i
regresin
lineal
simple,
hiptesisdenula
del contraste
la pendiente
La realizacin
dellacontraste
regresin
se basaesensimplemente
el anlisis deque
la varianza
de la1 de la
10
10
=1
a la media
y
puede
separarse
en
dos
componentes:
el
observado
yi respecto
recta
de iregresin
subyacente
es 0,muestral
ya
tal
caso
la
variable
respuesta
no
se
relacionar
10que en
1
0,89 + 1,58 + ... + 1,53
x
x
=
1,223
mmol/l.
=
=
linealmente
con la nica
explicativa
y, en
el modelode
lineal
aportar
lai recta
variable respuesta.
Unavariable
vez estimada
de consecuencia,
regresin, la desviacin
cadano
valor
10 i =1de la variable respuesta.
10
explicacin
alguna
sobre
la
variabilidad
Es
importante
resaltar
o desviacin
del valor
observado yi respecto a su valor estimado por la recta deque este
a media aritmticaerror
presenta
las siguientes
propiedades:
contraste
de regresin
linealidad
y, por
tanto, separarse
no debe interpretarse
como uneltest de
a la media
muestral
y puede
en dos componentes:
observado
yi respectoasume
bondad
del
ajuste,
en
el
sentido
de
que
no
facilita
ninguna
informacin
sobre
la idoneidad del
regresin
yLa
bSi0 +
la distancia
dicho
estimado
1xi, y una
i =media
Cambio de origen
(traslacin).
sebsuma
constante
a cada
unovalor
depropiedades:
los
datos y i y la media
aritmtica
presentaentre
las
siguientes
modelo
para describir
la relacin
subyacente
entre
variables
explicativa
y respuesta.
a sulas
valor
estimado
por la recta
de
errorlineal
o desviacin
del valor
observado
yi respecto
Lamedia
realizacin
deles,contraste
de regresin
el
anlisis
de
de la
de una muestra,muestral
la
de
muestra
es igual se
a labasa
inicial
la la varianza
y; la
esto
Cambio
deresultante
origen
(traslacin).
Simedia
se en
suma
una ms
constante
a cada uno
devariable
los datos
regresin
= b0estimada
+ b1xi, y la distancia
entre dicholavalor
estimado
y
la
media
respuesta.
Unay i vez
recta de regresin,
desviacin
de ycada
valor
observado
yi
i
en dos
el error
desviacin
respecto
muestral
= xmedia
c, una
entonces
y puede
=la xmedia
+separarse
c. Un
cambio
de componentes:
origen quees igual
constante utilizada;
si yai la
i +de
muestra,
de la
muestra
resultante
a la omedia
inicialdel
ms la
i .
yi - y estimado
= y i - y por
+ yi la
- yrecta
valor
observado
y
respecto
a
su
valor
de
regresin

=
b
+
b
x
,
y
la
muestral y ; esto
i es,
i
0
1 i
entre
valorde
estimado
muestral
=que
xmedia
c, entonces
y ; =esto
+ c. Un cambio de origen que
constante
utilizada;
sii yyi la
se realiza condistancia
frecuencia
es eldicho
centrado
la variable,
consiste
en restar
ax es,
i+
Elevando al cuadrado estas desviaciones y sumando sobre todas las observaciones, se
yi variable
y = y i centrada
y + y ser,
y i . por
cada valor de la muestra su media.
La media
de una
se realiza
con frecuencia
es el centradoi de
la variable, que consiste en restar a
tiene que
suma deestas
cuadrados
total yessumando sobre todas las observaciones, se tiene que
Elevando
al la
cuadrado
desviaciones
tanto, igual a la
0. suma
cada valor
deesladesviaciones
muestra su media.
La media
unalas
variable
centrada ser,
de cuadrados
total
Elevando
al cuadrado
estas
y sumando
sobrede
todas
observaciones,
se por
n

i =1

i =1

i =1

i =1

2
Cambio de escalatiene
(unidades).
Si
multiplica
de
datos
tanto,
igual

y )a2 0.
= cada
yuno
) 2 los
+
( y i deyuna
SSTla=suma
que
es
se( yde
(total
i cuadrados
i y
i ) + 2 ( y i y )( y i y i )

muestra por una constante,la Cambio


media dedelaescala
muestra
resultanteSiesnseigual
a la media
n(unidades).
multiplica
cadan uno de los datos de una
n
n
n
2

=
(
y

y
)
+
(
y

y i ) 2 2 = SSR
+ SSE,
2
2

i
i
( y i y ) +i
( y i y i ) + 2 ( y i y )( y i y i )
SST = ( y i y ) = i
=1
=1
cxiuna
, entonces
y =lac media
x . i =1 de la muestrai =resultante
inicial por la constante utilizada;
muestra
por
constante,
es igual a la media
i =1si yi =
i =1
1
n
n de
yi =los
cxdatos
porSilaseconstante
utilizada;
si
Cambio simultneo de origen inicial
y escala.
multiplica
cada uno
de y = c x .
i, entonces
= incorrelacionadas
( y i y ) 2 + ( y i y i ) 2 = SSR + SSE,
ya que ambas componentes estn
i =1

i =1

Pastor-Barriuso R.

169

una muestra por una constante


y al resultado
se le de
suma
otrayconstante,
Cambio
simultneo
origen
escala. Si la
semedia
multiplica cada uno de los datos de

=
Correlacin y regresin lineal simple

i =1

i =1

( y i y ) 2 + ( y i y i ) 2 = SSR + SSE,

1.2 en
MEDIDAS
DE TENDENCIA
CENTRAL
ya que ambas
componentes
estn
es en el riesgo de desarrollar
un primer
infarto
antioxidantes
agudoincorrelacionadas
de miocardio
en el riesgo
de desarrollar
un primer infarto
agudo de miocardio e
ya que ambas componentes estn incorrelacionadas
ultos. Los valores obtenidos fueron
0,89, 1,58,
hombres
0,79, 1,29,
adultos.
Los
0,84,
valores
fueron
0,89, 1,58,
0,79,acerca
1,29, 1,42,
0,84
n
n 1,42,
n obtenidos
n
Las
medidas
de tendencia
central
informan
de cul
es

(
y

y
)(
y

y
)
=
b
(
x

x
)
e
=
b
x
e

b
x
e
=
0

i
i
i
i
i
1
1 i i
1 i
i =1 los niveles del
i =1 La mediai =de
1 HDL
1 los niveles del colesterol HDL en
1,96 y 1,53 mmol/l. La media de
1,06,
colesterol
0,87,i =1,96
y 1,53
en una
mmol/l.
de
determinada
variable
o, dicho de forma equivalente, e
segn las ecuaciones de regresin derivadas del mtodo de mnimos cuadrados. As, la suma
rticipantes es de cuadrados
estos 10derivadas
participantes
es independientes:
total SST sededescompone
en dos trminos
la
de As,
cuadrados
segn las ecuaciones
regresin
del
mtodo
de qu
mnimos
la observados. Las
alrededor
de
valor cuadrados.
sesuma
agrupan
los datos
de la regresin SSR, que representa la variabilidad de la variable respuesta explicada por la
10
delsemodelo
de regresin,
y 0la,89
suma
cuadrados
delresumir
error los resultados
suma
cuadrados
total SST
descompone
en
dos
trminos
suma
de
muestra
sirven
+de
+independiente
+independientes:
+
+ 1tanto
1 10 nica
0,89variable
1,58
... + 1,53
1central
1,58de
...
,53 lapara
x = x iSSE,
1,223 mmol/l.
x
x i = respuesta que queda=sin
1,223
mmol/l.
= que corresponde a la=variabilidad
=
residual de lavariable
explicar.
10 i =1
10
10 i =1
10
Conviene
recordar
la recta SSR,
de regresin
estimada
por el procedimiento
mnimospoblacionales c
realizar
acerca
de los de
parmetros
que representa
la inferencias
variabilidad
de la variable
de cuadrados
de que
la regresin
cuadrados minimiza la suma de cuadrados del error, maximizando entonces la capacidad
predictiva o explicada
explicativa
modelo
de regresin.
La Figurase
10.8
ilustra
grficamente
continuacin
describen
los
principales
estimadores de la t
pordel
la nica
independiente
modelo
de regresin,
y la esta
mtica presenta lasrespuesta
siguientes propiedades:
La
mediavariable
aritmtica
presenta lasdel
siguientes
propiedades:
descomposicin.
variable.a la variabilidad
cuadrados
della
error
SSE,
residual
de la
LaSidescomposicin
de
de
la
mediante
origen (traslacin).suma
sede
suma
una constante
variabilidad
Cambio
a cada
uno
deque
origen
de corresponde
losvariable
(traslacin).
datos respuesta
Si se suele
suma representarse
una
constante
a cada uno de los datos

la denominada tabla del anlisis de la varianza (Tabla 10.2). En primer lugar, esta tabla
explicar.
recordar
que la
recta
de es
regresin
presenta
lasrespuesta
sumas
deque
cuadrados
junto
con inicial
susConviene
grados
de libertad.
La suma
de
stra, la media de
lavariable
muestra
resultante
es queda
igual
deasin
una
la media
muestra,
lacorrespondientes
media
ms la
de
la muestra
resultante
igual
a la media
inicial ms
1.2.1
Media
aritmtica
cuadrados de la regresin contiene nicamente 1 grado de libertad ya que, una vez conocida la
estimados
la recta
dexiregresin
i =
muestral y , =losx valores
xi + c, entonces
+ c. Un
cambio utilizada;
depor
origen
ymedia
+aritmtica,
c, entonces
y += bx1(xpor
+i c. Un
cambio
origen
que
tilizada; si yi = media
constante
sique
La
denotada
x ), quedan
se
definede
como
la sum
i=
22
completamente determinados por su pendiente; mientras que, como se vio en el apartado
la suma
cuadrados
del error
nvalores
de libertad.
continuacin,
los
dividida
por
el nmero
de observaciones
on frecuencia esanterior,
el centrado
de la de
variable,
que
se realiza
consiste
con
entiene
frecuencia
restar
a 2 grados
esmuestrales
el centrado
de la A
variable,
que consiste
en restar a
trminos de la varianza se obtienen de dividir las sumas de cuadrados por sus grados de libertad.
la razn
define
como
el cociente
entre
lamedia
varianza
explicada
por
la
por
n su
el tamao
muestral
ydepor
xivariable
el valor
observado
parapor
el s
de la muestra suFinalmente,
media. La media
de de
unavarianzas
variable
cada se
centrada
valor
de la
ser,
muestra
media.
La
una
centrada
ser,
regresin y la varianza residual, que constituye el estadstico del contraste de regresin.
la media vendra dada por
a 0.
tanto, igual a 0.

escala (unidades). Si se multiplica cada uno


de
Cambio
los datos
de escala
de una(unidades). Si se multiplica cada uno
+ x 2de+una
... + x n
1 nde los xdatos
.
x = xi = 1
n
n
i =1
r una constante, la media de la muestra resultante
muestra
es igual
por una
a laconstante,
media
la media de la muestra resultante es igual a la media
(xi, yi)

= c x . por la constanteLa
yi medida
= cxi, entonces
y = ccentral
x.
a constante utilizada; si yi = cxi, entonces y inicial
utilizada;
media essi la
de tendencia
ms utilizada

ei = yi y i
interpretacin.
Corresponde
al centro de gravedad de los d
multneo de origen y escala. Si se multiplica
cada
Cambio
unosimultneo
de los datos
dedeorigen
( x , y )y escala. Si se multiplica cada uno de los datos de
i

yi y

principal
limitacin
es queseest
muy otra
influenciada
porlalos
val
a por una constante y al resultado se le suma una
otra( xmuestra
constante,
porlauna
media
constante
y al resultado
le suma
constante,
media
, y)
y y
y

caso,
puede
sermedia
un fiel
reflejo
tendencia
central de
ra resultante es igual a la media inicial por lade
primera
la muestra
constante,
resultante
ms es
la
igualno
a la
inicial
pordelalaprimera
constante,
msla

c2 .
nstante; si yi = c1xi + c2, entonces y = c1 x +segunda
constante; si yi = c1xi + c2, entonces y = c1 x + c2.
Recta de regresin estimada:
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre
y = b0 + b1 x = y + b1 ( x x )

utilizarn
los valores
del colesterol
obtenidos
en
5 Para transformar los valores del colesterol HDL
Ejemplo
de mmol/l
1.5 Paraa transformar
mg/dl se
los valores
del colesterol
HDLHDL
de mmol/l
a mg/dl

European
Study
on Antioxidants,
Myocardial
por el factor de conversin 38,8. As, utilizando
multiplica
la propiedad
por eldel
factor deestudio
conversin
38,8. As,
utilizando
la propiedad
del

thedel
Breast
(EURAMIC),
un estudio
multicntrico de c
escala, la media del colesterol HDL en mg/dlcambio
se calculara
de escala, la media
colesterol
HDL en mg/dl
se calculara
x

1991
1992 en
ocho1,223
pases
Europeos
Israel par
38,8 = 47,45amg/dl.
Figura
38,8
= 47,45emg/dl.
te a partir de su media en mmol/l como 1,223directamente
partir de suentre
media
en ymmol/l
como
10.8
Figura 10.8 Descomposicin de la variabilidad de la variable respuesta en la parte explicada y no explicada por la regresin.

170

Pastor-Barriuso R.

libertad ya que, una vez conocida la media muestral y , los valores estimados por la
Regresin lineal simple

recta de regresin y i = y + b1(xi - x ) quedan completamente determinados por su

pendiente;
mientras
que,
como
se viodel
enanlisis
el apartado
anterior,
laen
suma
de cuadrados del
Tabla
10.2Tabla
Tabla
genrica
de laen
varianza
regresin
Tabla 10.2
genrica
del anlisis
de la varianza
regresin lineal
simple.* lineal
simple.*
varianza
var(b1). As, bajo la hiptesis nula H0: 1 = 0, el cociente SSR/ 2 es el
error tiene n - 2 grados de libertad.
Suma de A continuacin,
Gradoslos
de trminos de la varianza
Razn dese
Suma
de
cuadrados

Grados
de
libertad

Varianza

Razn
de
varianzas

cuadrado de una distribucin


normal estandarizada,
definicin a
cuadrados
libertadque corresponde por
varianzas
obtienen de dividir las sumas nde cuadrados por sus gradosVarianza
de libertad. Finalmente, la
SSR

Regresin chi-cuadrado
SSR = con
( y i 1ygrado
)
1
SSRparte, basta
F = con
2 que se
una distribucin
de libertad.
Por otra
i =1
razn de varianzas se define como
el cociente entre la varianza explicada porsla
2

n
n
cumplan las asunciones subyacentes
al modelo
lineal para que
la varianza residual s2
SSE
2
2
2
( y i constituye
y i )
n estadstico
2
s =del contraste de regresin.
Error
SSE =residual,
regresin
y la varianza
el
ei = que
i =1

i =1

sea un estimador insesgado de 2 y el cociente

n2

y) 2
SST =[Tabla
( y i 10.2

n 1
aproximadamente
aqu]
2
(n H
2) s: = 0, el cociente SSR/ 2 es el
varianza var(b1). As, bajo la hiptesis
nula
0
1
2
2
2
*
Coeficiente
de
determinacin
R
=
SSR/SST.
* Coeficiente de determinacin R = SSR/SST.

Para realizar el contraste de regresin, es preciso conocer la distribucin de la razn


cuadrado de una distribucin normal estandarizada, que corresponde por definicin a
Por unde
lado,
selatiene
que
de
varianzas
bajo
la hiptesis
H
siga
una
distribucin
chi-cuadrado
con
-=20.
grados
libertad.
Combinando
ambos
0: n1es
Para
realizar
el contraste
de nula
regresin,
preciso
conocer
distribucin
de
la razn de
una distribucin chi-cuadrado con 1 grado de libertad. Por otra parte, basta con que se
varianzas bajo la hiptesis nula H0: 1 = 0. Por un lado, se tiene que
2varianzas
resultados,
sebtiene
quen bajolalahiptesis
hiptesis
nula
: 1 =0,0ella
razn entre
las
2 SSR/
n HH
varianza

es el s2
1). As,
0: 01 =
b12cociente
(que
n 1la
) s varianza
bal12nula
b12 residual
SSR
1 bajo
cumplan var(
las
asunciones
subyacentes
modelo
lineal
2
2 para
x

=
=
,
(
y
y
)
(
x
x
)
i
i
2
2
2
2
var(
b
)

i
i
1
1
=
=
1
explicada
y residual
cuadrado
de
una distribucin
que corresponde por definicin a
sea un estimador
insesgado denormal
2 y elestandarizada,
cociente
donde var(b1) = 2/{(n 1)s2x} es la varianza de la pendiente estimada. Como se comprobar en
2
2 otra parte, basta con que se
una distribucin
chi-cuadrado
con
1 grado
Por
donde
var(b
1) s x2 }SSR
eslas
la
varianza
de la
estimada.
Como se
el siguiente
apartado,
si se- cumplen
asunciones
dependiente
la regresin
lineal simple,
la pendiente
1) = /{(n
2libertad.
SSR /de
1
2
=
F
=
~
(
n

2
)
s
2
2
estimada b1 seguir una distribucin
media
y2varianza
var(b1). As, 2bajo la
s 2 normal
smodelo
n2 2para
/ con
/(n1 que
) la varianza
cumplan
las
asunciones
subyacentes
al
residual s normal
22 lineal

hiptesis
nula en
H0:elsiguiente
cociente siSSR/
es ellas
cuadrado
de de
unaladistribucin
comprobar
se cumplen
asunciones
regresin lineal
1 = 0, el apartado,
estandarizada, que corresponde por 2definicin a una distribucin chi-cuadrado con 1 grado de
seadistribuye
unPor
estimador
insesgado
de de
dos
yseelchi-cuadrado
cociente las asunciones
se
elestimada
cociente
independientes
divididas
libertad.
otracomo
parte,
basta
con
subyacentes
modelo
bque
normal
con
mediaalpor
y sus lineal
simple,
ladistribucin
pendiente
1 seguir
1ambos
siga una
chi-cuadrado
concumplan
nuna
- 2 distribucin
grados de libertad.
Combinando
2
2
para que la varianza residual s sea un estimador insesgado de y el cociente
respectivos grados de libertad, que es una distribucin
F de Fisher con 1 grado de
23
2)Hs 02: 1 = 0 la razn entre las varianzas
resultados, se tiene que bajo la hiptesis(nnula
Total

i =1

libertad en el numerador y n - 2 grados de libertad


en el denominador. El valor P del
explicada
y
residual
siga una distribucin chi-cuadrado con n 2 grados de libertad. Combinando ambos resultados,
se tiene
que distribucin
bajo
la hiptesis
H0: con
= n0 -laH
las varianzas
explicada
y residual
contraste
de regresin
de lanula
hiptesis
: 1 =entre
0defrente
a la Combinando
hiptesis
alternativa
1 nula
0grados
siga una
chi-cuadrado
2razn
libertad.
ambos
12
SSR SSR / 2
=
~
F
=
2nula2 la
H1se
: tiene
derecha
estadstico
bilateral
resultados,
quecalcula
bajo laentonces
hiptesis
: 1 2= 0/(la
las del
varianzas
1 0 se
s2
scomo
/ H0probabilidad
n razn
2a) la entre
n2

se distribuye
como
el cociente
F
bajo la distribucin
F1,n-2.de dos chi-cuadrado independientes divididas por sus respectivos
explicada
y residual
grados
de libertad,
queelescociente
una distribucin
F de Fisher con
1 grado de libertad
enpor
el numerador
se distribuye
como
de dos chi-cuadrado
independientes
divididas
sus
y n 2La
grados
de
libertad
en
el
denominador.
El
valor
P
del
contraste
de
regresin
de
la
hiptesis
tabla del anlisis de la varianza suele ir 2acompaada
del coeficiente de
2

SSR
SSR
/
nularespectivos
H0: 1 = 0 grados
frente adelalibertad,
hiptesis
alternativa
bilateral
0 se calcula
entonces
es
distribucin
con 1 grado
de como la
1 Fisher
= una
F = que
~ 2 H1F:1de
2
2
2
2
.
probabilidad
a
la
derecha
del
estadstico
F
bajo
la
distribucin
F
s
s

/
/(
2
)
determinacin R , que se define como la proporcin
de la variable
1,n2
n 2de la variabilidad
libertad en el numerador y n - 2 grados de libertad en el denominador. El valor P del
La tabla del anlisis de la varianza suele ir acompaada del coeficiente de determinacin R2,
se explica
por el modelo
de regresin,
querespuesta
sedistribuye
defineque
como
la el
proporcin
de dos
la variabilidad
de la variable respuesta
que por
se explica
por
se
como
cociente
chi-cuadrado
divididas
sus
contraste
de regresin
de la hiptesis
nula
H0: 1 = 0independientes
frente a la hiptesis
alternativa
el modelo de regresin,
n
respectivos grados de libertad,n que es una
F de Fisher con 1 grado de
2 distribucin
entonces
del estadstico
bilateral H1: 1 0 se calcula
b12laprobabilidad
( y i y )como
( x i x ) 2 a la derecha
2
SSR i =1
2
2
2 sx
i =1
R =
= b1 2 = rEl. valor P del
libertad en el numerador
y =n -n2 grados de =libertad
en el denominador.
n
sy
F bajo la distribucinSST
F1,n-2.
2
2
( yi y)
( yi y)

i =1
contraste de regresin de la hiptesis
nula H0:i =1 1 = 0 frente a la hiptesis alternativa
La tabla del anlisis de la varianza suele ir
acompaada del coeficiente de
Pastor-Barriuso R.
bilateral H1: 1 02 se calcula entonces como la probabilidad a la derecha del estadstico
determinacin R , que se define como la proporcin de la variabilidad de la variable 24

F
bajo la distribucin
F1,n-2
respuesta
que se explica
por. el modelo de regresin,

171

el cuadrado
del coeficiente
de correlacin
r de aPearson
entre
las variables
explicativa
observados
del colesterol
HDL respecto
la media
muestral
y = 1,09
mmol/l esy
lineal del10colesterol HDL sobre el ndice de masa corporal en 533 controles del
+ 1,53 el anlisis de la varianza de la regresin
1 10.8 La0,Tabla
89 + 1,10.3
58 + ...
Ejemplo
presenta
respuesta.
x y=regresin
xlineal
= 1,223 mmol/l.
Correlacin

i = simple
533
10 EURAMIC.
10 de cuadrados
estudio
La suma
de)las
desviaciones
de los valores
2
i =1
( y i de
1,09
46,15, en 533
lineal del colesterol HDL SST
sobre= elndice
masa=corporal
controles del
i =1

Ejemplo
10.8
Tabla 10.3
presenta
el anlisis
de la
varianzay de
la regresin
observados
delLacolesterol
HDL
respecto
a la media
muestral
= 1,09
mmol/l
es
2
En el estudio
casopresenta
deEURAMIC.
la regresin
lineal
simple,
el coeficiente
de determinacin
coincide con el
La
suma
de cuadrados
de las desviaciones
de los R
valores
La media aritmtica
las siguientes
propiedades:
que del
sedel
descompone
la suma
cuadrados
deentre
lascorporal
desviaciones
colesterol
cuadrado
coeficiente
correlacin
de Pearson
las variables
explicativa
y respuesta.
lineal
colesteroldeen
HDL
sobre de
elrndice
de masa
en 533del
controles
del
533
observados
del colesterol
HDL
la
media
muestral
y = 1,09 mmol/l es
Cambio de origen
(traslacin).
Si se suma
una
constante
a cada
de los datos
SST
=respecto
( y i a1,09
) 2 =uno
46,15,

HDL
respecto
a
la
recta
de
regresin
y
x
=
1,69
0,023
i
EjemploEURAMIC.
10.8 La Tabla
10.3de
presenta
el
la varianza
delos
la regresin
estudio
La suma
cuadrados
de las de
desviaciones
de
valores lineal del
i anlisis
i =1
colesterol
el ndice
de533
masa
corporal
533 inicial
controles
de una muestra,
la mediaHDL
de lasobre
muestra
resultante
es igual
a la en
media
msdel
laestudio EURAMIC.
2 valores
La suma de del
cuadrados
deSST
las
observados
colesterol
observados
colesterol
HDL
respecto
lademedia
muestral
y = 1,09del
mmol/l
es HDL
=de
( y i a1,09
)los
= 46,15,
533desviaciones

que
se
descompone
en
la
suma
cuadrados
de
las
desviaciones
del colesterol
2
=
1,09
mmol/l
es
respecto
muestral
i
=
1
= xmedia
+
c
,
entonces
y
=
x
+
c
.
Un
cambio
de
origen
que
constante utilizada;
si yai la
SSE = { y i (1,69 0,023x i )} = 42,63
i
i =1

533
HDL respecto a la recta de regresin
y = 1,692 - 0,023xi
se realiza con que
frecuencia
es
el
centrado
de
la
variable,
en restar a del colesterol
SST
=
( y i ique
1,09consiste
) las
= 46,15,
se descompone en la suma decuadrados
de
desviaciones
i =1
y la suma de cuadrados de las distancias entre los valores estimados por la recta
533 de una variable centrada ser, por
cada valor de que
la muestra
su media.
La de
media
HDL
a la recta
regresin
y i = 1,69 -de0,023
serespecto
descompone
en
la
suma
de cuadrados
las xdesviaciones del colesterol HDL
SSE
=
{ y i (1,69
0,023x i )}2 =i 42,63

de
regresin
y
la
media
muestral
que
se
descompone
en
la
suma
de
cuadrados
de
las
desviaciones del colesterol
respecto a la recta de regresin
i =1 i = 1,69 0,023xi
tanto, igual a 0.
533
69
HDL respecto a la recta
de
regresin
x=i 42,63
1,69
- x0,023
533{ y (1,y
i =
SSE
=
de
0,los
023
)}22 de

i
ivalores
y la suma
de cuadrados
de= las
distancias
entre
los
estimados por la recta
Cambio de escala
(unidades).
Si seSSR
multiplica
cada
uno
datos
= una
3,53.
i
=1 (1,69 0,023 x i 1,09)
i =1

ydelaconstante,
suma deylacuadrados
de533
las distancias
entre
los2 valores
estimados por la recta de
regresin
lamedia
mediademuestral
muestra por una
la
muestra
resultante
es igual
a la media
SSE
=
{
y

(
1
,
69

0
,
023
x
)}
=
42,63

regresin
media muestral
y la suma ydelacuadrados
de las
distancias
entre los ivalores estimados por la recta
i
i =1
As, la proporcin de la variabilidad
del colesterol HDL que se explica
inicial por la constante utilizada; si yi = cx533
i, entonces y = c x .
de regresin y la media
muestral
(1,69corporal
0,023viene
x i 1,dada
09) 2 por
= 3,53.
SSR =de
nicamente
con
el
ndice
masa
el coeficiente de
y la suma
de cuadrados
i =1 distancias entre los valores estimados por la recta
Cambio simultneo
de origen
y escala.deSilas
se multiplica cada uno de los datos de
533
As,
la proporcin de la variabilidad
del colesterol HDL
determinacin
2 que se explica nicamente con el
de
regresin
y
la
media
muestral
(
1
,
69

0
,
023
x

1
,
09
)
3,53.
SSR
=

i
una muestra por
una
constante
y
al
resultado
se
le
suma
otra
constante,
la media
ndice
masa corporal
viene
dada por
coeficiente
de=que
determinacin
As, la de
proporcin
de la variabilidad
delelcolesterol
HDL
se explica
i =1
2
Rinicial
= 3,53/46,15
= 0,076,
de la muestra nicamente
resultante escon
igual
la media
por la primera
constante,
ms la
el andice
de533
masa
corporal
viene
dada
2 por el coeficiente de
(
1
,
69

0
,
023
x

1
,
09
)
=
3,53.
SSR
=

As, coincide
la proporcin
decuadrado
la variabilidad
del colesterol
HDL que se
explica
i
que
con elde
del coeficiente
de correlacin
i =1
parte significativa
la
variabilidad
total
del
colesterol
HDL,muestral
se realizaentre
el el ndice de
y
=
c
x
+
c
,
entonces
y
=
c
x
+
c
.
segunda constante;
si
2
2
i
1
i
2
1
2
determinacin
que
coincide
con
el
cuadrado
del
coeficiente
de
correlacin
muestral
entre
el
masa corporal y el colesterol HDL r = (0,276) = 0,076. Para determinar
si esta
nicamente
con
el
ndice
de
masa
corporal
viene
dada
por
el
coeficiente
de
variabilidad
explicada
por
el
ndice
de
masa
corporal
es
una
parte
significativa
H0: 21 =HDL
0 mediante
razn entre las de la
contraste
de regresin
devariabilidad
la hiptesisdel
nula
2 se la
As,
la
proporcin
de
la
colesterol
que
explica
ndice
de
masa
corporal
y
el
colesterol
HDL
r
=
(-0,276)
=
0,076.
Para de la hiptesis
2
variabilidad total del colesterol
se realiza
el contraste de regresin
R HDL,
= 3,53/46,15
= 0,076,
determinacin
Ejemplo 1.5 Para
transformar
los
valores
del
colesterol
HDL
de
mmol/l
a
mg/dl
se
2 varianzas explicada SSR = 3,53 y residual
nula
H0: explicada
la razn
entre las
1 = 0 mediante
varianzas
SSR =
y corporal
residual
sviene
= 42,63/531
=el0,080,
nicamente
con
el variabilidad
ndice
de3,53
masa
dada de
pormasa
coeficiente
deuna
determinar
si
esta
explicada
por
el ndice
corporal es
2
s = 42,63/531 = 0,080,
2 coeficiente
coincide
con el cuadrado
correlacindel
muestral entre el
multiplica porque
el factor
de conversin
38,8.Rdel
As,
utilizando de
la
propiedad
= 3,53/46,15
= 0,076,
25
determinacin
F = 3,53/0,080 = 43,93.
2
2
ndice
masa
y elHDL
colesterol
HDL
= (-0,276) = 0,076. Para
cambio de escala,
la de
media
delcorporal
colesterol
en mg/dl
sercalculara
Bajo
la hiptesis
este estadstico
sigue una distribucin F de Fisher con 1 grado de
que coincide
con nula,
el cuadrado
del
2 coeficiente de correlacin muestral entre el
R =grados
3,53/46,15
= 0,076,
Bajo la hiptesis
nula, estey estadstico
sigue
una
distribucin
F de Fisherluego
con 1
ensusi
elmedia
numerador
531
de
en de
elmg/dl.
denominador,
determinar
esta
variabilidad
explicada
por
el2 ndice
masa
corporal es una el valor P
libertad
38,8
= 47,45
directamente alibertad
partir de
en mmol/l
como
1,223
2
En conclusin,
las diferencias en el
bilateral
contraste
ndice dedel
masa
corporalesyP(F
el colesterol
HDL< r0,001.
= (-0,276)
= 0,076. Para
1,531 43,93)
25 en la
grado
de
libertad
en
el
numerador
y
531
grados
de
libertad
en
el
denominador,
ndice
de masa
explican
el 7,6% dedelacorrelacin
variabilidad
del colesterol
que
coincide
concorporal
el cuadrado
del coeficiente
muestral
entre el HDL
6 es una
P <corporal
0,001).
poblacin
del estudio
EURAMIC
(R2 = 0,076,
determinarde
si referencia
esta variabilidad
explicada
por el ndice
de masa
2
2
luego
el
valor
P
bilateral
del
contraste
es
P
(
F

43,93)
<
0,001.
ndice de masa corporal y el colesterol HDL r1,531
= (-0,276) = 0,076. En
Paraconclusin,
25
Tabladeterminar
10.3
Tabla
del
anlisis
demasa
la varianza
la regresin
del es
colesterol
HDL
las
diferencias
en el
ndice de
corporal
explican
el
de
la variabilidad
si esta
variabilidad
explicada
porde
el ndice
de7,6%
masalineal
corporal
una
sobre el ndice de masa corporal en el grupo control del estudio EURAMIC.*
2
del colesterol HDLSuma
en ladepoblacin de
referencia
del estudio EURAMIC (RRazn
= 25
Grados
de
de

cuadrados

libertad

Varianza

varianzas

3,53
42,63
46,15

1
531
532

3,53
0,080

43,93

0,076, P < 0,001).

Regresin
Error
Total

* Coeficiente de determinacin[Tabla
R2 = 3,53/46,15
= 0,076.
10.3 aproximadamente
172

aqu]

Pastor-Barriuso R.

10.3.3 Inferencia sobre los parmetros de la recta de regresin

1.2 MEDIDAS DE TENDENCIA CENTRAL


pendiente de la recta de regresin utilizando el mtodo de mnimos cuadrados. A partir

Regresin lineal simple

Las medidas de tendencia central informan acerca de cul es el valor ms representativo


de las distribuciones muestrales de b0 y b1, se derivan a continuacin los intervalos de

de una determinada variable o, dicho de forma equivalente,


estos estimadores indican
donde
los coeficientes
clos
xi para
- x )/{(
- de
1) slax2 }recta
dependen
nicamente
valores
confianza
y tests sobre
de hiptesis
losnparmetros
subyacentes
0 y 1de
dellos
modelo
dede
i = (parmetros
10.3.3
Inferencia
de regresin
alrededor
de qu valor
se agrupan
los datos
de tendencia
En el Apartado
10.3.1
se obtuvieron
los observados.
estimadores Las
b0 y medidas
b1 de la constante
y la pendiente de la
regresin
lineal
simple.que se asumen constantes. Bajo
la
variable
explicativa
las
asunciones
y
recta de regresin utilizando el mtodo de mnimos cuadrados. A partirde
delinealidad
las distribuciones
central
de la muestra
paraa resumir
los resultados
observados
como para
muestrales
de b0 ysirven
b1, setanto
derivan
continuacin
los intervalos
de confianza
y tests de hiptesis
El estimador
delamnimos
de la pendiente
homogeneidad
de
varianza,cuadrados
el valor esperado
de b1 esde la recta de regresin puede
para los parmetros subyacentes 0 y 1 del modelo de regresin lineal simple.
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
El
estimadorcomo
de mnimos
cuadrados
de
la pendiente
de la recta
regresin
puede reescribirse
reescribirse
una combinacin
lineal
de los
valores
de lade
variable
respuesta
n
n
n
como unasecombinacin
lineal
loscivalores
respuesta
E
(principales
b1) =de
Eestimadores
( y i ) =de
0lavariable
c i la+ tendencia
1
c i x i central
= 1 de una
continuacin
describen los
de
n

i =1

i =n1

i =1

2
donde los coeficientes ci = ((xxi - xx)/{(
de los valores de
y ) s x }dependen
)( y in- 1)
( x i x ) ynicamente

variable.
i
i
n
b1 = cii ==1 y(ixnson
=2 }i =n1dependen
= c3.4),
y,
comoloslascoeficientes
observaciones
independientes
(vase Apartado
su varianza
i y i ,de
donde
x
)/{(
n
1)
s
valoreses
i
x
la variable explicativa que se asumen constantes.
Bajo las2nicamente
asunciones
de los
linealidad
yde
2
i =1

x
x
x

x
(
)
(
)

i
i
1.2.1 Media aritmtica
i =1

i =1

n
la
variable explicativa
que se asumen
constantes.
de linealidad y
b1 2eslas asunciones
homogeneidad
de la varianza,
eln valor
esperado 2deBajo
2
2
2y ) =
var(
=
var(
b
)
=
.
c
c
1
La media
denotada
por
,
se define
la
suma
de valores
los
dondearitmtica,
los coeficientes
ci = (x
i 1)sx }como
dependen
nicamente
de los
de la variable
i de cada uno
i
i x )/{(n
(n 1) s x2
i =1
i =1
explicativa
que se de
asumen
constantes.
Bajo
las
asunciones
de
linealidad
y
homogeneidad
de la
b
es
homogeneidad
la varianza,
el
valor
esperado
de
1
n
n
n
valores
muestrales
dividida
por
el nmero
varianza,
el valor
esperado
b es de observaciones realizadas. Si denotamos
E(bde
1) = 1 c i E ( y i ) = 0 c i + 1 c i x i = 1
26
i=
i=
i=
Es decir, b1 es un estimador insesgado
de 1 que
n1
n1 ser tanto
n1 ms preciso cuanto menor
por n el tamao muestral y por
observado
para
i = 1, ..., n,
E(bx1i)el
= valor
ci E
( yi ) = 0
c i el+ sujeto
1 ci-simo,

i xi = 1
i =1
i =1
i =1
sea
la varianza
de la variable
respuesta
alrededor (vase
de la recta
de regresin
mayoreses
y, como
las observaciones
yi son
independientes
Apartado
3.4), suyvarianza
la media
vendra
dada
por
y, como las observaciones yi son independientes (vase Apartado 3.4), su varianza es
sean
el tamao
muestral y la
de la variable
explicativa.
Adems,
si el tamao
y, como
las observaciones
yi dispersin
sonn independientes
(vase
Apartado
3.4),
su varianza
es
n
2

n
2x + x + ... +2 x
2
1
var(
= x=c i 1var( y2 i ) =
.
n ci =
2
. una(generalizacin
x =b1 )
muestral n es suficientemente
grande,
puede aplicarse
del teorema
i1
n

1
)
s
1
=
=
i
i
x
2
n
n
n i =1
n

2
2
2
var(b1) = c i var( y i ) = c i =
.
2
Es central
decir, bdel
es
un
estimador
insesgado
de

que
ser
tanto
ms
preciso
cuanto
menor
lmite
(ver
su
versin
ms
simple
en
el
Apartado
4.3.3)
para
demostrar
quesea la
(
n

1
)
s
1
1
i
=
=
i
1
1
x
Es
decir,
b
es
un
estimador
insesgado
de

que
ser
tanto
ms
preciso
cuanto
menor
1
1
varianza
de
la
variable
respuesta
alrededor
de
la
recta
de
regresin
y
mayores
sean
el
tamao
La media es la medida de tendencia central ms utilizada y de ms fcil
b1 se distribuye
de formadeaproximadamente
normal con
la media
muestral
y la dispersin
la variable explicativa.
Adems,
si yelvarianza
tamao descritas
muestral n es
Es
decir,
b
es
un
estimador
insesgado
de

que
ser
tanto
ms
preciso
cuanto
1
1
sea
la
varianza
de
la
variable
respuesta
alrededor
de
la
recta
de
regresin
y
mayores
suficientemente
grande, al
puede
aplicarse
una generalizacin
central
lmite (ver
interpretacin.
Corresponde
centro
de gravedad
de los datosdel
de teorema
la muestra.
Su delmenor
su anteriormente,
versin ms simple en el Apartado 4.3.3) para demostrar que b1 se distribuye de forma
sea
laelvarianza
variable
respuesta
alrededor
de
laexplicativa.
recta
de regresin
y mayores
sean
tamao
muestral
y laladispersin
de por
la variable
Adems,
si el tamao
principal
limitacin
es de
quelaest
muy
influenciada
los
valores
extremos
y, en este
aproximadamente
normal
con
media y varianza
descritas
anteriormente,

de
b1 puede
1 la~aplicarse
sean
el tamao
muestral
la la
dispersin
Adems,del
si teorema
el tamao
muestral
n es
grande,
generalizacin
variable
N (de
0, la
1)explicativa.
.una
caso, puede
no
ser
unsuficientemente
fiel
reflejoyde
tendencia
central
distribucin.

muestral
n es
suficientemente
grande,
una generalizacin
del teorema
central del
lmite
(ver su versin
ms
en el Apartado
4.3.3) para demostrar
que
s x simple
npuede
1 aplicarse
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
central
del
su versin
ms simple
en el Apartado
4.3.3)
demostrar
que
Para
usolmite
de este
resultado,
el parmetro
desconocido
de sustituirse
por
la desviacin
b1hacer
se distribuye
de(ver
forma
aproximadamente
normal
con laha
media
y para
varianza
descritas
Pararesidual
hacer
de este
elHDL
parmetro
desconocido
hadistribucin
de sustituirse
por la de b1
tpica
s,valores
que
conlleva
un error
adicional
de muestreo.
utilizarn
losuso
delresultado,
colesterol
obtenidos
en los 10La
primeros
sujetosresultante
del
b
se
distribuye
de
forma
aproximadamente
normal
con
la
media
y
varianza
descritas
seranteriormente,
1entonces ms dispersa que la normal, siguiendo aproximadamente una distribucin t de
desviacin
s,Antioxidants,
que conlleva
un error adicional
de muestreo.
Student
lostpica
n 2residual
grados
de
libertad
correspondientes
aInfarction
la estimacin
de laLa
varianza
residual,
estudiocon
European
Study on
Myocardial
and Cancer
of
anteriormente,
b1b1 1ms
1 ~ ~dispersa que la normal, siguiendo
distribucin
resultante deun
b1 estudio
ser entonces
.casos
Nt(n0de
) . y controles realizado
the
Breast (EURAMIC),
multicntrico
,2 1
s

b 1 ~
aproximadamente
una
distribucin
- 2 grados
de libertad
n 1e1
Ncon
(0para
, los
1) . nevaluar
stxs1de

x n Student
entre
1991 y 1992 en
ocho
pases Europeos
Israel
el efecto
de los

Cabe
destacar que este
resultado
se hade
independencia de la asuncin de normalidad
correspondientes
a la
estimacin
varianza
sderivado
1 con residual,
x la n
y, en
consecuencia,
vlido
para cualquier
distribucin
subyacente
la variable
Cabe
destacar
este
resultado
se
derivado
con independencia
de
asuncin
de
Para
hacer
usoque
deeseste
resultado,
el ha
parmetro
desconocido
ha dede
sustituirse
por
la
5 respuesta,
siempre que el tamao muestral sea suficientemente grande.
normalidad
y, en
para
cualquier
distribucin
subyacente
Para
hacer uso
deconsecuencia,
este resultado,
elvlido
parmetro
desconocido
dehamuestreo.
de sustituirse
desviacin
tpica
residual
s, quees
conlleva
un error
adicional
La pordelala

variable
respuesta,
siempre
tamao un
muestral
sea suficientemente
grande.
desviacin
tpica
residual
que
error
adicional
muestreo.
La
distribucin
resultante
de bs,1que
serelconlleva
entonces
ms
dispersa
que de
la normal,
siguiendo
A partir deresultante
la distribucin
muestral
b1ms
, el intervalo
de
100(1 - )%
distribucin
de b1 ser
entonces
dispersa
la
normal,
aproximadamente
una distribucin
t dedeStudent
con los nque
- 2confianza
grados
dealsiguiendo
libertad

27

Pastor-Barriuso R.

aproximadamente
distribucin
t la
de
Student
con los nviene
- 2 grados
de libertad
para
la pendiente subyacente
1 dedela
recta
de regresin
dado por
correspondientes
auna
la estimacin
varianza
residual,

173

A partir de la distribucin muestral


b , el intervalo. de confianza al 100(1 - )%
b1 t nde
2 ,11 / 2
s x n sea
1 suficientemente grande.
variable respuesta, siempre que el tamao muestral
para la pendiente subyacente 1 de la recta de regresin viene dado por
Correlacin y regresin lineal simple
partir
de la el
distribucin
muestraldedelabhiptesis
de confianza
al 100(1 lineal
- )%
1, el intervalo
DeAigual
forma,
contraste bilateral
de ausencia
de asociacin

s
.realiza
b1
para
lalaspendiente
subyacente
y1 respuesta
de
la trecta
regresin
viene dado
por el estadstico
n 2 ,1H
de
/ 2:
=
mediante
entre
variables
explicativa
0
1
A partir de la distribucin muestral de b1, el intervalo
confianza
al 100(1 )% para la
s x n0se
1de
pendiente subyacente 1 de la recta de regresin viene dado por
s
b
.
b1 ttde
De igual forma, el contraste bilateral
de asociacin lineal
2la
,1hiptesis
/2 1
n=
, de ausencia
ss x n 1

sH
=de
0 se
realiza de
mediante
el estadstico
variables
explicativa
y respuesta
11
Deentre
iguallas
forma,
el contraste
bilateral
de la hiptesis
ausencia
asociacin
lineal entre las
x 0:n
De
igual
forma,
el
contraste
bilateral
de
la
hiptesis
de
ausencia
de
asociacin
variables explicativa
y respuesta
H0: un
0 se realiza
mediante
el miocardio
estadsticoen lineal
1 =primer
1.2
DE TENDENCIA
CENTRAL
antioxidantes
en elMEDIDAS
riesgo
de desarrollar
infarto
agudo de

s en el riesgo de desarrollar
un primer
agudosedepresentan
miocardio
en
b el
quePara
se distribuye
aproximadamente
como
una
t de
Studentde
con
n - 2 grados
de libertad
completar
la infarto
exposicin,
intervalo
confianza
y el test
de
t = H0: 1
entre
las
variables
explicativa
y
respuesta
1 = ,0 se realiza mediante el estadstico
hombres adultos.
Los
valores
obtenidos
fueron
0,89,
1,58,
0,79,
1,29,
1,42,
0,84,
s
Las medidas de tendencia central informan acerca de cul es el valor ms representativo
ultos. Los valores obtenidos
fueron
0,89,
1,58,de0,79,
1,29,es
0,84, aunque
si laPara
hiptesis
nula
esexposicin,
cierta.
Este
test
equivalente
de
regresin
lineal
hiptesis
para
la constante
la recta
de1,42,
regresin,
inferencias
suelen
completar
la
se
presentan
deestas
confianza
y el test
de tener
s x nel intervalo
1 al contraste
1,06, 0,87, 1,96
y
1,53
mmol/l.
La
media
de
los
niveles
del
colesterol
HDL
en
b
de una determinada variable o,
1de forma equivalente, estos estimadores indican
, el estadstico
t =dicho
,96 y 1,53 mmol/l.
La
media
de los
niveles
del
colesterol
HDL
en
simple
presentado
en
el
apartado
anterior.
De
hecho,
del
contraste
de
queescasa
se
distribuye
aproximadamente
como
una
t
de
Student
con
n en
2Fla
grados
de
libertad
si la
importancia
porque
la
relacin
en
x
=
0
carece
de sentido
mayora
de las
s
hiptesis para la constante de la recta de regresin,
aunque
estas
inferencias
suelen
tener
estos
10
es
queparticipantes
senula
distribuye
aproximadamente
como
una
t
de
Student
con
n
2
grados
de
libertad
hiptesis
es
cierta.
Este
test
es
equivalente
al
contraste
de
regresin
lineal
simple
presentado
valor se se
agrupan
observados.
Las medidas
dede
tendencia
Para alrededor
completarde
la qu
exposicin,
presentan
el intervalo
de confianza
y el test
s xlosntdatos
1este
ticipantes es en el
regresin
es
igual
al
cuadrado
del
estadstico
de
contraste,
apartado
anterior.
De
hecho,
el
estadstico
F
del
contraste
de
regresin
es
igual
al
cuadrado
aplicaciones.
El
estimador
mnimo-cuadrtico
de
la
constante
b
=
y
b
x
es
una
1
escasa importancia porque la relacin en x = 0 carece de sentido0 en la mayora
de las
la hiptesis
nula
es
cierta.
Este
test
es
equivalente
al
contraste
de
regresin
lineal
delsi
estadstico
t
de
este
contraste,
10 la muestra sirven tanto para resumir los resultados observados como para
0,89de+la
1,58
...de+ 1regresin,
,53 el intervalo
hiptesis
para1lade
constante
recta
aunquedeestas
inferencias
suelen
Para central
completar
la exposicin,
se+presentan
confianza
y el test
de tener
x
xde
1,223
=
10
2 =
2 mmol/l.
que
se
distribuye
como
una
t
de
Student
con
n
2
grados
de
libertad

i =dos estimadores
1
0combinacin
,89 + 1,58 + ...10
,aproximadamente
53
aplicaciones.
El+ 1estimador
mnimo-cuadrtico
de
la
constante
b
=
y
b
x
es
una
lineal
independientes
y
y
b
que
tienden
a
distribuirse
0
1
1
(

1
)
b
n
s
SSR
2
1
x
i =1 en el
x = x i = simple presentado
= 1,223
mmol/l.
apartado
anterior.
De
hecho,
el=estadstico
F del contraste de A
F
=10
=parmetros
tsentido
,
realizar
acerca
de2los
poblacionales
2
escasa importancia
porque de
la
relacin
en
x
=
0
carece
de
en correspondientes.
la mayora
de las
hiptesis
para lainferencias
constante
la recta
de
regresin,
aunque
estas inferencias
suelen
tener
10 i =1
10
s
s
si
laforma
hiptesis
nulaconforme
es
Este testelestamao
equivalente
al contraste
detienden
regresin
lineal
combinacin
lineal
decierta.
dos estimadores
independientes
ydey lo
b1 cual
que
a distribuirse
de
normal
aumenta
muestral,
se
deduce
que
la
es igual
al cuadrado
del estadstico
t de este
contraste,
de regresin
tal
forma
que
ambos
procedimientos
lossentido
mismos
(lacentral
distribucin
continuacin
se describen
losfacilitan
principales
estimadores
aplicaciones.
El
estimador
mnimo-cuadrtico
de
la constante
bde0 en
=lavalores
ytendencia
b1 xP es
una
importancia
porque
la relacin
en x = 0siempre
carece
de
la -mayora
de
las de una
La mediaescasa
aritmtica
presenta
las siguientes
propiedades:
simple
presentado
en
el
apartado
anterior.
De
hecho,
el
estadstico
F
del
contraste
de
F
de
Fisher
con
1
grado
de
libertad
en
el
numerador
y
n

2
grados
de
libertad
en
el
denominador
de
tal
forma
que
ambos
procedimientos
facilitan
siempre
los
mismos
valores
P
(la
distribucin
muestral
de b0 aumenta
tambin ser
aproximadamente
media que la
tica presenta las siguientes
propiedades:
de forma normal
conforme
el tamao
muestral, de normal
lo cual con
se deduce
2
es, aplicaciones.
por definicin,
elestimador
cuadrado
de la distribucin
de
n0 = 2tienden
grados
libertad).
variable.
El
mnimo-cuadrtico
- b1 xade
es
una
1la
)Student
b12 (ntde
saxconstante
SSR
combinacin
lineal
de dosSiestimadores
y 2uno
ycon
b1 bde
que
distribuirse
Cambio
de origen (traslacin).
se suma
unaindependientes
constante
cada
losy datos
Fdel
= estadstico
,
=
=
t
regresin
es
igual
al
cuadrado
t
de
este
contraste,
distribucin
F
de
Fisher
con
1
grado
de
libertad
en
el
numerador
y
n
2
grados
de
2
2
origen (traslacin).Para
Si secompletar
suma una
constante
cada
uno
de los el
datos
la
exposicin,
intervalo
de normal
confianza
el test de hiptesis
distribucin
muestral
de b)0a=tambin
conymedia
E(sey presentan
) -sser
E(b1aproximadamente
) x = s
E(b
0
0 + 1 x - 1 x = 0
laforma
constante
de
laconforme
recta
regresin,
aunque
estas
inferencias
tener
escasa
importancia
de para
unacombinacin
la media
lademuestra
resultante
es
igual
a laymedia
inicial
ms
1.2.1
Media
lineal
dearitmtica
dos
estimadores
independientes
y blosuelen
que
tienden
aladistribuirse
demuestra,
normal
aumenta
el tamao
muestral,
de
se
deduce
que
la
1 cual
libertad
en
el
denominador
es,
por
definicin,
el
cuadrado
de
la
distribucin
t
de
Student
2
2
tra, la media deporque
la muestra
resultante
a la media
inicial
la relacin
en xes=igual
0 carece
deSSR
sentido
la
de
las
aplicaciones.
El
estimador
(nms
1mayora
)la
b1en
sx
) = E(
+ 1 =
x t-2los
xmismos
= 0 valores P (la
E(bprocedimientos
de tal forma que ambos
1) x = 0siempre
F =yb ) =- E(b
,1 de
=facilitan
2y por
2.una
=
bx1 x +,esse
combinacin
lineal
decada
dosque
estimadores
mnimo-cuadrtico
constante
=laxide
+ 0bc,0 entonces
c
Un
cambio
origen
que
ydistribucin
varianza
constante
utilizada;
si yde
Lanormal
media
denotada
define
como
suma
de
uno
iaritmtica,
muestral
tambin
aproximadamente
condeduce
media
de
forma
conforme
aumenta
el
tamao
muestral,
de normal
lo la
cual
se
lade los
0 sser
s
con
n
2
grados
de
libertad).
+
c
,
entonces
y
=
x
+
c
.
Un
cambio
de
origen
que
ilizada; si yi = xindependientes
y b1 que tienden a distribuirse de forma normal conforme aumenta el tamao
i
distribucin
F deseFisher
conque
1 grado
de libertad
en el numerador
y n -ser
2 grados
de
tambin
aproximadamente
muestral,
de
lo
cual
deduce
la distribucin
muestral
de b0normal
valores
muestrales
elaproximadamente
nmero
deconsiste
observaciones
realizadas.
Si denotamos
y varianza
se realiza
con frecuencia
es de
el centrado
depor
la variable,
que
en2restar
amedia
distribucin
muestral
b)0 dividida
tambin
ser
con

=
E(
y
)
E(b
)
x
=

x
=

E(b
x
0
1
1 mismos
0 valores P (la
de
tal
forma
que
ambos
procedimientos
facilitan
2 0siempre
21 1 los
normal
con
media
n frecuencia es el centrado de la variable,
consiste
restar
a= +
.
) = es,
var(
y )definicin,
+ en
var(b
var(b0que
1) xel
28
2
libertad en el denominador
por
cuadrado
la 1distribucin
t de Student
n de
(
n
)
s
por
n
el
tamao
muestral
y
por
x
el
valor
observado
para
el
sujeto
x por i-simo, i = 1, ..., n,
centrada 2ser,
i una variable
cada valor de la muestra su media. La media de
E(grado
y ) E(b
0 + el
21numerador
x1 1 x x= y 0n - 2 grados de
distribucin
F de
con
de ser,
libertad
0) = 1
1) x =
2 en
e la muestra su media.
La media
de Fisher
unaE(b
variable
centrada
por
y varianza

0) = var( y ) + var(b1) x =
con
n - 2 grados devar(b
libertad).
+ (n 1) s 2 .
la media vendra dada 2por
tanto,
igual a 0.
2 n
y varianza
x
Reemplazando
el parmetroes,
por
pordefinicin,
su estimacin
s , el intervalo
de confianza
al Student
100(1 libertad
en el denominador
el cuadrado
de la distribucin
t de
a 0.
y varianza
2
1 datos de
x una
2
Cambio de escala (unidades).
Si se multiplica
cada
.
2 y ) + var(b
x21,2los
var(b
+
+ xintervalo
1 1)n xuno= de
0) = var(
2 + ... + xde
con
n
2
grados
de
libertad).

)%
para
la
constante
poblacional

es
Reemplazando
el
parmetro

por
su
estimacin
s
el
al 100(128
0
escala (unidades). Si se multiplica cada uno de los datosxde
= una
xi =
n (n 1)ns x2. confianza

n i =1resultante
n xa2 la media

2
21
muestra por una constante,
la media
de la muestra
es+igual
.
)
=
var(b
2var( y ) + var(b1) x =
2
0
2
Reemplazando
el
parmetro

por
su
estimacin
s
,
el
intervalo
de
confianza
al 100(1 )%

)%
para
la
constante
poblacional

es

0 a la media
una constante, la media de la muestra resultante es
igual
2n
(
n

1
)
s
x

2
2
1
x
paraReemplazando
la constante
poblacional
si
es
el utilizada;
parmetro
por
estimacin
s ,cel
de confianza al 100(128by0i =
cx
t n su
+y =
0
xms
.intervalo
inicial
por
la constante
i,2tendencia
,entonces
1 / 2 s
La media
es la medida
de
central
2 utilizada y de ms fcil
n (n 1) s x
a constante utilizada; si yi = cxi, entonces y = c x .
2
1 s2, xel2 intervalo de confianza al 100(1 Reemplazando
parmetro
b por
su
estimacin
)% para
la constante
poblacional

0ales

t
s
+ cada
interpretacin.
Corresponde
centro
de
gravedad
delos
losdatos
datosdede la muestra. Su
Cambio simultneo
deelorigen
y escala.
Si
se
multiplica
uno
n 2 ,1 / 2
0
2 de
n

(
n
1
)
s
x
ultneo de origen yy escala.
Si se multiplica
cadadeuno
de los datos
el estadstico
del contraste
la hiptesis
nuladeH0: 0 = 0 es
)% para
launa
constante
poblacional
est
0 esse
principal
limitacin
es
que
muy
influenciada
por los valores
unay muestra
por
constante
y
al
resultado
le
otra constante,
la mediaextremos y, en este
el estadstico del contraste de la hiptesis nulasuma
H
1 0: 0 =x02 es
por una constanteyyelalestadstico
resultado se
suma otrade
bconstante,
hiptesis
t n 2,1 /la2 smedia
+H : = 20 es
0 la
dellecontraste
nula
0 01) s
bpor
x constante,
0ntendencia
puedeesno
ser aunlafiel
reflejo
de
la
de la distribucin.
de la muestra caso,
resultante
igual
media
inicial
la(nprimera
ms la
,2 central
t=
1
x
2
a resultante es igual a la media inicial por la primera
ms
b0 tconstante,
+
x la
n 2 ,11/ 2 s
+
s
n
(nc22. 1) s x2
b
y
=
c
x
+
c
,
entonces
y
=
c
x
+
segunda
constante;
si
0
i
1 i
2
1
n nula
(n H
1)0s:x0, = 0 es
y el estadstico del contraste de lat hiptesis
=
ejemplos sobre estimadores muestrales, se
y = c1 x1.4
+ cEn
stante; si yi = c1xi + c2, entoncesEjemplo
2. este y en los sucesivos
1
x2
+
queybajo
H0 seguirdel
aproximadamente
unas distribucin
de =
Student
n 2 grados de libertad.
el estadstico
contraste
de la hiptesis
H)0s:tx2
0 es con
n nula
utilizarn
los
valores
del
colesterol
en
los 10
primeros
del
b(n0 1HDL
Ejemplo
Para
los valores deluna
colesterol
HDL0 obtenidos
a con
mg/dl
seguir aproximadamente
distribucin
tdedemmol/l
Student
n -se
2 grados sujetos
de
que1.5
bajo
H0 transformar
,
t
=
Para transformar los valores del colesterol HDL de mmol/l a mg/dl2 se
1
x
estudio
European38,8.
Study
on +Antioxidants,
Myocardial
Infarction
and Cancer
of
sAs,
b0
multiplica
por el
factor
de aproximadamente
conversin
utilizando
libertad.
seguir
una
distribucin
de Studentdel
con
n - 2 grados
de
que
bajo
H
2 la tpropiedad
0
,
t
=
174 Pastor-Barriuso R.
n
(
n
1
)
s

x
or el factor de conversin 38,8. As, utilizando la propiedad del
1 estudio
x 2 multicntrico de casos y controles realizado
the
Breast
(EURAMIC),
un
s en
+ mg/dl se2 calculara
cambio
de escala, la media del colesterol HDL
libertad.
n (n obtenidas
1) s x
scala, la media delque
colesterol
HDL
en
mg/dl
se
calculara
Ejemplo
10.9
Las
estimaciones
puntuales
el Ejemplo
para losde
t deenStudent
con n10.7
- 2 grados
bajo H seguir aproximadamente una distribucin
0

constante es
0,283
2 s
2
1
x
1 estndar
26,0de
SE(b
)
=
= 0,0035.
=
1
1,69,
b
=
-0,023
y
s
=
0,283.
El
error
la estimacin
de lalineal simple
fueron b0 =SE(b
1
s
= 0,092Regresin
+
=
0
,
283
+
)
=
0
s n 1 3,50 532
n (n x1) s x2
533 532 3,50 2
1
x2
1
26,0 2
constante es
= 0,092
+ y s = 0,283.
= 0,283
+
=1 s= -0,023
0) b
1,69,
El error estndar
de la
fueron b0 =SE(b
2 estimacin de la
533
(n 1) syx2la pendiente
3,de
50regresin
Los ICs al 95% para
lanconstante
de la532
recta
Ejemplo
10.9 Las estimaciones puntuales obtenidas en el Ejemplo 10.7 para los
y de la pendiente
2
2
constante
parmetrosesde la regresin
HDL 1sobre el26,0
ndice
de masa corporal fueron
1 delx colesterol
poblacional
son0)entonces
s
= 0,092
+
=
0
,
283
+
=
SE(b
by0de
= 1,69,
b1 = 0,023 y s = 0,283. 2El error estndar de la estimacin
de la constante es
la pendiente
n (n 1) ssx
533 532 3,50 2
0,283
SE(b1) = 2
= 0,0035.
=
2
1 SE(b
xs x0) =
1532 =26,0
n 1,69
1 3,50

t
1,960,092
(1,51;
1,87)
b
0
531;0,975
+
+
= 0,092
SE(b0 ) = s
2
s2 = 0,2830,283
n
533
(
n

1
)
s
532

3
,
50
= 0,0035.
x
=
y de la pendiente SE(b1) =
s x n 1 3,50 532
yy
de ICs
la pendiente
Los
al 95% para la constante
y la pendiente de la recta de regresin
s
0,283
y de la pendiente
SE(b
0,0035.
=
1) =
poblacional
son
entonces
Los ICs al b95%
constante
yn la
de la==recta
de regresin
1pendiente
3,50 532
t para laSE(b
) =s -0,023
1,960,0035
(-0,030;
-0,016).
1

531;0,975

s
0,283
poblacional
son
entonces
Los
ICs al 95%
la constante
y la pendiente
de la= recta
de regresin poblacional son
0,0035.
=
1) =
tSE(b
b0para
531;0,975SE(b0) = 1,69 1,960,092 = (1,51; 1,87)
s xpuede
1pendiente
3,50 532
Del
para
la pendiente
concluirse
con
del 95% que
Los intervalo
ICs al 95%
para
la constante
yn la
de
la una
rectaconfianza
de regresin
entonces

t531;0,975 SE(b
b0 colesterol
0 ) = 1,69 1,960,092 = (1,51; 1,87)
ypoblacional
el
nivel medio
HDL
en la poblacin de referencia del estudio
sonde
entonces
Los ICs al 95% para la constante y la pendiente de la recta de regresin
y significativa ya que el contraste de la hiptesis nula H0: 1 = 0 mediante el
EURAMIC
disminuye
entre)0,016
y 0,030
mmol/l por cada
incremento
de 1
y
bt531;0,975
SE(b
1,960,0035
0,030;
0,016).
1 = 0)0,023
poblacionalb1son
t531;0,975
SE(b
= 1,69
1,960,092==((1,51;
1,87)
0entonces
estadstico
2
kg/mintervalo
en el ndice
dependiente
masa corporal.
general, con
el intervalo
de confianza
para
Del
para la
puedeEn
concluirse
una confianza
del 95%
queelel nivel
t531;0,975
SE(b1) = puede
-0,023concluirse
1,960,0035
= (-0,030;
-0,016).
b1 para
Del
intervalo
la
pendiente
con
una
confianza
del
95%
que

t
SE(b
)
=
1,69

1,960,092
=
(1,51;
1,87)
b
y
medio
de colesterol
HDL en la poblacin
de referencia del estudio EURAMIC disminuye
0
531;0,975
0
2 la variable explicativa
bincremento
incremento
0,023
efecto0,016
subyacente
a cualquier
c en
entre
y 0,030c
mmol/l
port =cada
de 1=kg/m
en el ndice de masa corporal.
1
1 asociado
=
-6,63
el
nivel
medio
de
colesterol
HDL
en
la
poblacin
de
referencia
Del
intervalo
para
la
pendiente
puede
concluirse
con
una
confianza
del 95% que
de confianza
efecto subyacente del
c1 estudio
asociado
a cualquier
SE (bpara
) el0,0035
yEn general,b1elintervalo
t531;0,975SE(b
1) = -0,0231 1,960,0035 = (-0,030; -0,016).
incremento
c en la variable
obtienepara
multiplicando
losincremento,
lmites del intervalo
se obtiene multiplicando
losexplicativa
lmites del se
intervalo
1 por dicho
EURAMIC
disminuye
entre HDL
0,016en
y 0,030
mmol/lde
porreferencia
cada incremento
de 1
el nivel
medio
de incremento,
colesterol
la poblacin
del estudio
para
1 por
dicho

-6,63)

2(-6,63)
<
0,001.
Notar
que este
resulta
en
un
valor
P
bilateral
2P(t
t531;0,975
SE(b1) = puede
-0,023531
1,960,0035
(-0,030;
-0,016).
b1 para
Del intervalo
la pendiente
concluirse
con =
una
confianza
del 95% que
2

t
SE(cb
)
=
c{b

t
SE(b
)}.
cb
n 2,1corporal.
/2
1
1
nel
1de confianza
0,016
2,1
/2cada incremento
kg/m
en el ndice
de1 masa
En
general,
intervalo
EURAMIC
disminuye
entre
y 0,030
mmol/l
por
depara
1 el
test arroja
mismo
valorHDL
P queenellacontraste
dede
regresin
deldel
ejemplo
anterior ya
el1.2
nivel
medioelde
colesterol
poblacin
referencia
estudio
As,
por
con
un primer
nivel de
confianza
delde95%,
los confianza
incrementos
unaque
desviacin
TENDENCIA
CENTRAL
intervalo
paraDE
la pendiente
puede
concluirse
con
una
delde
95%
antioxidantes en elDel
riesgo
deejemplo,
desarrollar
un
infarto
agudo
miocardio
envariable
2MEDIDAS
efecto
subyacente
c

asociado
a
cualquier
incremento
c
en
la
explicativa
kg/m
en
el
ndice
de
masa
corporal.
En
general,
el
intervalo
de
confianza
para
el media
1
2 un nivel de confianza del 95%, los incrementos de una
As,
por
ejemplo,
con
tpica
c = 3,50yakg/m
el ndice
dela
masa
con
una disminucin
mediante
el
significativa
que elencontraste
de
hiptesis
nulaseHasocian
0 : 1 = 0
2 corporal
2
EURAMIC
disminuye
entre
yentre
0,030
mmol/l
cada yincremento
de
1
que 2P(t
el-6,63)
= P( HDL
t0,016
6,63
)=
P(F
43,93).
531
1,531 por
531
poblacional
en
colesterol
de
3,500,016
=de
0,057
3,500,030
= 0,105
mmol/l.
el
nivel
medio
de
colesterol
en
la poblacin
de1,42,
referencia
delvalor
estudio
hombres adultos. Los
valores
obtenidos
fueronHDL
0,89,
0,79,
1,29,
0,84,
2 1,58,
Las
medidas
de
tendencia
central
informan
acerca
cul
es
el
ms
representativo
se
obtiene
multiplicando
los
lmites
del
intervalo
para

por
dicho
incremento,
efecto
subyacente
c

asociado
a
cualquier
incremento
c
explicativa
1 en la variable
desviacin
tpica
c
=
3,50
kg/m
en
el
ndice
de
masa
corporal
se
asocian
con
una
1
Por
supuesto, esta disminucin es estadsticamente significativa ya que el contraste de la
estadstico
kg/m2 en el ndice de masa corporal. En general, el intervalo de confianza para el
EURAMIC
disminuye
y 0,030
mmol/l
por
cada
de 1
hiptesis
nula
H0media
: 1 =variable
0entre
el
estadstico
1,06, 0,87, 1,96 y 1,53
mmol/l.
La
demediante
los0,016
niveles
deldecolesterol
HDL
en incremento
una determinada
o,en
dicho
forma
equivalente,
estos
estimadores
sedeobtiene
multiplicando
los
lmites
del
intervalo
para

por
dicho
incremento,
disminucin
media
poblacional
el
colesterol
HDL
de
3,500,016
= 0,057indican
1entre
)
=
c{b

t
SE(b
)}.
cb1 tn-2,110.3.4
Bandas
de
confianza
y
prediccin
para
la
recta
de
regresin
/2SE(cb
1
1
n-2,1
/2
1
0,incremento
023
efecto
c en la variable
explicativa
2 subyacente c1 asociado abcualquier
1
kg/m
ndice
masa
En
general,
confianza
el
= datos
=
=elintervalo
6,63 Lasdemedidas
estos 10 participantes
es en el de
alrededor
qu de
valor
setcorporal.
agrupan
los
observados.
de para
tendencia
SE (supuesto,
b1 ) 0,0035
y
3,500,030
=
0,105
mmol/l.
Por
esta
disminucin
es
estadsticamente
Adems
de ejemplo,
realizar inferencias
sobre
los1parmetros
0 ylos
1,incrementos
es a)}.
menudodeinteresante
tn-2,1SE(cb
) = c{bdel
tn-2,1cb1 un
/2de
1 95%,
As,
por
con
nivel
confianza
una
se obtiene
multiplicando
los lmites
del intervalo
para
/2c1SE(b
porla1dicho
incremento,
efecto
subyacente
c

asociado
a
cualquier
incremento
en
variable
explicativa
1
10
resulta
en
un
valor
P
bilateral
2P(t

6,63)

2F(6,63)
<
0,001.
Notar
que este
central
de
la
muestra
sirven
tanto
para
resumir
los
resultados
observados
como
paratest
531
1
0,89 + 1,58 + ... + 1,53
xcalcular
xelen
1,223
mmol/l.
= arroja
=un valor
30
2 =la
intervalos
de
confianza
para
propia
recta
de
regresin

x.
Ms

i
mismo
valor
P
que
el
contraste
de
regresin
del
ejemplo
anterior
ya
que

-6,63)

2(-6,63)
<
0,001.
Notar
que
este
resulta
P
bilateral
2P(t
0
1
531
desviacin
tpica ccon
=10
3,50
kg/mdeenconfianza
el ndicedel
de masa
corporal
se asocian
con una 2P(t531
As,
por ejemplo,
un2 los
nivel
95%,
los
incrementos
de una
10obtiene
i =1
2
se
multiplicando
lmites
del
intervalo
para

por
dicho
incremento,

t
SE(cb
)
=
c{b

t
SE(b
)}.
cb
1
1acerca
/2los
1
1 poblacionales
n-2,1-/2
1correspondientes. A
de
parmetros
realizar
6,63) =inferencias
P(t 531 6,63
)n-2,1= P(F
1,531 43,93).
2
concretamente,
dado
un
determinado
valor
x
de
la
variable
explicativa,
se
pretende
test
arroja eltpica
mismo
valor
queen
el
contraste
del ejemplo
anterior
ya
0 de
disminucin
media
HDL
entre
3,500,016
=con
0,057
desviacin
c =poblacional
3,50 P
kg/m
enel
elcolesterol
ndice
de regresin
masa de
corporal
se asocian
una
continuacin
se
describen
los
principales
estimadores
de
la
tendencia
central
SE(cb
= c{bdel
tn-2,1-de
cb1
As,
porlas
ejemplo,
con
untn-2,1confianza
95%,
los
incrementos
de una de una
/2de
1) para
1 recta
/2SE(b
1)}.
La media aritmtica
presenta
siguientes
propiedades:
10.3.4
Bandas
de
confianza
ynivel
prediccin
la
regresin
2el valor esperado + x de la variable
2
obtener
un
intervalo
de
confianza
para
1 es
03,500,016
2P(t531 media
=mmol/l.
P( t 531 Por
6,63
= P(F1,531
disminucin
43,93).
yque
3,500,030
=-6,63)
0,105poblacional
estaHDL
estadsticamente
disminucin
ensupuesto,
el) colesterol
de0 entre
= 0,057
2
variable.
Adems
de realizar
inferencias
sobre
los
masa
y

,
es
a
menudo
interesante
desviacin
tpica
csuma
= 3,50
kg/m
en parmetros
el andice
de
corporal
se
asocian
con unacalcular
Cambio de origen
(traslacin).
Si
se
una
constante
cada
uno
de
los
datos
0
1
As, porEl
ejemplo,
conpuntual
un niveldedeeste
confianza
del 95%,
losy incrementos
de yuna
respuesta.
estimador
valor
esperado
es
+
b
x
=
+ b1(xdado
=
b
0
1
0
0intervalos
de
confianza
para
la
propia
recta
de
regresin

x.
Ms
concretamente,
un
01
y 3,500,030 = 0,105 mmol/l. Por supuesto, esta disminucin
es estadsticamente
0
30
determinado
valor
x0aritmtica
dec la
variable
pretende
obtener
unasocian
intervalo
deuna
confianza
disminucin
media
en
elelpara
colesterol
HDL
de
entre
3,500,016
= 0,057
2es
1.2.1 de
Media
de una muestra,
la desviacin
media
latpica
muestra
resultante
a lase
inicial
ms la
=poblacional
3,50
kg/mexplicativa,
enigual
ndice
de
masa
se
con
10.3.4
Bandas
de
confianza
y prediccin
lamedia
recta
decorporal
regresin
parax el
valor
esperadoun0razonamiento
+ 1x0 de la anlogo
variable al
respuesta.
El estimador
puntual una
de este
) que,
siguiendo
del apartado
anterior, presenta
30 valor
esperado
es

=
b
+
b
x
=
+
b
(x

)
que,
siguiendo
un
razonamiento
anlogo
La
media
aritmtica,
denotada
por
x
,
se
define
como
la
suma
de
cada
uno
de
los
y
=
x
+
c
,
entonces
y
=
x
+
c
.
Un
cambio
de
origen
que
constante utilizada;
si
y
3,500,030
=
0,105
mmol/l.
Por
supuesto,
esta
disminucin
es
estadsticamente
0i
0 inferencias
1 poblacional
0
Adems
dei realizar
sobre1 los
parmetros
, esentre
a menudo
interesante
disminucin
media
en0 el
colesterolHDL
3,500,016
= 0,057 al del
0 y 1de
distribucin
aproximadamente
en muestras
suficientemente grandes,
apartado
anterior,
presenta unanormal
distribucin
aproximadamente
normal con
en media
muestras
valores
muestrales
dividida
por
el
nmero
de
observaciones
realizadas.
Si
denotamos
suficientemente
grandes,
con
media
se realiza concalcular
frecuencia
es el centrado
de
la para
variable,
que consiste
en
restar a es+ estadsticamente
30
intervalos
confianza
la supuesto,
propia
recta
dedisminucin
regresin
1x. Ms
y 3,500,030
=de0,105
mmol/l.
Por
esta
0
E( y 0 ) = E( y ) + E(b1 )(x0 x ) = 0 + 1 x + 1 (x0 x ) = 0 + 1 x0
por nsuelmedia.
tamaoLa
muestral
y por
xvariable
observado
para
i-simo, i = 1, ..., n,
i el valorcentrada
cada valor deconcretamente,
la muestra
media de
una
ser,
porel sujeto
dado un determinado
valor
x0 de la variable
explicativa,
se pretende 30
la media vendra dada por
tanto, igual a 0. y varianza
obtener un intervalo de confianza para el valor esperado 0 + 1x0 de la variable

Pastor-Barriuso R.

Cambio de escala (unidades). Si se multiplica cada uno


n los datos de una
2
x + x + ... + x
1 de
respuesta. El estimador puntual de este
valor
1x0x )= y + b1(x0 =
x
x i = 1 2 es2 y2 0 1= b0n(+x.0b
esperado

175

explicativa. Esta banda de1.2


confianza
est DE
delimitada
por las ramas
de una hiprbola y su
MEDIDAS
TENDENCIA
CENTRAL

176

medidas
2(x
E( y 0 )en
10 + (1xque
x +Las
- x )de
=de
su0tendencia
+media
1x0 central informan acerca de
= E(
1)(x0 - x )a=medida
0aleja
aumentando
xx0)1se
amplitud es mnima
x0 =y )x+, E(b
0
Las
tendencia+central informan
acerca de cul es el valor ms representa
Correlacin y regresin lineal simple
b0 +medidas
b1 x 0 t nde
.
2 ,1 / 2 s
2
n (n de
1) suna
determinada variable o, dicho de forma equiv
x
la intuicin
de que
el valor
de la variable
muestral x , lo que confirma
de una
determinada
variable
o, esperado
dicho de forma
equivalente, estos estimadores indica
y varianza
alrededor de qu valor se agrupan los datos observad
y varianza
La
bandapuede
de confianza
para
recta de
regresin no
es ms que la representacin
respuesta
estimarse
conlamayor
en valores
alrededor
de precisin
qu valoren
se valores
agrupancentrados
los datos que
observados.
Las medidas de tendencia
( x 0lamuestra
x ) 2 sirven tanto para resumir los re
2
2 1
central
de
.
x ) observado
var( y 0explicativa.
y ) +devar(b
= +de la variable
) =a var(
grfica dede
estos
intervalos
lo largo
todo1 )(x
el 0rango
2
extremos
la variable
(n 1) slos
central de la muestra sirven tanto para
x resultados observados como para
n resumir
realizar2 inferencias acerca de
los parmetros poblaci
explicativa.
Esta banda
confianzatest
delimitada
por
las ramas
de la
unaestimacin
hiprbola sy2,su
Por tanto, utilizando
la de
distribucin
resultante
de
sustituir

por
se
tiene
n2
realizar inferencias acerca de los parmetros
poblacionales correspondientes.
A
2
2
Ejemplo
10.10
Para
cada
valor
fijo
x
del
ndice
de
masa
corporal,
el
modelo
de
0resultante
quePor
el intervalo
de confianza
al 100(1 tn-2
)%
para el valor
esperado
describen
tanto, utilizando
la distribucin
de sustituir
por
estimacin
, se
0 +
1x
0 es
continuacin
sela
loss principales
estimadore
amplitud es mnima en x0 = x , aumentando a medida que x0 se aleja de su media
continuacin se describen los principales
estimadores de la tendencia central de una
(esperado
x 0el valor
x ) 2 del
regresin
lineal estima
un IC al 95%
para- el
valor
colesterol
1 para
tiene
que el intervalo
de confianza
al1.2

)%
esperado
0 +HDL
1x0 de
es
variable.
b0 + b1 x 0
t100(1
s
.
+
DE
TENDENCIA
CENTRAL
,1 / 2
n 2MEDIDAS
2
esperado
de
la
variable
muestral x , lo que confirma la intuicin de que el valor
n (n 1) s x
variable.
2
(centrados
26central
,0)que
x 0 que
Media
1 estendencia
aritmtica
La bandapuede
de confianza
recta
de
regresin
no
ms
la
representacin
grfica
respuesta
estimarse
con
mayor
en valores
valoresacerca
de
informan
dede
cul es el valor m
1,69para
023
1Las
,96
0,283
0,la
x 0 precisin
medidas
+1.2.1
. en
2
La intervalos
banda de aconfianza
la el
recta
de observado
regresin533
no
representacin
estos
lo largo1.2.1
depara
todo
rango
dees
la ms
variable
explicativa.
Esta banda de
Media
aritmtica
532
3,50la
que
media
aritmtica,
x ,, se define
com
confianzade
est
por las ramasdedeuna
unadeterminada
hiprbolaLayvariable
su amplitud
es mnima
enequivalente,
xpor
extremos
la delimitada
variable explicativa.
o, dicho
dedenotada
forma
estos estim
0 =
aumentando
medida
que
dedesutodo
media
muestral
intuicin
de uno de los
grfica de aestos
intervalos
aseloaleja
largo
el rango
observado
de confirma
la variable
x ,, lo
se que
define
como lalasuma
de31cada
Lax0media
aritmtica,
denotada
por
reaesperado
en gris oscuro
de la Figura
10.9 representa
lavalores
banda
demayor
confianza
al 95%
que elEl
valor
de la variable
respuesta
puede
estimarse
con
precisin
en
valores
muestrales
dividida
por
el nmero
observd
alrededor
de qu
valor se
agrupan
los
datos observados.
Las de
medidas
centrados
que en
valores
extremos
defijo
la est
variable
explicativa.
explicativa.
Esta
banda
de confianza
delimitada
las ramas
una
hiprbola
y su
Ejemplo
10.10
Paravalores
cada
valor
x0 del
ndice
depor
masa
corporal,
el modelo
derealizadas.
muestrales
dividida
por
el
nmero
dede
observaciones
Si denotamo
para toda la recta de regresin del colesterol HDL sobre
demuestral
masa y por xi el valor observado
por sirven
nelelndice
tamao
central de la muestra
tanto para
resumir los resultados observad
=
x
,
aumentando
a
medida
que
x
se
aleja
de
su
media
amplitud
es
mnima
en
x
regresin
lineal
estima
un
IC
al
95%
para
el
valor
esperado
del
colesterol
HDL
de
por
n
el
tamao
muestral
y
por
x
el
valor
observado
para
el sujeto
i-simo, i = 1, ...,
0corporal, el modelo
i
Ejemplo 10.10 Para0cada valor fijo x0 del ndice de masa
de
regresin
corporal, que se obtiene de calcular estos
intervaloslaenmedia
sucesivos
valores
dentro
vendra
dada
lineal estima un IC al 95%
elrealizar
valor esperado
del=acerca
colesterol
HDL
de por poblacionales correspond
inferencias
los
parmetros
1,69 para
- 0,02332
1,960,024
(0,90; de
1,00).
la vendra
intuicindada
de que
la
variable
muestral x , lo que confirma
la media
porel valor esperado de
2
del rango observado del ndice de masa corporal.
esta banda de
26los
,de
0)principales
1 Los( xlmites
estimadores
.
1,69 0,023 x 0 1continuacin
,96 0,283 se describen
+ 0
x + x2 +
1 nde la tendencia
2
=
x
xi = 1
respuesta puede estimarse con mayor precisin en533
valores
centrados
que
en
valores
532

3
,
50
n

x1 + x 2 + ... + x n
1
confianza tienen forma1,69
de hiprbola
y su
amplitud
n i =1
n
- 0,02332
1,960,024
=
(0,90;
1,00).
.
x =aumenta
x i =gradualmente
variable.
[Figura
10.9
aproximadamente
aqu]
El
rea
en
gris
oscuro
de
la
Figura
10.9
representa
la
banda
de
confianza
al
95%
para
toda
n
n
i =1
extremos de la variable explicativa.
la recta
dexgris
regresin
del
HDL
sobre
de masa
corporal,
se obtiene
El
rea en
delacolesterol
lamedia
Figurax 10.9
representa
la ndice
banda
de masa
confianza
alque
95%
aleja de
= 26,0
kg/mel2 ndice
del
corporal.
As,
conforme
0 se oscuro
La
media
es
la
medida
de
tendencia
1.2.1 Media
de calcular estos intervalos en sucesivos
valoresaritmtica
dentro del rango observado del ndice
de central ms u
La recta de regresin puede
utilizarse
no slode
para
estimarcentral
la media
poblacional
dedelams fcil
La
media
es
la
medida
tendencia
ms
utilizada
y
masa
corporal.
Los
de
esta
banda
deHDL
confianza
tienen
forma
hiprbola
y su
para
toda
la 10.10
recta
de
regresin
del
colesterol
sobre
el
ndice
de
masa
por
ejemplo,
el IC
allmites
95%
para
el
valor
del colesterol
HDL
entre
sujetos
[Figura
10.9
aproximadamente
aqu]
Ejemplo
Para
cada
valor
fijo
xmedio
de masa
corporal,
eldelos
modelo
decentro
0 del ndice interpretacin.
Corresponde
al
de gravedad
2
media aritmtica,
por x ,=se26,0
define
como
de cada
de la media
kg/m
della suma
amplitud aumenta gradualmente La
conforme
x0 se alejadenotada
de la variable
variable respuesta entre
los sujetos con
un determinado
valorde
x0 gravedad
2
interpretacin.
Corresponde
al
centro
de
los
datos
de
la
muestra.
Su
corporal,
que
se
obtiene
de
calcular
estos
intervalos
en
sucesivos
valores
dentro
con
unde
ndice
decorporal.
masa
corporal
25
kg/m
ndice
masa
As,
porde
el, IC
al 95%
para el valor
medio del
colesterol
regresin
lineal
estima
un IC
alejemplo,
95%
para
el valor
esperado
del
colesterol
HDL
de
principal
limitacin
es que
po
2el nmero
valores
muestrales
dividida
por
deest
observaciones
realizadas
La recta
de
regresin
utilizarse
slocorporal
para
estimar
media
de muy
la influenciada
, poblacional
HDL
entre
los
sujetospuede
con
ndice
de
masa
de 25laykg/m
sujeto
explicativa,
sino
tambin
paraun
predecir
lano
respuesta
individual
0 de un nuevo
principal
limitacin
es
que
est
muy
influenciada
por
los
valores
extremos
y,
en
este
del rango observado del ndice de masa corporal. Los lmites de esta banda de
1,69 0,02325 1,960,013 = (1,09;
1,14), no ser
2
un fiel
reflejo depara
la tendencia
cen
porun
n eldeterminado
tamao muestral
y0 por
el valor
observado
el sujeto i-s
( xpuede
26,la
0x)i variable
de
variable
respuesta
entre la
losestructura
sujetos con
valor
1caso,
0x
del
modelo
de
regresin
lineal,
el
valor
subyacente
dado su valor
x0. Segn
1
,
69
0
,
023
1
,
96
0
,
283

+
.
caso,
puede
no
ser
un
fiel
reflejo
de
la
tendencia
central
de
la
distribucin.
2
0
confianza
tienen ms
forma
de hiprbola
yaquellos
su amplitud
aumenta
gradualmente
es sensiblemente
preciso
que entre
con533
un
ndice
532de
,50 2 corporal de 32 kg/m ,
3masa
media
vendra
dada
por y0 de
es sensiblemente
ms preciso
quelaentre
aquellos
con
un ndice
de un
masa
corporal
nuevo
sujeto
explicativa,
sino tambin
para
predecir
respuesta
individual
0,02332
1,69
la1,960,024
(0,90;
1,00).
1.4 En
viene dado
poreste
y =y en +los sucesivos ejempl
de la variable respuesta
para
un determinado
sujeto =
con
x = xEjemplo
conforme x0 se aleja de la media x = 26,0 kg/m2 del ndice0 de masa corporal.0 As,0
1.4 En este
y en loslasucesivos
sobre
estimadores muestrales
2 gris oscuro Ejemplo
El valor
rea
de la Figura
representa
banda
deejemplos
confianza
al 95%
de su
32
kg/men
del 10.9
modelo
de regresin
lineal,
el valor
subyacente
dado
x,0. Segn la estructura
n
+
+ ...la+ x n HDL obten
x
1los poblacional
valores1 delx 2colesterol
La
regresin
puede
utilizarsedenonuevo
slo para
de
1xpor
+ ejemplo,
0, de
cuyo
estimador
insesgado
yaxmedia
que
y 0 =colesterol
bestimar
0recta
0 + butilizarn
1x0la
.
= entre
xlos
el IC al 95%
para el es
valor medio del
HDL

i = sujetos
utilizarn
los
valores
del
colesterol
HDL
obtenidos
en
los
10
primeros
sujetos
variable respuesta
entre
los
sujetos
con
un
determinado
valor
x
de
la
variable
explicativa,
sino
n
n
32
0
=
i
1
para todarespuesta
la recta de
regresin
del
colesterol
el ndice
depor
masa
dado
y0Study
= 0 +on Antioxidants, Myo
de la variable
para
un determinado
sujetoHDL
con aqu]
xsobre
= xestudio
0 viene European
[Figura
10.9
aproximadamente
tambin para predecir la respuesta individual y0 de
2 un nuevo sujeto dado su valor x0. Segn la
con un ndice de
masa
25 kg/m
E(y
- ycorporal
+de
E(0,)Study
- 0 - on
1xAntioxidants,
E(la0variable
) = 0.Myocardial
= 0lineal,
0 regresin
1x0el+valor
0 =de
European
Infarction
0 )estudio
estructuracorporal,
del modelo
de
subyacente
respuesta
para un and Cancer o
que
se obtiene
de calcular
estos
intervalos
enb1sucesivos
valores
dentro

x
+

,
cuyo
estimador
insesgado
es
de
nuevo
+
x
ya
que
y
=
b
La
media
es
la
medida
de
tendencia
central
ms
de ms
1
0
0
0
0
0
Breast
(EURAMIC),
unutilizada
estudio ymulticnt
, cuyo
estimador
insesgado
es
determinado sujeto con x = x0 viene dado por y0 = 0 + 1x0 + the
La recta de regresin puede utilizarse no slo para estimar la0 media poblacional de la
-the
0,02325
1,960,013
= (1,09;
1,14),multicntrico
Breast
(EURAMIC),
un
estudio
dede
casos y controles realiza
b0 + observado
b x ya1,69
quedel
de nuevodel
0 =rango
ndice
depor
masa
corporal.
Los
lmites
de
esta
banda
Asimismo,
como 1el0 valor estimado
es
independiente
yinterpretacin.
la recta
de
regresin
en
x
0
Corresponde
al
centro
de
gravedad
de losEuropeos
datos deelaI
0
entre 1991 y 1992 en ocho pases
E(ylos
+ un
+ E( 0 ) 0 valor
1 x0 x=0 E(
= 0.
y 0 ) = 0con
dela
variable respuesta entre
0 sujetos
1 x0determinado
0 ) variable
entre
1991 y 1992
en
ocho pases
Europeos
e Israel para evaluar el efecto de lo
confianza tienen
forma
de hiprbola
sulimitacin
amplitud
aumenta
gradualmente
es
sensiblemente
ms
preciso
queprincipal
entre yaquellos
con un
ndice
de
masainfluenciada
corporal
es
que
est
muy
,
se
sigue
que
de
la
nueva
observacin
y
0
Asimismo, como el valor estimado
0 por la recta de regresin en x0 es independiente por
de lalos valores extre
explicativa, sino tambin para predecir la respuesta individual
y
0 de un nuevo sujeto
nueva
observacin
, sealeja
sigue
2 y0el
Asimismo,
como
estimado
es independiente
y 0 xpor= la
recta
de 2regresin
endex0masa
deque
la media
26,0
kg/m
ndice
, x0 sevalor
de conforme
32 kg/m
caso, puede
no ser del
un fiel
reflejo
de
lacorporal.
tendenciaAs,
central de la distribuc
2
( x 0 el
xvalor
) subyacente
1lineal,
dado su valor x0. Segn la estructura del modelo de regresin
2
1 +colesterol
;
0) +
= var(
) = del
var(yel0 ICy al
+
32
0y ),95%
2 entre los sujetos
por ejemplo,
para
elvar(
valory 0medio
HDL

que
de la nueva
observacin
0 se sigue
n
(
n

1
)
s
x

Ejemplo
y en
lospor
sucesivos
sobre estimado
viene
dado
y0 = 0 ejemplos
+
de la variable respuesta para un determinado sujeto
con1.4
x =Enx0este
con un ndice de masa corporal de 25 kg/m2,

x 0 xde) 2regresin
1 la (recta
2
decir,
la
prediccin
de
una
nueva
observacin
a
partir
de

;
utilizarn
los
valores
del
HDL obtenidos en los 10 pri

var(y

)
+
var(
y
)
=
var(
y
)
=
1
+
+

1xes
+

,
cuyo
estimador
insesgado
es
de
nuevo
+
b
x
ya
quecolesterol
y
=
b
0
0
0
0
0
1 0
0
0 0
2
n (n 1) s x

Pastor-Barriuso R.
1,69 - 0,02325 1,960,013 = (1,09; 1,14),
estimada est sujeta a dos fuentes de error:estudio
la varianza
inherente
de on
cada
respuesta Myocardial Infarction
European
Study
Antioxidants,
E(y0 - y 0 ) = 0 + 1x0 + E(0) - 0 - 1x0 = E(0) = 0.
es
decir,
larespecto
prediccin
una
nueva
observacin
a partir
la ndice
recta
regresin
es sensiblemente
ms
preciso
que
entre
aquellos
con
un
de
masa
corporal
individual
a lade
recta
de
regresin
subyacente
eldeerror
en lade
estimacin
de
the
Breast y(EURAMIC),
un
estudio
multicntrico
de casos y co

explicativa, sino tambin para predecir la respuesta individual y0 de un nuevo sujeto


Regresin lineal simple

dado su valor x0. Segn la estructura del modelo de regresin lineal, el valor subyacente
de la variable respuesta para un determinado sujeto con x = x0 viene dado por y0 = 0 +
2,25

Colesterol HDL (mmol/l)

1x0 + 0, cuyo
estimador insesgado es de nuevo y 0 = b0 + b1x0 ya que
2
E(y0 - y 0 ) = 0 + 1x0 + E(0) - 0 - 1x0 = E(0) = 0.
1,5

Asimismo, como el valor estimado y 0 por la recta de regresin en x0 es independiente


de la nueva1observacin y0, se sigue que

0,5

1 ( x0 x ) 2
2

var(y0 - y 0 ) = var(0) + var( y 0 ) = 1 + +


n (n 1) s x2

0,25

es decir, la prediccin de una nueva observacin a partir de la recta de regresin


20

24

28

32

36

estimada est sujeta a dos fuentes de error: la varianza inherente de cada respuesta
Indice de masa corporal (kg/m)

individual respecto a la recta de regresin subyacente y el error en la estimacin deFigura 10.9

Figura 10.9 Bandas de confianza (rea en gris oscuro) y prediccin (rea en gris claro) al 95% para la recta
de regresin
del colesterol
el ndice
de masa
corporal
en el grupo
control
del estudio
EURAMIC.
0 se
distribuye
de forma
normal
(asuncin
dicha recta.
Adems,HDL
si elsobre
trmino
de error

y 0 tambin seguir
normal,estimada
de tal est
de normalidad),
la diferencia
y0 - observacin
es decir,
la prediccin
de una nueva
a partir una
de ladistribucin
recta de regresin
sujeta a dos fuentes de error: la varianza inherente de cada respuesta individual respecto a la
recta
de regresin
subyacente
y el error al
en100(1
la estimacin
de una
dicha
recta.observacin
Adems, si el trmino
nueva
forma
que el intervalo
de prediccin
- )% para
de error 0 se distribuye de forma normal (asuncin de normalidad), la diferencia y0 0 tambin
seguir
una distribucin
normal, de tal forma que el intervalo de prediccin al 100(1 )% para
individual
y0 es
una nueva observacin individual y0 es
2
1 ( x0 x )
b0 + b1 x 0 t n 2,1 / 2 s 1 + +
.
n (n 1) s x2

La banda de prediccin viene entonces determinada por estos intervalos de prediccin en los
33
distintos valores observados x0 de la variable explicativa. En general, la banda de prediccin
ser substancialmente ms amplia que la banda de confianza, particularmente cuando el tamao
muestral es grande, lo que refleja el hecho de que existe mucha ms incertidumbre en la
prediccin de la respuesta individual de un nico sujeto que en la estimacin del valor medio de
la variable respuesta para todos los sujetos con un mismo valor de la variable explicativa.
Cabe destacar, por ltimo, que los intervalos de confianza para el valor esperado de la
variable respuesta se basan nicamente en las asunciones de linealidad y homogeneidad de la
varianza, mientras que los intervalos de prediccin para una nueva observacin requieren
adems de la hiptesis de normalidad, siendo estos ltimos incorrectos si la distribucin
subyacente de la variable respuesta no es normal.
Ejemplo 10.11 A partir del modelo de regresin lineal del colesterol HDL sobre el
ndice de masa corporal se tiene que el intervalo de prediccin al 95% para el nivel de
colesterol HDL de un sujeto con un ndice de masa corporal x0 es
Pastor-Barriuso R.

177

Ejemplo 10.11 A partir del modelo de regresin lineal del colesterol HDL sobre el

ndice de masa corporal se tiene que el intervalo de prediccin al 95% para el

Correlacin y regresin lineal simple

nivel de colesterol HDL de un sujeto con un ndice de masa corporal x0 es

1,69 0,023 x 0 1,96 0,283 1 +

( x 26,0) 2
1
.
+ 0
533 532 3,50 2

El clculo de estos intervalos en distintos valores x0 del ndice de masa corporal da lugar
a laclculo
banda de prediccin
en grisenclaro
de la valores
Figura 10.9.
igual de
quemasa
la banda
de confianza,
El
estos intervalos
distintos
x0 delAlndice
corporal
la banda de prediccin est centrada alrededor de la recta de regresin estimada, pero su
amplitud
mayor alenincorporar
de cada
respuesta
da
lugar aeslanotablemente
banda de prediccin
gris claro la
devariabilidad
la Figura 10.9.
Al igual
que laindividual
respecto a su valor esperado. Por ejemplo, el intervalo de prediccin al 95% para el nivel
2
de centrada
ndice dealrededor
masa corporal
vienede
dado por
de colesterol
HDL delaun
sujeto
25 kg/mest
banda
de confianza,
banda
decon
prediccin
de la recta

1,69 0,02325 1,960,284 = (0,56; 1,67),


regresin estimada, pero su amplitud es notablemente mayor al incorporar la
que es mucho ms impreciso que el intervalo de confianza calculado en el ejemplo anterior
que
ms
que
el
intervalo
de los
confianza
el del ndice de
paraes
el mucho
valorde
medio
del
colesterol
HDL
enrespecto
todos
sujetos
con
dichoen
valor
variabilidad
cadaimpreciso
respuesta
individual
a su
valorcalculado
esperado.
Por
masa corporal (IC al 95% 1,09-1,14 mmol/l).
ejemplo anterior
parade
el prediccin
valor medioaldel
colesterol
HDLde
encolesterol
todos los HDL
sujetos
ejemplo,
el intervalo
95%
para el nivel
decon
un
10.3.5 Evaluacin de las
2 asunciones del modelo de regresin lineal simple
dicho valor
ndice
masade
corporal
(IC al 95%
1,091,14
dede
ndice
masa corporal
viene
dado pormmol/l).
sujeto
con 25del
kg/m
Los procedimientos de estimacin e inferencia derivados en los apartados anteriores se basan
en las asunciones de linealidad, homogeneidad de la varianza y normalidad. La violacin de
34
estas asunciones
puede
darasunciones
lugar a conclusiones
errneas
del modelo
lineal,
siendo as necesario
10.3.5
Evaluacin
de las
del modelo
de regresin
lineal
simple
evaluar su idoneidad en cada aplicacin prctica. Aunque existen diversos tests para contrastar
curvilneas y con similar dispersin a lo largo de toda la recta. Tal parece ser el caso del
estadsticamente
cada
de las hiptesis
delderivados
modelo lineal
referencias
Los
procedimientos
de una
estimacin
e inferencia
en los (vase
apartados
anterioresalsefinal del
tema), en este apartado se presentan algunas tcnicas diagnsticas basadas en el anlisis grfico
diagrama de dispersin entre el ndice de masa corporal y el colesterol HDL de la
de los en
residuos,
proponindose
asimismo
extensiones bsicas
del modelo
y transformaciones
de
basan
las asunciones
de linealidad,
homogeneidad
de la varianza
y normalidad.
La
los datos para acomodar posibles desviaciones de estas asunciones. En particular, se presta
Figura 10.7, donde no se aprecian desviaciones obvias de estas asunciones. En la Figura
especial atencin
a las hiptesis
dedar
linealidad
y homogeneidad
de la
violacin
de estas asunciones
puede
lugar a conclusiones
errneas
delvarianza,
modelo ya que las
principales inferencias relativas a la pendiente de la recta de regresin y al valor esperado de la
10.2(d), sin embargo, se muestra un claro ejemplo de violacin de la asuncin de
variable
respuesta
son aproximadamente
vlidas en
encada
muestras
moderadamente
grandes aunque
lineal,
siendo
as necesario
evaluar su idoneidad
aplicacin
prctica. Aunque
la distribucin
subyacente
de
la
variable
respuesta
no
sea
normal.
linealidad, ya que la relacin subyacente es visiblemente cuadrtica. No obstante, el
existen
diversos
para
contrastar
cada unade
delas
lasasunciones
hiptesis del
El grfico
mstests
simple
para
evaluar estadsticamente
el grado de cumplimiento
de la regresin
grfico
ms
parade
chequear
las entre
asunciones
de la regresin
lineal
es el diagrama
lineal
simple
esutilizado
el diagrama
dispersin
las variables
explicativa
y respuesta,
junto con
modelo
lineal
(vase estimada.
referenciasSialsefinal
del tema),
en este apartado
se presentan
algunas de la
la recta de
regresin
cumplen
las hiptesis
de linealidad
y homogeneidad
i frente
= ydispersin
a los
valores predichos
y i = b0 +alrededor
b1xi por de
de dispersin
de los
varianza,
los puntos
delresiduos
diagramaei de
han
de distribuirse
aleatoriamente
i- y
tcnicas
diagnsticas
basadas
en elde
anlisis
grfico
de los residuos,
proponindose
la recta de
regresin sin
evidencia
relaciones
curvilneas
y con similar
dispersin a lo largo
de la
toda
la de
recta.
Tal parece
el caso
del diagrama
de dispersin
entre elentre
ndice
yi masa
recta
regresin.
Este ser
grfico
es equivalente
al diagrama
de dispersin
xi ede
asimismo
dellamodelo
transformaciones
los datos
para
corporal yextensiones
el colesterolbsicas
HDL de
Figuray10.7,
donde no se de
aprecian
desviaciones
obvias de
estas
En lasimple,
Figurapero
10.2(d),
embargo,
un claro
ejemplo deaviolacin
enasunciones.
regresin lineal
tienesin
la ventaja
de se
sermuestra
directamente
generalizable
la
acomodar
posibles
estas
En particular,
se presta especial
de la asuncin
de desviaciones
linealidad, yadeque
la asunciones.
relacin subyacente
es visiblemente
cuadrtica. No
obstante,
el grfico
msuna
utilizado
chequear
asunciones
la regresin lineal es el
presencia
de ms de
variablepara
explicativa
en las
regresin
lineal de
mltiple.
atencin
lasdispersin
hiptesis de
de los
linealidad
de
la varianza,
ya que las = b + b x por
=
y

frente
a
los
valores
predichos
diagramaade
residuosy ehomogeneidad
i
i
i
i
0
1 i
la recta
de regresin.
Este
grfico grfico
es equivalente
al diagrama
de dispersin
entre
xi e yi en
Antes
de proceder
al anlisis
de los residuos,
es importante
describir
algunas
principales
inferencias
a la
recta de regresin
y al valor
regresin lineal
simple,relativas
pero tiene
la pendiente
ventaja de de
serladirectamente
generalizable
a la presencia de
msdedesus
unapropiedades.
variable explicativa
en regresin
lineal mltiple.
Bajo las hiptesis
de linealidad
y homogeneidad de la varianza, los
esperado de la variable respuesta son aproximadamente vlidas en muestras
Antes de proceder al anlisis grfico de los residuos, es importante describir algunas de
- y i las
tienen
un valor
residuos
ei = yiBajo
sus
propiedades.
hiptesis
de esperado
linealidadsubyacente
y homogeneidad
de la varianza,
moderadamente
grandes
aunque
la distribucin
de la variable
respuestalos
noresiduos
ei = yi i tienen un valor esperado

sea normal.

178

E(ei) = E( yi) E( y i ) = 0

El grfico ms simple para evaluar el grado de cumplimiento de las asunciones de la


y una varianza
Pastor-Barriuso R.

regresin lineal simple es el diagrama de dispersin entre las variables explicativa y


1 ( xi x ) 2
2

var(yide
) +regresin
var( y i ) - estimada.
2cov(yi, ySi
= cumplen
var(e
hiptesis
respuesta, junto
coni)la= recta
i ) se
2 de
1 las

residuos
realizar
del
modelo
los
residuos
estandarizados
realizarelresiduos
eldiagnstico
diagnstico
delcomparables
modelomediante
mediante
losniveles
sean
comparables
a distintos
deestandarizados
la
variable
explicativa,
es preferible
residuos
sean
a distintos
niveles
de
la variable
explicativa,
es preferible
valor se agrupan los datos observados. Las medidas
de
tendencia
E(ei) = E(yi) - E( y i ) = 0
Regresin lineal simple
residuos
estandarizados
realizar
el diagnstico
deldel
modelo
mediante
los los
residuos
estandarizados
realizar
elsean
diagnstico
modelo
mediante
e
e
residuos
comparables
a
distintos
niveles
de
la
variable
explicativa,
es
preferible
e
e
i i
i i
stra sirven tanto para resumir losrirresultados
observados
como
== para
=
,,
i=
22
y una varianza
11 ( x( ix ix x) ) s s 11hhi i
realizar el poblacionales
diagnstico
mediante
los residuos
s s 11del

modelo
e e
e eestandarizados
as acerca de losy parmetros
una varianza
n=rni =(n(n1)1s) xs2 ix2 i A = = i i , ,
ri correspondientes.
2
s 1s 1hi hi
1 1( x i (x ix) 2x )CENTRAL
1.2 MEDIDASsDE
TENDENCIA
1 ( xi x ) 2
2
1

s
1

describen los principales estimadores


de
la
tendencia
central
de
una

.
ei(n1)s12i,) sy2i ) = ei 1
var(ei) = var(yi) + var( ny i )n(n2cov(y
2
r
=
,
x
x =
i
n
(
n

1
)
s
xEl
que
dedesusu
tpica.
El
h
queseseobtienen
obtienendededividir
dividirlos
losresiduos
residuoseiepor
unaestimacin
estimacin
tpica.
i poruna
1desviacin
s desviacin
comparables
a distintos
niveles
de la variable expli
(residuos
x i informan
x ) 2 sean
1 central
i
Las medidas de tendencia
acerca
de
cul
es
el
valor
ms representativo
s 1 de homogeneidad
As, aun cuando se cumpla la asuncin
de
la
varianza,
los
residuos
ei
2
n por
(por
una
1)estimacin
nuna
conoce
como
eldividir
leverage
dederesiduos
una
observacin
ys yxes
una
medida
trmino
conoce
como
el
leverage
una
observacin
es
una
medida
trminohtendrn
hi se
que
se
obtienen
de
los
residuos
e
de
su
desviacin
tpica.
El
i se
que
se
obtienen
de
dividir
los
e
estimacin
de
su
desviacin
tpica.
El
i
i
diferente
varianza
alrededor
de
los
distintos
puntos
de
la
recta
de
regresin
estimada.
As, aun cuando se cumpla la asuncin derealizar
homogeneidad
varianza,
losmediante
residuos elos
del modelo
i residuos estanda
de una determinada variable o, dicho el
dediagnstico
forma equivalente,
estos
estimadores
indican
Ms concretamente, los residuos tendern a ser mayores en valores centrados que en valores
mtica
la
variable
yysu
x x x muy distante
estandarizada
dedela
entre
cada
xixde
dees
ladebido
variable
explicativa
su
media
estandarizada
ladistancia
entre
cada
valor
se
conoce
como
el los
leverage
observacin
y puntos
esyde
una
medida
trmino
ide
sevariable
conoce
como
elvalor
leverage
de
una
observacin
es
una
medida
trmino
hdistancia
ila
con
extremos
explicativa.
Esto
a explicativa
que
los
(xmedia
tendrn
diferente
alrededor
de
los
distintos
puntos
lasu
recta
regresin
que
sehide
obtienen
devarianza
dividir
residuos
euna
una
de
desviacin
i, yi)de
i tpica. El
i por
alrededor
de qu
valor
se agrupan
losestimacin
datos observados.
Las medidas
ede tendencia ei
mucha
influencia
encada
la estimacin
de x ,tienen
ica, denotada por
se define
como
la suma de
uno de losde la pendiente, de tal
ri =forma que lai recta de =
,
que
en
el
apartado
siguiente.
No
obstante,
si
el
tamao
muestral
es
grande
y
2
quesesetratar
tratar
en
el
apartado
siguiente.
No
obstante,
si
el
tamao
muestral
es
grande
y
de
la
variable
explicativa
y
su
media
x
estandarizada
de
la
distancia
entre
cada
valor
x
residuos
sean
comparables
a
distintos
niveles
de
la
variable
explicativa,
es
preferible
de
la
variable
explicativa
y
su
media
x
estandarizada
de
la
distancia
entre
cada
valor
x
i
regresin
resultante
tender
a
aproximarse
a
estos
puntos
que
presentarn
entonces
pequeos
i
1

s
h
(

)
x
x
estimada.hi Ms
concretamente,
los residuos
tendern
a ser mayores
valores 1centrados
secentral
conoce
el leverage
de
una
observacin
y esresultados
unaen
medida
trmino
i
decomo
laobjeto
muestra
sirven
tanto
para
resumir
los
para
s observados
1 niveles
i como
Por
ello, y con
de que
residuos
sean
comparables
a distintos
de
la
2
es dividida por residuos
el nmeroei.de
observaciones
realizadas.
Silosdenotamos
n (n 1) s x
no
extremos
de
la
variable
explicativa
(observaciones
con
alto
nohay
hayvalores
valores
muy
extremos
de
la
variable
explicativa
(observaciones
con
alto
querealizar
semuy
tratar
en el
apartado
siguiente.
Noexplicativa.
obstante,
sila
elsivariable
tamao
muestral
eslos
grande
residuos
estandarizados
el
diagnstico
del
modelo
mediante
los
que
se
tratar
en
el
apartado
No
eldel
tamao
muestral
essu
grande
variable
explicativa,
es
preferible
realizar
el obstante,
diagnstico
modelo
mediante
losyresiduos
que
en
valores
extremos
de
lasiguiente.
variable
Esto
es
debido
a que
puntos
(xyix,
de
explicativa
y
media
estandarizada
de
la
distancia
entre
cada
valor
x
i
realizar
inferencias
acerca
de
los
parmetros
poblacionales
correspondientes.
A
muestral y por xestandarizados
i el valor observado para el sujeto i-simo, i = 1, ..., n,
se
comportan
anloga.
leverage),
residuos
emuy
yrirextremos
comportan
deforma
forma
anloga.
leverage),
ambos
residuos
iey
iextremos
i se
noambos
hay
valores
muy
la
explicativa
con
alto
hay
devariable
lade
variable
explicativa
con
alto
se
obtienen
deestimacin
dividir
los
ei por
de su
xvalores
distante
de
xdesiguiente.
tienen
mucha
influencia
enel(observaciones
la
deresiduos
laespendiente,
yno
que
se
tratar
el
apartado
No
obstante,
si(observaciones
muestral
grande
y unadeestimacin
i) con
i muyen
ei que
etamao
i
continuacin
se
describen
los
principales
estimadores
de la tendencia
central
una
=
=
,
r
i
dada por
2
a alos
En
casos
el
grfico
de
estandarizados
r1anloga.
sanloga.
frente
hi como
frente
los
valores
Endeterminados
determinados
casos
el
grfico
de
estandarizados
(trmino
xforma
)tender
x i de
1 resultante
y
riregresin
comportan
leverage),
ambos
residuos
e
yse
rresiduos
se
comportan
de
leverage),
ambos
residuos
elos
i
ilos
i residuos
elvalores
de una observacin y es u
hforma
de tal
que
la
recta
de
airiaproximarse
aleverage
estos
i se conoce
no
hayforma
valores
muy
extremos
de
la
variable
explicativa
(observaciones
con
altopuntos
s 1
variable.
2
n (n 1) s x
n
+ ...
+casos
x1 + xapreciar
xclaramente
1yEn
no
permite
las
posibles
dede
las
predichos
2apreciar
nclaramente

y
no
permite
las
posibles
desviaciones
las
asunciones
predichos
a los
valores
determinados
casos
el
grfico
de
los
residuos
estandarizados
rasunciones
alos
los
valores
En
determinados
el
grfico
de
los
residuos
estandarizados
ri frente
i
i frente
i
estandarizada
de
distancia
entre
cada
valor
xi de la variable exp
. pequeos
= ambosentonces
x=
Por
ello,
y la
con
objeto
de
que
quex ipresentarn
residuos
edesviaciones
forma
anloga.
leverage),
residuos
ei y ri se comportan
i.de
n
n
=
i
1
que se obtienen 1.2.1
de dividir
losaritmtica
residuos ei por una estimacin de su desviacin tpica. El trmino hi
Media
que
se
obtienen
de
dividir
residuos
por
una
estimacin
de su desviacin
tpica.
Elentre si el tamao

y
no
permite
apreciar
claramente
las
posibles
desviaciones
de
las
asunciones
predichos
iobtener
y
no
permite
apreciar
claramente
las
posibles
de
asunciones
predichos
se
conoce
como
el
leverage
de
una
observacin
yresiduos
es
medida
delas
laa distancia
dedelinealidad
yyEn
homogeneidad
de
la
varianza.
Para
una
representacin
ms
clara
linealidad
homogeneidad
de
la
varianza.
Para
una
representacin
clara
i
que
se
tratar
en desviaciones
elestandarizada
apartado
siguiente.
No
obstante,
i
los
valores
determinados
casos los
el
grfico
deeobtener
los
estandarizados
rms
i frente
36
de
la
variable
explicativa
y
su
media
que
se
tratar
en
el
apartado
siguiente.
cada
valor
x
La
media
aritmtica,
denotada
por
x
,
se
define
como
la
suma
de
cada
uno
deNo
los
i
a medida de tendencia central ms utilizada y de ms fcil
se
conoce
como
el
leverage
de
una
observacin
y
es
una
medida
trmino
h
i
en
K
grupos
de
tamao
n
enentales
es
aconsejable
dividir
los
n
residuos
r
en
K
grupos
de
tamao
n
talescircunstancias,
circunstancias,
es
aconsejable
dividir
los
n
residuos
r
i
k
obstante,
si elyy ihomogeneidad
tamao
muestral
es varianza.
grande
yPara
no
hay
valores
muy
extremos
de
la clara
variable
no
hay
valores
muy
extremos
de las
lams
explicativa (observac
iobtener
kvariable
de predichos
linealidad
de la
obtener
una
representacin
clara
de linealidad
ynohomogeneidad
de
la
varianza.
Para
una
representacin
ms
permite
apreciar
claramente
las
posibles
desviaciones
de
asunciones
valores
muestrales
dividida
por
el
nmero
de
observaciones
realizadas.
Si
denotamos
y
r
se
comportan
de
forma
explicativa
(observaciones
con
alto
leverage),
ambos
residuos
e
i
i
orresponde al centro de gravedad de los datos de la muestra. Su
de
la
variable
explicativa
y
su
media
x
estandarizada
de
la
distancia
entre
cada
valor
x
i

y
(por
ejemplo,
deciles)
y
calcular
la
media
ordenados
por
valores
crecientes
de

y
(por
ejemplo,
deciles)
y
calcular
la
media
ordenados
por
valores
crecientes
de
leverage),
ambosri residuos
ei y rde
anloga.
en
grupos
tamao
en de
tales
circunstancias,
es aconsejable
losPara
n residuos
en
K grupos
decomportan
tamao
en linealidad
tales
circunstancias,
es iaconsejable
dividir
los
nobtener
residuos
ri K
i se
k nkde forma anloga.
i
y homogeneidad
de la dividir
varianza.
una
representacin
ms nclara
por
n
el
tamao
muestral
y
por
x
el
valor
observado
para
el
sujeto
i-simo,
i = 1, ..., n,
i
n es que est muy influenciada por los valores extremos y, en este
frente
a
los
valores
En
determinados
casos
el
grfico
de
los
residuos
estandarizados
r
que
se
tratar
en
el
apartado
siguiente.
No
obstante,
si
el
tamao
muestral
es
grande
y
i
En
determinados
casos
el la
grfico
de
los residuos
y kin (por
ejemplo,
yrcalcular
media
ordenados
valores
crecientes
de de
y idividir
(por
ejemplo,
deciles)
y calcular
la media
ordenados
por
valores
crecientes
tamao
nk de estandarizado
en
tales por
circunstancias,
es aconsejable
n deciles)
residuos
i en K grupos
k
apreciar
claramente
laslos
posibles
desviaciones
de lasdeasunciones
predichos
11 npor
media
vendra
dada
i nolapermite
er un fiel reflejo de la tendencia central de lardistribucin.
=
riri

k =
linealidad
y homogeneidad
dekrla
varianza.
Para
obtenery una
representacin
ms
tales
no hay valores
muy extremos
de
variable
explicativa
(observaciones
con
altoclara en las
nnk la
apreciar
claramente
posibles desviac
predichos
i =i1=1
k
i no permite
y de
calcular
la nmedia
ordenados por
crecientes
nkejemplo,
nk r en deciles)
K
grupos
tamao
ordenados
por
circunstancias,
es valores
aconsejable
dividirdelosy ni (por
residuos
1 1 n i
k
+ x 2 + ... + x n
1
rcomportan
rde
rk =
1anloga.
k =
i rforma
i
leverage),
ambos
ei y ri sedeciles)
(por ejemplo,
calcular
laxmedia
valores
crecientes
deresiduos
i sobre
xse
4 En este y en los
sucesivos
ejemplos
estimadores
muestrales,
n xkdeny=i =klinealidad
i = y homogeneidad .de la varianza. Para obtener una re
1 i =
1
yylalavarianza
n i =1
n
varianza
1 nk
En determinados
casos
el grfico
derklos
residuos
estandarizados ri frente a los valores
=sujetos
rdel

i
os valores del colesterol
HDL obtenidos
en los
10 primeros
enn ktales
circunstancias,
es aconsejable dividir los n residuos ri en
i =1
y layvarianza
la varianza La media es la medida
nknk
11
de tendencia central ms utilizada y de ms fcil
22
sInfarction
rir2i 2 Cancer
no permite apreciar
claramente
las posibles
desviaciones de las asunciones
predichos

ks k==

y laAntioxidants,
varianza y i Myocardial
uropean Study on
and
of por valores
ordenados
crecientes de y i (por ejemplo, deciles) y c
nnk k i =i1=1
nk nk
y la varianzainterpretacin. Corresponde
al
centro
de
gravedad
de los datos de la muestra. Su
1
1
2
2
2
=
rPara
s k2 =
linealidad
y homogeneidad
las kvarianza.
i ri obtener una representacin ms clara

(EURAMIC), un de
estudio
multicntrico
de casosde
y controles
realizado
n k ni =k1 i =1
nk
dedelos
grupos.
dede
curvatura
enenelelpor
grfico
dedelos
losresiduos
residuosenencada
cadauno
unodedelos
los
grupos.La
La
presencia
grfico
los extremos
1 y,
principal
limitacin
espresencia
que est muy
influenciada
los valores
en este
nk curvatura
1
r
=
ri
2
2 residuos r en K grupos de tamao

k
n
en tales
circunstancias,
es
dividir
los
n
y 1992 en ochodepases
Europeos
e Israel
evaluar
elsefecto
de
los
i en el grfico de los
k
los
residuos
en cada
unopara
deaconsejable
los
grupos.
La
presencia
de
curvatura
residuos
=
r
n k i =1

k
i
ipresencia
k de
frente
los
valores
predichos
en
distintos
grupos
indicar
de
los
residuos
enacada
unouno
deser
los
grupos.
La nLa
presencia
de
en
el
grfico
de los
caso,
puede
no
un
fiel
reflejo
tendencia
central
de
de los
en
cada
de
los
grupos.
dedistintos
curvatura
enla
eldistribucin.
grfico
defalta
los de
rkrresiduos
los
valores
predichos
medios
y=1kla
en
los
distintos
grupos
residuos
loscurvatura
grupos
residuosmedios
medios
k frente a los valores predichos medios y
k

y
(por
ejemplo,
deciles)
y
calcular
la
media
ordenados
por
valores
crecientes
de
i
linealidad en la relacin, mientras que la existencia de tendencia
en el grfico de las desviaciones
5
y la varianza
medios
de
cada
grupo
aportar
evidencia
tpicas
residuales
s

r
frente
a
los
valores
predichos
medios
y
en
los
distintos
grupos
residuos
medios
r
frente
a
los
valores
predichos
medios
y
en los
distintos
grupos
residuos
medios
indicar
falta
de
linealidad
en
la
relacin,
mientras
que
la
existencia
de
tendencia
enen
indicar falta
de linealidad
la relacin,
mientras
que
existenciade
el
de los
residuos kkenkcada
uno de los
grupos.
Lalapresencia
curvatura
en
elel
grfico
de los
k de
k tendencia
1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
de heterogeneidad enEjemplo
la varianza.
nk
1
rkmientras
= mientras
rimedios
indicar
falta
de linealidad
en
la
relacin,
que
la existencia
de tendencia
en

indicar
falta
de linealidad
en
la
relacin,
que
la existencia
de
tendencia
en 1el nk sujetos
rutilizarn
frente
a
los
valores
predichos
yobtenidos
grupos
residuos
medios
2 el
k
k en los distintos
los valores delncolesterol
HDL
en
los
10
primeros
s
=
37
37
i
=
1
k
ri2 del
k
Ejemplo 10.12 En la Figura 10.10(a)
se representa el grfico de los
residuos
n k i =1
aen
loslavalores
predichos
i que
de lalaregresin
lineal
del
colesterol
HDL
estandarizados
ri frente European
indicar
falta de linealidad
relacin,
mientras
existencia
de tendencia
en37
el37
estudio
Study
on Antioxidants,
Myocardial
Infarction
and
Cancer of
el ndice de masa corporal. Este grfico, al igual que el diagrama de dispersin entre
y lasobre
varianza
de los
residuos
en cada10.7,
uno parece
de los grupos.
La presencia
de curvat
el ndice de masa
el colesterol
HDL
de la multicntrico
Figura
compatible
con
thecorporal
Breast y(EURAMIC),
un
estudio
de casos
y controles
realizado
las asunciones de linealidad y homogeneidad
de la varianza. Para realizar una evaluacin
37
1 nklas2medios
2 residuos

y
desviaciones
tpicas
s
de
losmedios
ms detallada, en
la
Tabla
10.4
se
presentan
medias
r
frente
a
los
valores
predichos
k e Israel para evaluar elk efecto
s k ocho
= pases
entre 1991 y 1992 en
de los y k en l
ri Europeos
n k i =1

Pastor-Barriuso
R. 179
indicar falta de linealidad en la relacin,
mientras
que la existen
5
de los residuos en cada uno de los grupos. La presencia de curvatura en el grfico de los

modelos pueden considerarse como casos particulares


de la regresin lineal
nk nk
2 2 11
2 2
s ks k= = ri ri
kn ki =1i =1
mltiple
cuyas
variables
explicativas
sonndistintas
potencias de una misma
Correlacin y regresin lineal simple
variable
bsica.
losresiduos
residuos
cadauno
unodedelos
losgrupos.
grupos.LaLapresencia
presenciadedecurvatura
curvaturaenenelelgrfico
grficodedelos
los
dede
los
enencada
residuos estandarizados por deciles de los valores predichos. La Figura 10.10(b) de los
frenteaaalos
losvalores
valorespredichos
predichosmedios
mediosy kyde
en
losdistintos
distintos
grupos
residuos
medios
los
grupos
residuos
medios
frente
los
valores
predichos
medios
cada
decil
muestra
indicios
residuos
mediosrkrkfrente
ken
1.2 MEDIDAS DEde
TENDENCIA
CENTRAL
antioxidantes
en
el
riesgo
de
desarrollar
un
primer
infarto
agudo
miocardio en
una posible relacin
cuadrtica
el ndice de masa
[Figura
10.10 entre
aproximadamente
aqu] corporal y el colesteroldeHDL,
ya quefalta
los
residuos
del modelo
lineal
tienden
a serque
positivos
para valores
predichos
indicar
falta
linealidad
relacin,
mientras
que
existencia
tendencia
el
indicar
dedelinealidad
enenlalarelacin,
mientras
lalaexistencia
dedetendencia
enenelaltos
hombres
adultos.
Los
valores
obtenidos
fueron
0,89,
1,58,
0,79,
1,29,
1,42, 0,84,
y bajos central
del colesterol
HDL
y negativos
predichos
intermedios. Por otra
parte,
Las medidas de tendencia
informan
acerca
de cul para
es elvalores
valor ms
representativo
[Tabla
10.4 aproximadamente
en la Figura 10.10(c) no
se aprecian
desviaciones deaqu]
la asuncin de homogeneidad de la
1,06,
0,87,
1,96
y
1,53
mmol/l.
La
media
lossimilares
niveles del
HDL en
3737
son
en colesterol
los distintos
dado
quedelas
desviaciones
tpicas
sk de
de una determinadavarianza,
variable o,
dicho
forma
equivalente,
estosresiduales
estimadores
indican
deciles de los valores predichos.
estos
10 observados.
participantesLas
es
alrededor de qu valor
se agrupanms
los
datos
de tendencia
La
alternativa
acomodar medidas
una
relacin
cuadrtica
entre el ndice de masa
Ejemplo
10.13 Lossimple
nivelespara
de -tocoferol
y -caroteno
en tejido adiposo
corporal y el colesterol HDL es extender el modelo lineal a un modelo polinomial de segundo
central de la muestra
sirven
tanto
resumirx2los
resultados
+x21adems
1 10 elobservados
0,89 +cuadrtico
1,como
58 + ...para
,53
incluye
trmino
del trmino lineal
orden
E(Y|x)
= para
0 + 1x + asimtricas
2 , que
presentan
distribuciones
x = enlos
x i 700
1,223 mmol/l.
= controles del estudio=EURAMIC,
x del ndice de masa corporal. La relacin
10 i =1 resultante entre
10 ambas variables ya no ser una
realizar inferenciaslnea
acercarecta
de los
parmetros
poblacionales
correspondientes.
A
sino
una
parbola,
cuya
curvatura
vendr
determinada
porLaelmedia
coeficiente
2
con un marcado sesgo positivo en el caso del -caroteno (Figura 4.3).
y
asociado
al trmino
El ajusteesdepreferible
los modelos polinomiales se tratar en el Tema
residuos sean comparables
a distintos
niveles cuadrtico.
de la variable explicativa,
continuacin se describen
losestos
principales
estimadores
de la tendencia
centralparticulares
de una de la regresin lineal
11 ya que
modelos
pueden considerarse
como
casos
La
media
aritmtica
presenta
las
siguientes
y sx = propiedades:
87,6 g/g y del la del
desviacin
tpicalosdel
-tocoferol
son x = 146,1
residuos
estandarizados
realizar el diagnstico
modelo mediante
mltiple cuyas variables explicativas son distintas potencias de una misma variable bsica.
variable.
Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos
ei
ei g/g, y el coeficiente de correlacin de Pearson
y = 0,37
ys =
caroteno
= 0,40
r
=
i
Ejemplo 10.13 Los 2yniveles
de, a-tocoferol y b-caroteno en tejido adiposo presentan
1
hi
s
1 ( xi x )
s 1 asimtricas
1.2.1 Media aritmtica
de una muestra,
media
de la muestra
resultante
es igual
a la
inicial ms la
distribuciones
en losla700
controles
del estudio
EURAMIC,
con
unmedia
marcado
n (n 1) s x2
entre
ambas
variables
es
r
=
0,45.
A
partir
de
estos
datos
se
estima
que
la
recta
de
sesgo positivo en el caso del b-caroteno (Figura 4.3). La media y la desviacin tpica del
La media aritmtica,
denotada por
,=se
define
lasimg/g
suma
uno de los
yi = yxde
+cada
cb-caroteno
, entonces
y == 0,37
x + yc.syUn
cambio
deyorigen
que
146,1
yutilizada;
scomo
87,6
= 0,40
mg/g,
el
a-tocoferol
son xconstante
idel
x=
que se obtienen de dividir los residuos ei por una estimacin
de su desviacin tpica. El
regresin
del
-caroteno
sobre
el
-tocoferol
es
coeficiente de correlacin de Pearson entre ambas variables es r = 0,45. A partir de estos
como el
unarealiza
observacin
es una medidadel
trmino
hi se conocedividida
datos
seleverage
estima
que
la
recta
deyfrecuencia
regresin
b-caroteno
sobre
el a-tocoferol
es
valores
muestrales
por el de
nmero
de con
observaciones
realizadas.
Si denotamos
se
es el
centrado
de la variable,
que consiste
en restar a
explicativa
= 0,072y +su 0,0021x,
media x
estandarizada de la distancia entre cada valor xi de la variabley
por n el tamao muestral y por xi el cada
valorvalor
observado
para el sujeto
i-simo,
i = 1,de
...,una
n, variable centrada ser, por
de
la
muestra
su
media.
La media
con una desviacin tpica residual de los niveles
de b-caroteno
alrededor
de dicha recta de
que se tratar en el apartado siguiente. No obstante, si el tamao muestral es grande y
s = 0,36 mg/g. El error estndar de la constante es SE(b0) = 0,026 y de la pendiente SE(b1) =
conpor
una desviacin
tpica
residual
los niveles de -caroteno alrededor de dicha
la media
vendra dada
tanto,
igual
a 0. de de
no hay valores muy0,00015.
extremos deAs,
la variable
explicativa
(observaciones
con
altodesviacin tpica (87,6 mg/g) en el a-tocoferol
se tiene
que
incrementos
una
se asocian
con un aumento
deanloga.
87,60,0021 = 0,18 mg/g en el nivel medio de b-caroteno, con
de forma
leverage), ambos residuos
i y rsi se
0,026
de datos
la
recta ede
= comportan
0,36Cambio
g/g.
El
es SE(b0) = uno
escala
Si
se multiplica
deylos
de una
+entre
...(unidades).
+ x n de laconstante
x1deerror
x 2 +estndar
1,96
0,00015) =cada
(0,15; 0,21).
un IC al 95% comprendido
87,6(0,0021
1 n
.
=
=
x
x
=1residuos
i
En determinados casos el grfico denlos
estandarizados
i frente a los valores
n sertiene
= 0,00015.
As,
de una desviacin
pendiente SE(b1i)muestra
por una
constante,que
la incrementos
media de la 0,5
muestra
resultante es igual a la media
4
claramente las posibles desviaciones de las asunciones
predichos y i no permite apreciar

tpica (87,6
g/g)
encentral
el por
-tocoferol
se asocian
consiun
de 87,60,0021
yi aumento
=r cxi, 0entonces
y = c x .=
inicial
la
constante
utilizada;
Lademedia
esyla
medida
dedetendencia
ms
y de
linealidad
homogeneidad
la varianza. Para
obtener
unautilizada
representacin
msms
clarafcil k
2

ende
K grupos
decon
tamao
nkIC
en tales circunstancias,
es g/g
aconsejable
los
ngravedad
residuos
0,18
el
nivel
deri-caroteno,
al Si
95%
comprendido
interpretacin.
Corresponde
alencentro
demedio
losorigen
datos
de
la
muestra.
dividir
Cambio
simultneo
de
yun
escala.
se Su
multiplica
cadaentre
uno de los datos de
-0,5
0,9

ordenados por valoresr crecientes de y i (por ejemplo, deciles) y calcular la media

1,1

1,2

principal limitacin87,6(0,0021
esi que est muy
influenciada
losconstante
valores extremos
y, en este
una
muestra por
una
y al resultado
se le suma
1,960,00015)
=por
(0,15;
0,21).
(b)otra constante, la media
0

1,5

nk

rde
ri
muestra
caso, puede no ser un
fiel
reflejo
la
tendencia
central
de dispersin
la
k =de
la
resultante
esdistribucin.
igual a la
media
primera constante, ms la
Una
simple
inspeccin
del diagrama
de
entre
los inicial
nivelespor
de la
-tocoferol
n
k i =1

sk

-2

y =de
c1la
x hiptesis
+ c2 .
si yi = c1xuna
i + cclara
2, entonces
y -caroteno de segunda
la Figuraconstante;
10.11(a) evidencia
violacin
de
y la varianza
Ejemplo 1.4 En este
y
en
los
sucesivos
ejemplos
sobre
estimadores
muestrales,
se
-3
0,5

n
0,8 2 de1la
1
1,1 hay 1,2
1,3
0,9 los puntos
1
1,1
1,2
homogeneidad
varianza,
ya que
mayor variabilidad
de
s k = 0,9
ri 2

utilizarn los valores del colesterol


en los 10los
primeros
del
Ejemplo
1.5obtenidos
Para
transformar
valores sujetos
del colesterol
HDL de mmol/l a mg/dl se
n k i =1 HDL
yk
y i
39
(a)
(c)
European
on Antioxidants,
Infarction
Cancer
multiplica
el factor
conversin
38,8.
As, of
utilizando
la propiedad del
deestudio
los residuos
en cada uno Study
de los grupos.
La presencia por
de Myocardial
curvatura
en elde
grfico
de los and
k

Figura 10.10 Grfico de los residuos estandarizados ri frente a los valores predichos i (a), as como de las me-

k en
frente
a los valores
ylos
los
grupos
residuos
medios
dias r(EURAMIC),
y desviaciones
tpicas
smedios
residuos
por deciles
de
valores
the Breast
unpredichos
estudio
multicntrico
deestandarizados
casos
controles
realizado
Figura
10.10 de la
k (b)
k (c)
cambio
dede
escala,
ladistintos
media
del ycolesterol
HDL
enlos
mg/dl
se predichos
calculara

regresin lineal del colesterol HDL sobre el ndice de masa corporal en el grupo control del estudio EURAMIC.

indicar falta de linealidad en la relacin, mientras que la existencia de tendencia en el

entre 1991 y 1992 en ocho pases


Europeosaepartir
Israelde
para
evaluarenelmmol/l
efecto de
los 1,22338,8 = 47,45 mg/dl.
directamente
su media
como
180

Pastor-Barriuso R.

37

1 k1 2nk 2
1,2 1,2 1,3 que
0,9 0,9 1en el
=s1k2 =
1 r1,1
1,3 se tratar
1 1,1apartado
1,11,2 1,2 siguiente. No obstante, si
i r1,1
i
n
n
n
i
=
1
y k y k 1 k1 nk
1 nk1 nk k y i k yi =i1
rk = rk = ri ri
rk = rk = ri ri
no hay valores muy
de la variable explicativ
nRegresin
(c) (c)extremos
n k i =n1k i =1 (a) (a)
k i =n1 k i =1lineal simple
de los
residuos
en
cada
uno
de
los
grupos.
La
presencia
de
curvatura
en
el
grfico
de
los
de los residuos en cada uno de los grupos. La presencia de curvatura en el grfico de los
0,8 0,8 0,9 0,9
s k2

leverage), ambos
Figura 10.10 Grfico de los residuos estandarizados
rvarianza
i residuos
(a), Figura
as como
de
i
i
i ylasri
10.10e10.10
i frente a los valores predichos
y la yvarianza
Figura
laen
y la yvarianza
la varianza
medias
desviaciones
sk (c)
los
residuos
por grupos
deciles
de losdevalores
predichos
rk (b)
frente
ay los
predichos
medios
y kestandarizados
los
residuos
medios
medias
desviaciones
tpicas
sde
residuos
por grupos
deciles
los valores
predichos
rky (b)
frente
avalores
los tpicas
valores
predichos
medios
y kestandarizados
endistintos
los distintos
residuos
medios
k (c) de los
Figura 10.10 Grfico de los residuos estandarizados r frente a los valores predichos (a), as como de las

se comportan de form

deTabla
lade
regresin
lineallineal
del colesterol
HDLHDL
sobresobre
el ndice
de masa
corporal
en elen
grupo
control
del estudio
la regresin
del colesterol
el ndice
de los
masa
corporal
el grupo
control
del estudio
10.4
Media
y desviacin
tpica
de
residuos
estandarizados
r
EURAMIC.
EURAMIC.
En determinados casosnk elnkigrfico
nk
n

de los residuos es
k
1 1 2 2
1relacin,
indicar
faltapor
de linealidad
en
que que
la existencia
de tendencia
en elen el
1relacin,
la regresin
lineal
dels k2 colesterol
deciles
de
los
valores
lai de
indicar
falta
de linealidad
en
mientras
existencia
de tendencia
2
2 la
2 mientras
2 la
2 predichos
=
r
s
=
r
s
=
r
deilosi
s k y=
ri
Tabla
10.410.4
Media
desviacin
tpica
de los
estandarizados
ri por
k
i desviacin
Tabla
Media
tpica
de residuos
los residuos
estandarizados
ri deciles
por deciles
nk kdei =n1los
n k i =n1ky
HDL
sobre
el
ndice
masa
corporal
enHDL
elHDL
grupo
control
del
estudio
k i =1
i =de
1
regresin
lineal
del
colesterol
sobre
el
ndice
de
masa
corporal
valores
predichos
i de
de
la
regresin
lineal
del
colesterol
sobre
el
ndice
de
masa
valores
predichos
la

apreciar claramente las posib


i
predichos y i no permite corporal
EURAMIC.
en elengrupo
control
del estudio
EURAMIC.
37 37
el grupo
control
del estudio
EURAMIC.
de los
residuos
endecada
uno
de los
La presencia
de curvatura
en elengrfico
de
los
residuos
en
cada
uno
degrupos.
los grupos.
La presencia
de curvatura
el gr
de los
en cada
uno uno
de los
grupos.
La
presencia
de
curvatura
en
el
grfico
los
deresiduos
los residuos
en cada
de
los
grupos.
La
presencia
de
curvatura
en
el
grfico
de
los
Valores
predichos
(mmol/l)
Residuos
estandarizados
Valores
predichos
(mmol/l)
Residuos
estandarizados
Valores
predichos
(mmol/l)
Residuos
estandarizados
de
linealidad
y homogeneidad de la varianza. Para ob

Desviacin
tpica
(sk) (smedios
DecilDecil
(k) (k)
Desviacin
tpica
Media
( r ) frente
Media
Media
( r ) frente
a los
predichos
y k en
grupg
medios
Media
Desviacin
tpica
(skk)) medios
)residuos
Media
( y los
Media
(( y k )) en
avalores
los
valores
predichos
y klos
endistintos
los distintos
residuos
medios
rk frente
a Decil
losavalores
predichos
medios
distintos
grupos
residuos
medios
k
rk frente
los(k)
valores
predichos
medios
residuos
medios
k
k en los distintos grupos
< 0,98
0,930,93
0,120,12 en tales circunstancias,
0,950,95
< 0,98
< 0,98
0,93
0,12
0,95 es aconsejable dividir los n re
indicar
falta
de
linealidad
en
la
relacin,
mientras que la existencia de tendencia
0,981,03
1,00
-0,03
1,00
indicar
falta
de
linealidad
en
la
relacin,
indicar
falta
de
linealidad
en
la
relacin,
mientras
que
la
existencia
de
tendencia
en
el
0,981,03
1,00
-0,03
1,00
indicar falta de linealidad
en la relacin, mientras
que la existencia de tendencia
0,03 en el
1,00 mientras que la existencia de tenden
0,98-1,03
1,00
1,031,05
1,04
0,05
1,05
1,031,05
1,04
0,05 ordenados
1,051,05 crecientes de y (por ejemplo,
1,03-1,05
1,04
0,05
por valores
i
1,051,07
1,061,06
0,080,08 0,08
0,900,900,90
1,05-1,07
1,06
1,051,07
37 37
0,05
1,04
1,07-1,10
1,09
0,21
0,99
1,10-1,12
1,11
1 nk
0,12
1,02
1,12-1,13
1,12
26 26
r
=
ri
k
residuos sean comparables
de la variable explicativa,0,09
es preferible
1,13-1,16a distintos niveles
1,14
1,15
n k i =1
0,15
0,85
1,16-1,19
1,17
realizar el diagnstico
del modelo mediante1,22
los residuos estandarizados
1,19
0,20
1,01

y la varianza
=
ri =
,
Una simple inspeccin
del diagrama
de dispersin
entre los niveles de a-tocoferol y
s 1 hi
1 ( xi x ) 2
b-caroteno de la Figura
10.11(a)
evidencia
una
clara
violacin
de la hiptesis de homogeneidad
s 1
1 nk 2
n (n 1) s x2
de la varianza, ya que hay mayor variabilidad de los puntos alrededor de la recta de regresins k2 =
ri
n k i =1
para valores altos del a-tocoferol que para valores bajos. Esta heterogeneidad se hace an
que se obtienen
de dividiren
los la
residuos
ei por
una estimacin
desviacin
tpica.laEldesviacin tpica s de los
ms evidente
Figura
10.11(c),
dondedesesuobserva
cmo
k
residuos
estandarizados
aumenta
linealmente
con
los
deciles
de
los
valores
predichos.
de
los
residuos
en
cada
uno
de
los
grupos. La presenc
trmino hi se conoce como el leverage de una observacin y es una medida
Por otro lado, la Figura 10.11(b) no muestra una curvatura clara en la relacin, pero s se
estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x
aumenta
aprecia una cierta tendencia lineal negativa de los residuos
residuos medios rk conforme
frente a los
valores predichos med
el valor
Esto podra
deberse
que algunas
observaciones
con valores extremos
que se tratar
en el predicho.
apartado siguiente.
No obstante,
si el atamao
muestral es
grande y
de a-tocoferol y b-caroteno tienen excesiva influencia
en
la
estimacin
de laen
pendiente,
indicar falta de linealidad
la relacin, mientras qu
no hay valores
muy
extremos
de
la
variable
explicativa
(observaciones
con
alto
produciendo una sobreestimacin de la misma que da lugar a residuos positivos para
valores predichos bajos y residuos negativos para valores predichos altos. La identificacin
leverage), ambos residuos ei y ri se comportan de forma anloga.
de observaciones influyentes se abordar en mayor detalle en el siguiente apartado.
ei

ei

En determinados casos el grfico de los residuos estandarizados ri frente a los valores


0,5

1,6

predichos y i no permite apreciar claramente las posibles desviaciones de las asunciones

-caroteno (g/g)

k
de linealidad y homogeneidad de la varianza. Para obtener una representacin ms
clara

1,2

en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamao


-0,5nk
0,1

ordenados 0,8
por valores crecientes de y i (por ejemplo, deciles) y calcular la media
rk =

0,4

1
nk

nk

0,5

0,7

0,5

0,7

(b)
2

r
i =1

0,3

sk

y la varianza

0
0

100

1 nk 2
s k2 = 200
ri
n k i =1

300

400

0,1

0,3

-tocoferol (g/g)

y k

(a)

(c)

de los residuos en cada uno de los grupos. La presencia de curvatura en el grfico de los
Figura 10.11 Regresin lineal del -caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC (a), junto
con las medios
medias rk (b)
y desviaciones
sk (c)medios
de los residuos
por deciles de los valoresFigura
predichos.
frente
a los valorestpicas
predichos
y k en losestandarizados
distintos grupos
residuos
10.11
indicar falta de linealidad en la relacin, mientras que la existencia de tendencia en el
37

Pastor-Barriuso R.

181

El segundo procedimiento para tratar con varianzas heterogneas es encontrar una


Correlacin y regresin lineal simple

transformacin de la variable respuesta que estabilice la varianza y ajustar el modelo


lineal
a esta variable
transformada.
seleccinlos
de estimadores
la transformacin
adecuada
En
presencia
de heterogeneidad
de La
la varianza,
puntuales
b0 y bsuele
1, as como
la propia recta de regresin estimada = b0 + b1x, continan siendo insesgados, pero la varianza
basarse
en lasesgada
relacinyaexistente
entre la varianza
residual
valor esperado
dealrededor
la
que infraestima
la variabilidad
deylaelvariable
respuesta
de
residual
s2 est
unos puntos de la recta de regresin y la sobreestima en otros. En consecuencia, los errores
variable
En el caso
ms
frecuente
de que
la desviacin tpica
residual
tienda a y
estndar
de respuesta.
los estimadores
no son
correctos
y sus
correspondientes
intervalos
de confianza
tests de hiptesis dejan de ser vlidos. En general, existen dos procedimientos alternativos para
aumentar
linealmente
con el valor
(tal como
ocurre
la regresin
del - lineal
tratar
con varianzas
heterogneas.
El predicho
primer mtodo
consiste
enenrealizar
una regresin
ponderada, que es una extensin del modelo lineal ordinario donde cada observacin de la
caroteno
sobre el
-tocoferol),
la heterogeneidad
de la varianza
se resuelve
utilizando
la
variable
respuesta
recibe
un peso inversamente
proporcional
a su varianza
estimada
alrededor
de la recta de regresin. As, cuanto ms precisa sea una observacin, mayor ser su peso en la
estimacin
de la recta
de regresin.
Enque
el ejemplo
anterior,
regresin
linealentonces
ponderada
transformacin
logartmica
, dado
el logaritmo
de la la
respuesta
tendr
unadel
b-caroteno sobre el a-tocoferol otorgara ms peso a los puntos con valores bajos del a-tocoferol
quevarianza
a aquellos
con valores altos,
ya que los
primeros
presentan
menor variabilidad
aproximadamente
constante.
Esta
transformacin
logartmica
produce elen el nivel
de b-caroteno. Las tcnicas de regresin lineal ponderada pueden consultarse en los textos
mismo efecto
en cualquier
base
slo
puede aplicarse a variables respuestas positivas.
especficos
de regresin
citados
en yeste
tema.
El segundo procedimiento para tratar con varianzas heterogneas es encontrar una
Adems de homogeneizar la varianza, la transformacin logartmica tambin suele
transformacin de la variable respuesta que estabilice la varianza y ajustar el modelo lineal a
esta variable transformada. La seleccin de la transformacin adecuada suele basarse en la
emplearse para normalizar variables respuestas sesgadas positivamente, as como para
relacin existente entre la varianza residual y el valor esperado de la variable respuesta. En el
caso ms frecuente de que la desviacin tpica residual tienda a aumentar linealmente con el
linealizar relaciones con pendiente montonamente creciente.
valor predicho (tal como ocurre en la regresin del b-caroteno sobre el a-tocoferol), la
heterogeneidad
la
varianza
se resuelve
la transformacin
logartmica,
dado que
Para
volver
ade
la el
escala
original,
se tomautilizando
la exponencial
ambos lados
de esta igualdad,
Aun
cuando
uso de
una respuesta
logartmica
est en
plenamente
justificado
en
el logaritmo de la respuesta tendr entonces una varianza aproximadamente constante. Esta
transformacin
logartmica
produce el mismo
efecto en
cualquier
base y slo
a
resultando
que
la media
variable
respuesta
(definida
comopuede
la aplicarse
trminos estadsticos,
losgeomtrica
resultados de
dellamodelo
transformado
han de interpretarse
en la
variables respuestas positivas. Adems de homogeneizar la varianza, la transformacin
logartmica
tambin
suelede los
emplearse
paravase
normalizar
variables
respuestas
exponencial
de de
la media
logaritmos;
Apartado
es una
funcinquesesgadas
escala original
la variable
respuesta.
El modelo
en escala1.2.3)
logartmica
asume
el
positivamente, as como para linealizar relaciones con pendiente montonamente creciente.

exponencial
de
la
variable
Aun
el del
uso
de unaexplicativa,
respuesta
logartmica
est
plenamente
justificado
valorcuando
esperado
logaritmo
de la variable
respuesta
Y cambia
linealmente
con en
la trminos
estadsticos,
losa resultados
del modelo
transformado
han de
escala
original
Para volver
la escala original,
se toma
la exponencial
eninterpretarse
ambos ladosen
de la
esta
igualdad,
de variable
la variable
respuesta.
El
modelo
en
escala
logartmica
asume
que
el
valor
esperado
del
explicativa X, EG(Y|x) = exp{E(logY|x)} = exp(0 + 1x).
logaritmo
de laque
variable
respuesta
Y cambia
con la variable
resultando
la media
geomtrica
de lalinealmente
variable respuesta
(definidaexplicativa
como la X,
trminos
E(logY|x)
= 0 +
1 x.
As,
el modelo
escala
se interpreta
en
de la es
media
geomtrica de
exponencial
deen
la la
media
deoriginal
los logaritmos;
vase
Apartado
1.2.3)
una funcin
Para volver a la escala original, se toma la exponencial en ambos lados de esta igualdad, resultando
41
respuesta,
quelavara
exponencialmente
concomo
la variable
explicativa.
exponencial
de la variable
explicativa,
quela
lavariable
media geomtrica
de
variable
respuesta (definida
la exponencial
de laElmedia de los
logaritmos; vase Apartado 1.2.3) es una funcin exponencial de la variable explicativa,
coeficiente 1 asociado a la variable explicativa tiene entonces una interpretacin
EG(Y|x) = exp{E(logY|x)} = exp( 0 + 1 x).

de la en
habitual
ya que
su exponencial
corresponde
a lade
razn
de medias
As,distinta
el modelo
la escala
original
se interpreta
en trminos
la media
geomtrica de la
As, elrespuesta,
modelo enque
la escala
original se interpreta
la media geomtrica
de 1
variable
vara exponencialmente
conenlatrminos
variable de
explicativa.
El coeficiente
geomtricas
de Y cuando
X aumenta
una unidad,
asociado
a la variable
explicativa
tiene entonces
una interpretacin distinta de la habitual ya que
la variable respuesta,
quea vara
exponencialmente
con la de
variable
explicativa.
Eluna unidad,
su exponencial
corresponde
la razn
de medias geomtricas
Y cuando
X aumenta
E G (Y | x + 1)
a la variable
tiene
interpretacin
coeficiente 1 asociado
= exp{explicativa
= exp(
1 );
( entonces
0 + 1 (x + 1)
0 + 1 x)} una
E G (Y | x)

182

distinta
de la habitual
ya que su exponencial corresponde a la razn de medias
es decir,
100{exp(
1) 1} representa el cambio porcentual en la media geomtrica de Y por
cada
de una
en X. Esteelcambio
se asume
a lo largodedeYtodo
es incremento
decir, 100{exp(
1)unidad
- 1} representa
cambiorelativo
porcentual
en la constante
media geomtrica
geomtricas
de Y cuando
X aumenta una unidad,
el rango
de la variable
explicativa.
por cada incremento de una unidad en X. Este cambio relativo se asume constante a lo
E G (Y | x + 1)
Pastor-Barriuso R.
= exp{0 + 1(x + 1) - (0 + 1x)} = exp(1);
largo de todo el rango
E G (Yde
| x)la variable explicativa.

tocoferolLa
delrazn
ejemplo
se observ unasociada
aumentoalineal
de la desviacin
tpica
respuesta.
de anterior
medias geomtricas
un aumento
de c unidades
Regresin lineal simple

conforme
aumentaba
valorpor
predicho, lo que sugiere la utilizacin de
enresidual
la variable
explicativa
vieneeldada
una transformacin logartmica de la variable respuesta. La Figura 10.12(a)

y G (En
x +el
c)anlisis de regresin lineal del b-caroteno sobre el a-tocoferol del
Ejemplo 10.14
= exp{b
0 + b1(x + c) - (b0 + b1x)} = exp(cb1).
ejemplo
se
observ
unestimada
aumento
lineal
de la desviacin
tpica residual
muestraanterior
la recta
de
regresin
entre
el logaritmo
del -caroteno
y el - conforme
y G ( x)
y de la pendiente
SE(b1)
donde
el error
de la constante
SE(b0) =la0,055
aumentaba
el estndar
valor predicho,
lo queessugiere
utilizacin
de una transformacin
tocoferol, de la variable respuesta. La Figura 10.12(a) muestra la recta de regresin
logartmica
por ejemplo,
por
de una
tpica c =el87,6
g/gtiene
en el
=As,
0,00032.
Aunque
el cada
ajusteincremento
se ha
realizado
escala
logartmica,
modelo
estimada
entre
el logaritmo
del
b-caroteno
yen
eldesviacin
a-tocoferol,
log y = 1,91 + 0,0040x,

G
una
directa
en trminos
de lademedia
geomtrica
de la
nivelinterpretacin
de -tocoferol,
la media
geomtrica
-caroteno
aumenta
unvariable
donde el error estndar de la constante es SE(b0) = 0,055 y de la pendiente SE(b1) =
0,00032. Aunque
ha realizado
en
escala
logartmica,
elcmodelo
tiene una
respuesta.
La razneldeajuste
geomtricas
asociada
a un
aumento deporcentual
unidades
100{exp(87,60,0040)
-medias
1} =se100(1,42
- 1) =
42%.
Este
incremento
en
interpretacin directa en trminos de la media geomtrica de la variable respuesta. La
razn
de medias
geomtricas
asociada
a un aumento
de c unidades
variable
explicativa
en
la variable
explicativa
viene
dadapermanece
por
la
media
geomtrica
de -caroteno
constante
a travsen
delatodo
el rango
42
viene dada por

observado dely-tocoferol.
Como consecuencia, la tendencia resultante en la
G ( x + c)
= exp{b0 + b1 (x + c) (b0 + b1 x)} = exp(cb1 ).
y G ( x)
escala original del -caroteno es exponencial, tal como se muestra en la Figura
As, por ejemplo, por cada incremento de una desviacin tpica c = 87,6 mg/g en el nivel de
a-tocoferol,
la media
de b-caroteno
aumenta un
100{exp(87,6
As,
por ejemplo,
por geomtrica
cada incremento
de una desviacin
tpica
c = 87,6 g/g
en el 1} =
0,0040)
10.12(b).
100(1,42 1) = 42%. Este incremento porcentual en la media geomtrica de b-caroteno
permanece
travs
de todo
el -caroteno
rangoasociada
observado
del
nivel
la amedia
geomtrica
de
aumenta
un a-tocoferol.
El
ICde
al -tocoferol,
95%constante
para la razn
de medias
geomtricas
a un aumento
de 87,6 Como
consecuencia, la tendencia resultante en la escala original del b-caroteno es exponencial,
tal como
muestra en-se
la
Figura
10.12(b).
g/g
en else-tocoferol
multiplicando
primero
los lmites del
intervaloen
100{exp(87,60,0040)
1}calcula
= 100(1,42
- 1) = 42%.
Este incremento
porcentual
El IC al 95% para la razn de medias geomtricas asociada a un aumento de 87,6 mg/g en
1 por
dicho
incremento
y despus
exponenciando,
para
la
geomtrica
de -caroteno
permanece
constante
a travs
de todopara
el rango
el media
a-tocoferol
se calcula
multiplicando
primero
los lmites
del intervalo
1 por dicho
incremento y despus exponenciando,
observadoexp[c{b
del -tocoferol.
Como
consecuencia,
la tendencia
resultante en la
t
SE(b )}]
= exp{87,6(0,0040
1,960,00032)}
1

698;0,975

= (1,34; 1,50),
escala original del -caroteno es exponencial, tal como se muestra en la Figura
de donde se concluye con una confianza del 95% que la media geomtrica de b-caroteno
10.12(b).
aumenta entre un 34 y un 50% por cada incremento de 87,6 mg/g en el nivel de a-tocoferol.
de
donde
se concluye
con
unasignificativo
confianza deldado
95%que
queellacontraste
media geomtrica
dela-hiptesis
Este
cambio
relativo es
muy
bilateral de
El
ICHal0:95%
la raznelde
medias geomtricas asociada a un aumento de 87,6
1 = para
0 mediante
estadstico
nula
caroteno aumenta entre un 34 y un 50% por cada incremento de 87,6 g/g en el
bmultiplicando
0,0040 primero los lmites del intervalo
1
g/g en el -tocoferol se calcula
t=
=
= 12,44
SE (brelativo
0,00032
nivel de -tocoferol. Este cambio
es muy significativo dado que el
1)
por
dicho
y despus
exponenciando,
para
arroja1un
valor
P =incremento
2P(t698 12,44)
2{1
F(12,44)} < 0,001.
contraste bilateral de la hiptesis nula H0: 1 = 0 mediante el estadstico
arroja un
valor
P = 2P(t
12,44)dehomogeneidad
2{1 - (12,44)}de<la0,001.
Como
caba
esperar,
la 698
hiptesis
varianza se hace mucho ms

t
SE(b
)}]
=
exp{87,6(0,0040
exp[c{b
1
1
plausible utilizando
la698;0,975
escala logartmica
(paneles a y c dela1,960,00032)}
Figura 10.13). Sin embargo,
Como
caba
esperar,
la
hiptesis
de
homogeneidad
de
la
varianza
se hace
la curvatura de los residuos de la Figura 10.13(b) sugiere que el efecto
del mucho
a-tocoferol no
=
(1,34;
1,50),
es lineal en el logaritmo del b-caroteno o, dicho de forma equivalente, la 43
relacin
ms
plausible
utilizando
la
escala
logartmica
(paneles
a
y
c
de
la
Figura
10.13).
subyacente entre el a-tocoferol y el b-caroteno no parece responder fielmente a un modelo
exponencial.
As, la con
transformacin
logartmica
delalamedia
variable
respuesta
elimina la
de
donde se concluye
una confianza
del 95% que
geomtrica
de Sin
embargo,
la
curvatura
de
los
residuos
de
la
Figura
10.13(b)
sugiere
que
el
heterogeneidad de la varianza pero introduce una desviacin de la asuncin de linealidad.
Como veremos
ms
adelante,
problema
podra
paliarsedetransformando
tambin la
caroteno
aumenta
entre
unes34lineal
yeste
un en
50%
por cada
incremento
87,6
g/g de
en el
efecto
del
-tocoferol
no
el
logaritmo
del
-caroteno
o,
dicho
variable explicativa para restaurar la linealidad en la relacin. Alternativamente, se podra
haber ajustado un modelo de regresin lineal ponderado entre el a-tocoferol y el
nivel
-tocoferol.laEste
cambio
relativo es
muy
que el no
formadeequivalente,
relacin
subyacente
entre
el significativo
-tocoferol
ydado
el -caroteno
b-caroteno,
que permite
trabajar
directamente
con
varianzas heterogneas
sin necesidad
de transformar los datos ni modificar la estructura lineal del modelo.
: 1 = 0 mediante
contraste
bilateralfielmente
de la hiptesis
nula H0exponencial.
parece responder
a un modelo
As, el
la estadstico
transformacin

logartmica de la variable respuesta elimina la heterogeneidad de la varianza


pero
Pastor-Barriuso
R.
introduce una desviacin de la asuncin de linealidad. Como veremos ms

43

183

residuos sean
comparables
a lineal
distintos
Correlacin
y regresin
simpleniveles de la variable explicativa, es preferible
realizar el diagnstico del modelo mediante los residuos estandarizados

log(-caroteno)

ei

ri =

s 1
-1

1 ( xi x ) 2

n (n 1) s x2

ei
s 1 hi

1,6

,
-caroteno (g/g)

0,5

1,2
0,8

que se obtienen de dividir los residuos ei por una estimacin de su desviacin tpica. El
-2

0,4

trmino hi se conoce como el leverage de una observacin y es una medida


-3

estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x


0

100

200

300

400

100

200

300

que se tratar en el apartado siguiente.


No obstante,
-tocoferol
(g/g) si el tamao muestral es grande y-tocoferol (g/g)

400

(a)explicativa (observaciones con alto


(b)
no hay valores muy extremos de la variable
Figura 10.12 Recta de regresin del logaritmo del -caroteno sobre el -tocoferol en el grupo control del
ri se
comportanexponencial
de forma anloga.
leverage),estudio
ambos EURAMIC
residuos ei y(a)
y tendencia
resultante en la escala original del -caroteno (b).

En determinados casos el grfico de los residuos estandarizados ri frente a los valores


Figura 10.12

0,5
3
apreciar claramente las posibles desviaciones de las asunciones
predichos y i no permite

rk clara
0
2
de linealidad y homogeneidad
de la varianza. Para obtener una representacin ms

nk
en tales circunstancias,
es aconsejable dividir los n residuos ri en K grupos de tamao
1
-0,5
-2

ri valores
ordenados por
crecientes de y i (por ejemplo, deciles) y calcular la media
0
-1

rk =

-2

y la varianza

1
nk

-1

-0,5

-1

-0,5

(b)
1,5

nk

r
i =1

-1,5

sk

-3

1
0,5

-2

-1,5

-1

s k2 =

1
nk

nk

yrii2

-0,5

0,5

i =1

(a)

-2

-1,5

y k
(c)

de los residuos
cada uno
de los
La presencia
de curvatura
en aellos
grfico
depredichos
los
Figuraen10.13
Grfico
degrupos.
los residuos
estandarizados
ri frente
valores
i de la regresin lineal
Figuracon
10.13las
del logaritmo del -caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC (a), junto
medias rk (b)
y desviaciones
sk (c)medios
de los residuos
estandarizados
por deciles de los valores predichos.
frente
a los valorestpicas
predichos
y k en los
distintos grupos
residuos medios
indicar falta
de linealidad
en la relacin,
mientras
que la existencia de tendencia en el
10.3.6
Observaciones
atpicas
e influyentes

En el diagnstico de un modelo de regresin lineal, tan importante como


37 evaluar las asunciones
de linealidad y homogeneidad de la varianza es examinar la contribucin o influencia de cada
observacin en el modelo estimado. En general, es deseable que el modelo estimado responda
al patrn global de los datos; esto es, las estimaciones de los parmetros del modelo deben
basarse en el conjunto de todas las observaciones y no nicamente en un reducido nmero de
observaciones muy influyentes. De esta forma, se tendr un mayor grado de confianza a la hora
de inferir los resultados del modelo a toda la poblacin.
La forma ms natural de medir la influencia de una observacin en un modelo de regresin
lineal simple es comparar las estimaciones de la constante y la pendiente obtenidas en la muestra
184

Pastor-Barriuso R.

obtenidas en la muestra completa con sus correspondientes estimaciones tras excluir


Regresin lineal simple
dicha observacin. Una medida estandarizada del cambio global que se produce
en las

estimaciones b0 y b1 al eliminar la i-sima observacin es la distancia de Cook Di, que


completa con sus correspondientes estimaciones tras excluir dicha observacin. Una medida
en su formadel
ms
simpleglobal
puedeque
expresarse
como
estandarizada
cambio
se produce
en las estimaciones b0 y b1 al eliminar la i-sima
observacin es la distancia de Cook Di, que en su forma ms simple puede expresarse como
Di =

ri 2 hi
.
2(1 hi )

De esta frmula se desprende que la influencia de una observacin en las estimaciones b0 y b1


leverage
hi. Losen
residuos
estandarizados
depende
tanto
de su se
residuo
estandarizado
ri como de
De esta
frmula
desprende
que la influencia
desu
una
observacin
las estimaciones
ri determinan la desviacin del valor observado de la variable respuesta respecto al valor
valor absoluto
predicho
la recta
tal forma que
valores
altos
de ri heni. Los
depende
tantodederegresin,
su residuodeestandarizado
ri como
de su
leverage
b0 y b1 por
corresponden a observaciones pobremente ajustadas, que se conocen como observaciones
atpicas
o outliers.
Estos outliers
provocan
una disminucin
de la
calidad global
del ajuste, lo
la desviacin
del valor
observado
de la variable
residuos
estandarizados
ri determinan
que redunda en un aumento de la varianza residual s2 y del error estndar de las estimaciones b0
los al
outliers
no son necesariamente
en tal
las forma
estimaciones
puntuales
y brespuesta
respecto
valor predicho
por la recta deinfluyentes
regresin, de
que valores
1. Sin embargo,
b0 y b1, ya que su influencia tambin depende del leverage. El leverage hi de una observacin
valor absoluto
a observaciones
ajustadas,y que
se
altosmedida
de ri enestandarizada
es una
decorresponden
la distancia entre
el valor de lapobremente
variable explicativa
su media,
2
que se define como
1 ( xi x )
hi =o outliers
+
. Estos outliers provocan una
conocen como observaciones atpicas
1n ( x(ni x1)s2 x2
hi = +
2
n lo
1) sredunda
(nque
x
disminucin de la calidad global del ajuste,
en un aumento de la

outliers
queque
y toma
valores
entre
conuna
una media
media de h = 2/n.
y toma
valores
entre
1/n1/n
y y1 1con
2/n. AAdiferencia
diferenciadedeloslos
outliers
varianza residual s2 y del error estndar de las estimaciones b0 y b1. Sin embargo, los
corresponden
a observaciones
atpicos
variable
respuesta,
lasoutliers
observaciones
y toma valores
entre 1/n y 1con
convalores
una media
de h de
= la
2/n.
A diferencia
de los
que
corresponden
a
observaciones
con
valores
atpicos
de
la
variable
respuesta,
las
con alto leverage son aquellas con valores extremos de la variable explicativa. El leverage juega
outliers no son necesariamente influyentes en las estimaciones puntuales b0 y b1, ya que
un corresponden
papel determinante
en la distincin
entreatpicos
outliersdey laobservaciones
influyentes.
As, por
a observaciones
con valores
variable respuesta,
las
observaciones
con
alto
leverage
son
aquellas
con
valores
extremos
de
la
variable
ejemplo, el punto A de la Figura 10.14(a) es un outlier extremo (residuo muy elevado) que tiene
su influencia tambin depende del leverage. El leverage hi de una observacin es una
poca
influencia encon
la recta
regresin
sta no
vara sensiblemente
observaciones
alto de
leverage
sonestimada
aquellas ya
conque
valores
extremos
de la variabletras excluir
explicativa.
El
leverage
juega
un
papel
determinante
en
la
distincin
entre outliers
y
dicho punto. Esto se debe a que la observacin A presenta un valor centrado
de la variable
medida estandarizada de la distancia entre el valor de la variable explicativa y su media,
explicativa
(leverage
muy bajo)
en gran medida
las estimaciones
explicativa.
El leverage
juegaque
un mitiga
papel determinante
en su
la influencia
distincin sobre
entre outliers
y
observaciones
influyentes.
As,
por
ejemplo,
el
punto
A
de
la
Figura
10.14(a)
es
un
b0 y b1 (distancia de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es
que se define como
un outlier
tan marcado
pero tiene
una
influencia
mayor
recta10.14(a)
de regresin
estimada,
observaciones
influyentes.
As,
por
ejemplo,mucho
el punto
A de en
la la
Figura
es un
outlier
extremo
(residuo
muy
elevado)
que
tiene
poca
influencia
en
la
recta
de
regresin
particularmente en la pendiente b1, debido a que este punto presenta un valor muy extremo de
la variable
explicativa.
outlier extremo
(residuo muy elevado) que tiene poca influencia en la recta de regresin
estimada ya que sta no vara sensiblemente tras excluir dicho punto. Esto se debe a que
45
estimada ya que staAno vara sensiblemente tras excluir dicho punto. Esto se debe aB que
la observacin A presenta un valor centrado de la variable explicativa (leverage muy
la observacin A presenta un valor centrado de la variable explicativa (leverage muy
bajo) que mitiga en gran medida su influencia sobre las estimaciones b0 y b1 (distancia
bajo)
que mitiga en gran medida su influencia sobre las estimaciones b0 y b1 (distancia
y
de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es un outlier
de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es un outlier
tan marcado pero tiene una influencia mucho mayor en la recta de regresin estimada,
tan marcado pero tiene una influencia mucho mayor en la recta de regresin estimada,
particularmente en la pendiente b1, debido a que este punto presenta un valor muy
particularmente en la pendiente b1, debido a que este punto presenta un valor muy
x
extremo de la variable explicativa.
x
extremo de la variable explicativa.
(a)
(b)
[Figura 10.14
aproximadamente
aqu] (lnea fina) los puntos A y B
Figura 10.14 Rectas de regresin resultantes
de incluir
(lnea gruesa) y excluir
del ajuste del modelo lineal.
[Figura 10.14 aproximadamente aqu]
Una observacin ser tanto ms influyente en las estimaciones b0 y b1 de la recta
de
Figura 10.14
Pastor-Barriuso
R.
Una observacin ser tanto ms influyente en las estimaciones b0 y b1 de la recta de
regresin cuanto mayor sea su distancia de Cook Di. En general, se recomienda
regresin cuanto mayor sea su distancia de Cook Di. En general, se recomienda

185

Correlacin y regresin lineal simple

Una observacin ser tanto ms influyente en las estimaciones b0 y b1 de la recta de regresin


cuanto mayor sea su distancia de Cook Di. En general, se recomienda examinar detenidamente
aquellas observaciones con una distancia de Cook superior a 4/(n 2), que corresponde, por
ejemplo, a un punto con un leverage medio hi = 2/n y un residuo estandarizado alto ri = 2. No
obstante, la seleccin de un valor crtico para Di es un tanto arbitraria y es preferible evaluar la
influencia relativa de cada observacin en comparacin con las restantes observaciones. Un
grfico til es el diagrama de dispersin de los residuos estandarizados ri frente a los leverages
hi, donde cada observacin se representa mediante un crculo de rea proporcional a su distancia
de Cook Di. En este grfico, el tamao de los crculos identificar claramente las observaciones
ms influyentes, mientras que la posicin permitir discernir la contribucin de los residuos y
leverages a la influencia de dichas observaciones.
1 ( xi x ) 2
h
+
i =
Ejemplo 10.15 La Figura 10.15 muestra los residuos
ri frente a los
n (estandarizados
n 1) s x2
leverages hi de la regresin lineal del colesterol HDL sobre el ndice de masa corporal,
donde se incluyen lneas de referencia horizontales en ri = 2, 0 y 2 y verticales en el
doble hi = 0,0075
y elvalores
triple hentre
medio
0,0038. Elderea
2/n. A=diferencia
los outliers que
y toma
1/n y 1del
conleverage
una media
de h == 2/533
i = 0,0113
de los crculos es proporcional a la distancia de Cook Di e indica la influencia relativa de
cada observacin.
Por supuesto,
la influencia
las observaciones
conforme las
corresponden
a observaciones
conde
valores
atpicos de la aumenta
variable respuesta,
aumentan sus residuos estandarizados en valor absoluto (direccin vertical del grfico) y
sus leveragesobservaciones
(direccin horizontal).
Sin embargo,
nocon
se valores
aprecian
observaciones
con alto leverage
son aquellas
extremos
de la variable
marcadamente influyentes que pudieran conducir los resultados globales del modelo. La
se presenta
en determinante
el cuadrante superior
izquierdaentre
de laoutliers y
observacin ms
influyente
explicativa.
ElDleverage
un papel
en la distincin
i = 0,043juega
Figura 10.15, que corresponde a un outlier con un residuo muy alto ri = 4,28 y un leverage
0,0047. Las estimaciones
la constante
y la pendiente
la recta
de regresin
moderado hi =observaciones
influyentes.deAs,
por ejemplo,
el punto de
A de
la Figura
10.14(a) es un
excluyendo este outlier son b0(i) = 1,71 y b1(i) = 0,024 que, comparadas con las estimaciones
(error estndar)
b0 = 1,69
(0,092)
y b1 =muy
0,023
(0,0035)
la muestraencompleta
outlier
extremo
(residuo
elevado)
queobtenidas
tiene pocaeninfluencia
la recta de regresin
(Ejemplo 10.9), suponen un cambio estandarizado de (b0(i) b0)/SE(b0) = (1,71 1,69)/0,092
b1sta
)/SE(b
= (0,024
+ 0,023)/0,0035
= 0,23
en la
pendiente.
= 0,20 en la constante
(b1(i)que
estimaday ya
no1)vara
sensiblemente
tras excluir
dicho
punto.
Esto se debe a que
As, a pesar de que este outlier est muy mal ajustado, no afecta substancialmente a la recta
de regresin estimada.
la observacin A presenta un valor centrado de la variable explicativa (leverage muy
Ejemplo 10.16
Enque
la Figura
se representan
los residuossobre
estandarizados
ri frenteba0 ylosb1 (distancia
bajo)
mitiga10.16
en gran
medida su influencia
las estimaciones
leverages hi de la regresin lineal del logaritmo del b-caroteno sobre el a-tocoferol. En una
primera inspeccin
visual
se distinguen
al menos el3punto
observaciones
con una
influencia
de Cook
moderada).
Por el contrario,
B de la Figura
10.14(b)
no es un outlier
sensiblemente mayor que las dems, que corresponden a los crculos de mayor tamao situados
a la derecha deltan
grfico.
Los valores
observados,
predichos
y las medidas
marcado
pero tiene
una influencia
mucho
mayor endiagnsticas
la recta deasociadas
regresin estimada,
a dichas observaciones se presentan en la Tabla 10.5. A diferencia del ejemplo anterior, donde
la observacinparticularmente
ms influyenteen
corresponda
outlier, aestas
3 observaciones
presentan
que este
punto presenta
un valor muy
la pendientea bun
1, debido
leverages muy altos hi = 0,044, 0,038 y 0,022 debidos a valores muy elevados del a-tocoferol,
y slo una de ellas
est pobremente
ajustada
con ri = 3,11. Para evaluar la influencia conjunta
extremo
de la variable
explicativa.
de dichas observaciones en la recta de regresin estimada, se calcularon los coeficientes del
modelo excluyendo simultneamente las 3 observaciones, que resultaron ser b0(i) = 1,93 y b1(i) =
[Figura
aproximadamente
aqu]
y b1 = 0,0040
0,0042. En comparacin con las estimaciones
(error10.14
estndar)
b0 = 1,91 (0,055)
(0,00032) obtenidas en la muestra completa (Ejemplo 10.14), la eliminacin de estas 3
observaciones provoca un cambio estandarizado en la constante de (1,93 + 1,91)/0,055 =
Una observacin
tanto ms influyente
en las
y b1 de la recta de
0,36 y en la pendiente
de (0,0042 ser
0,0040)/0,00032
= 0,50. Esto
es, estimaciones
la exclusin deb0dichas
observaciones conlleva una disminucin en la constante de aproximadamente un tercio de su
se recomienda
cuanto
sea su
de error
Cookestndar.
Di. En general,
error estndar regresin
y un aumento
en lamayor
pendiente
dedistancia
la mitad del
As, aunque
estas 3
observaciones no son extremadamente influyentes por s mismas, el modelo s parece ser
examinardedetenidamente
aquellas
observaciones
una distancia de Cook superior a
sensible a la presencia
observaciones con
alto leverage
(Figura con
10.16).
186

Pastor-Barriuso R.

4/(n - 2), que corresponde, por ejemplo, a un punto con un leverage medio hi = 2/n y un
residuo estandarizado alto ri = 2. No obstante, la seleccin de un valor crtico para Di

Regresin lineal simple

ri
0

-2
-3
0,002

0,005

0,01

0,02

0,03

hi
1 ( xi x ) 2 1 ( xi x ) 2
+
hi = +
i =
Figura 10.15 Grfico dehlos
residuos
lineal del
n (n 1estandarizados
) s x2 n (n 1) srx2i frente a los leverages hi de la regresin
Figura 10.15
colesterol HDL sobre el ndice de masa corporal en el grupo control del estudio EURAMIC. El rea de los
crculos es proporcional a la distancia de Cook Di. Las lneas de referencia horizontales corresponden a
= 2, 0entre
2,1/n
y valores
las
a yh1i =
2h una
== 0,0075
y 3h == 0,0113.
El eje horizontal
estque
en escala logartmica
2/n.
A diferencia
de A
losdiferencia
outliers
que
2/n.
de los outliers
y tomarivalores
y 1verticales
conentre
una 1/n
media
de
yytoma
con
media
de
para mejorar la representacin grfica.
corresponden a corresponden
observacionesacon
valores atpicos
de la variable
las respuesta, las
observaciones
con valores
atpicosrespuesta,
de la variable

observaciones con
alto
sonalto
aquellas
conson
valores
extremos
de la variable
observaciones
con
leverage
aquellas
con valores
extremos de la variable
3 leverage
explicativa. El leverage
juega
papel determinante
endeterminante
la distincin en
entre
outliers y entre outliers y
explicativa.
Elun
leverage
juega un papel
la distincin
2

observaciones influyentes.
As,influyentes.
por ejemplo,
el punto
A de laelFigura
es un 10.14(a) es un
observaciones
As,
por ejemplo,
punto10.14(a)
A de la Figura
outlier extremo outlier
(residuo
muy elevado)
tiene
poca influencia
en la influencia
recta de regresin
extremo
(residuoque
muy
elevado)
que tiene poca
en la recta de regresin
1

estimada ya queestimada
sta no vara
sensiblemente
excluir dicho
punto.
Esto
se debe
a que
ya que
sta no varatras
sensiblemente
tras
excluir
dicho
punto.
Esto se debe a que
0
la observacinrAilapresenta
un valor
centrado
la variable
(leverage
muy (leverage muy
observacin
A presenta
unde
valor
centradoexplicativa
de la variable
explicativa

y b1 (distanciab0 y b1 (distancia
bajo) que mitigabajo)
en gran
su gran
influencia
sobre
las estimaciones
b0 estimaciones
quemedida
mitiga en
medida
su influencia
sobre las
-1

de Cook moderada).
Por moderada).
el contrario,Por
el punto
B de laelFigura
no es un
outlier no es un outlier
de Cook
el contrario,
punto10.14(b)
B de la Figura
10.14(b)
tan marcado pero
una influencia
mayor enmucho
la recta
de regresin
estimada,
tantiene
marcado
pero tienemucho
una influencia
mayor
en la recta
de regresin estimada,
-2
debido
a quebeste
puntoapresenta
valor
muy un valor muy
que este un
punto
presenta
particularmenteparticularmente
en la pendiente en
b1, la
pendiente
1, debido
-3

extremo de la variable
extremoexplicativa.
de la variable explicativa.
0,0015
0,003 10.14 0,005
0,01
[Figura 10.14 aproximadamente
aqu]
[Figura
aproximadamente
aqu]

0,02

0,04

hi
1 ( xi x ) 2 1 ( xi x ) 2
=
h
+
=
h
+
i
i2
2 influyente
10.16
Grfico
de
frente
a los
leverages
hi laderecta
la regresin
lineal del loUnaFigura
Una
observacin
ser
tanto
influyente
estimaciones
y b1 de
la recta
ser
tanto
enrlas
b0 de
y b1 de
de
ib
0 estimaciones
nobservacin
nresiduos
(n ms
1) slos
(n ms
1en
)estandarizados
s las
Figura 10.16
x
x
garitmo del -caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC. El rea de los crculos
es proporcional
la su
distancia
DDi.i.Las
lneas
horizontales
corresponden a ri = 2, 0 y 2,
En de
general,
se
En general,
se recomienda
regresin
cuantoregresin
mayor asea
distancia
deCook
Cook
cuanto
mayorde
sea
su distancia
Cookde
Dreferencia
i.recomienda
yvalores
las
ayh1i =
2huna
== 0,0057
y 3h == 0,0086.
El
eje horizontal
est en
2/n.
A diferencia
deAlos
outliers
que
ma valores yentre
y 1 verticales
con
una1/n
media
de
2/n.
diferencia
de los outliers
queescala logartmica.
toma1/n
entre
con
media
de
examinar detenidamente
observaciones
una distancia
deuna
Cook
superior
examinar aquellas
detenidamente
aquellascon
observaciones
con
distancia
deaCook superior a
esponden acorresponden
observacionesa con
valores atpicos
de la variable
las respuesta, las
observaciones
con valores
atpicosrespuesta,
de la variable
Pastor-Barriuso R. 187
un hi = 2/n y un
4/(n - 2), que corresponde,
porcorresponde,
ejemplo, a un
con un
leverage
medio
hi = 2/n ymedio
4/(n - 2), que
porpunto
ejemplo,
a un
punto con
un leverage
ervaciones con
alto leverage
aquellas
con
valores
extremos
de la extremos
variable de la variable
observaciones
conson
alto
leverage
son
aquellas
con valores
obstante,
la seleccin
de un
valor crtico
para
Di crtico para Di
No obstante,
la seleccin
de un
valor
residuo estandarizado
ri = 2. No alto
residuoalto
estandarizado
ri = 2.
licativa. El leverage
juega
papel juega
determinante
la distincinen
entre
outliers y entre outliers y
explicativa.
El un
leverage
un papelendeterminante
la distincin

deben limitarse exclusivamente al rango de valores observados en el resto de la muestra.


No obstante, el tratamiento de observaciones influyentes no pasa necesariamente por su

Correlacin y regresin lineal simple

exclusin del ajuste del modelo. Un procedimiento alternativo de uso generalizado


consiste10.5
en encontrar
una transformacin
de la variable
respuesta
Tabla
Observaciones
ms influyentes
en la explicativa
regresin olineal
del que
logaritmo del
-caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC.
permita reducir la influencia de dichas observaciones. Por un lado, las transformaciones
Valores observados

Valor predicho

Medidas diagnsticas

Estimaciones*

yi
ri
hi
i
i
de laxvariable
respuesta
afectani al residuo estandarizado
pero no alDleverage
deb0una
(i)

626,8
1,74
586,6
0,87
observacin,
por lo
475,1
2,30

que

0,60
slo 0,44
son
0,01

1,57
1,79
potencialmente
3,11

0,044
tiles0,038
para
0,022

0,057
0,062
atenuar
la
0,107

1,90
1,92 de
influencia
1,93

b1(i)
0,0039
0,0041
0,0041

outliers.
Por eldecontrario,
variable
influyencorrespondiente.
tanto
*
Estimaciones
la constantelas
y latransformaciones
pendiente de la rectade
de la
regresin
trasexplicativa
excluir la observacin
Las estimaciones (y su error estndar) en la muestra completa de 700 controles fueron b0 = 1,91 (0,055)
b1 =residuos
0,0040 (0,00032).
enylos
como en los leverages, de tal forma que estas transformaciones tambin
En ocasiones
lcito la
eliminar
las observaciones
marcadamente
pueden
utilizarseresulta
para mitigar
influencia
de observaciones
extremas en influyentes,
la variable bien por
tratarse de valores atpicos de la variable respuesta o bien por presentar valores extremos de la
variable
explicativa. En tal caso, las inferencias derivadas del modelo deben limitarse
explicativa.
exclusivamente al rango de valores observados en el resto de la muestra. No obstante, el tratamiento
de observaciones influyentes no pasa necesariamente por su exclusin del ajuste del modelo. Un
con errores
estndar de
SE(b
0) = 0,19 y SE(b1) = 0,039. Al exponenciar ambos lados
procedimiento
uso
generalizado
consiste en
una transformacin
de la
Ejemplo alternativo
10.17 Con objeto
de
reducir la influencia
deencontrar
las observaciones
con
variable explicativa o respuesta que permita reducir la influencia de dichas observaciones. Por un
de la igualdad, se tiene que la media geomtrica de la variable respuesta es una
lado, las
transformaciones
la -tocoferol
variable respuesta
afectan en
al residuo
estandarizado
valores
muy elevadosdedel
(alto leverage)
el modelo
de regresinpero no al
leverage de una observacin, por lo que slo son potencialmente tiles para atenuar la influencia
funcin potencial de la variable explicativa (panel b de la Figura 10.17),
de outliers. Por el contrario, las transformaciones de la variable explicativa influyen tanto en los
lineal del logaritmo del -caroteno sobre el -tocoferol, se podra aplicar a su vez
residuos como en los leverages, de tal forma que estas transformaciones tambin pueden utilizarse
para mitigar la influencia dey Gobservaciones
explicativa.
= exp(-3,76 +extremas
0,51 logenx)la=variable
0,023x0,51
.
una transformacin logartmica a la variable explicativa. En la Figura 10.17(a) se
con errores estndar SE(b0) = 0,19 y SE(b1) = 0,039. Al exponenciar ambos lados
Ejemplo 10.17 Con objeto de reducir la influencia de las observaciones con valores
muestra
la recta
regresin
estimada
entreen
el simple
logaritmo
delescala
-caroteno
yesel
Este
tiene
entonces
una
interpretacin
la
original
de
muy
elevados
del
a-tocoferol
(alto
leverage)
el
modelo
de
regresin
lineal
del logaritmo
de
la modelo
igualdad,
sede
tiene
que la
media
geomtrica
de
la en
variable
respuesta
una
del b-caroteno sobre el a-tocoferol, se podra aplicar a su vez una transformacin
logaritmo
del
ambas
variables
yadeque,
al aumentar
c veces
la variable
explicativa,
lalarazn
logartmica
a la-tocoferol,
variable
explicativa.
En
la Figura
10.17(a)
se muestra
recta de regresin
funcin
potencial
la variable
explicativa
(panel
b de la
Figura
10.17),
estimada
entre
el logaritmo
del0,19
b-caroteno
logaritmo
del a-tocoferol,
y SE(b1)y=el0,039.
Al exponenciar
ambos lados
con
errores
estndar
SE(b0) =
medias geomtricas es constante e igual
a
0,51
x, 0,51.
log y G = +3,76
y G que
= exp(-3,76
0,51+log
x)delog
= la
0,023x
de la igualdad, se tiene
la media geomtrica
variable respuesta es una
con errores estndar SE(b0) = 0,19 y SE(b1) =0,51
0,039. Al exponenciar ambos lados de la
y G (cx) 0,023(cx)
0,51
igualdad,
se tiene
la variable
media
geomtrica
de(panel
la variable
respuesta
una funcin potencial
funcin
potencial
de
la
explicativa
la
10.17),
=
=b cde
; Figura es
Este
modelo
tieneque
entonces
una
interpretacin
0 , 51simple en la escala original de
49
y
(
x
)
0
,
023
x
G
de la variable explicativa (panel
b de la Figura 10.17),
0,51
ambas variables ya que,
aumentar
la variable
explicativa,
la razn de
y G =alexp(
0,51 log
x) = 0,023x
.
3,76 +c veces
es decir, a incrementos relativos en la variable explicativa les corresponde un
Este modelo
tiene entonces
unaeinterpretacin
simple en la escala original de ambas
medias
geomtricas
es constante
igual a
variables
ya que,
alentonces
aumentar
cvariable
veces
larespuesta.
variable explicativa,
razn
de medias
Este
modelo
tiene
interpretacin
simple
en lalaescala
original
degeomtricas
mismo
cambio
relativo
en launa
Por ejemplo,
incrementos
del
es constante e igual a
yaumentar
0c,023
(cxla
) 0,51
0,51 explicativa, la razn de
G (cx)
ambas
variables
ya
que,
al
veces
variable
50% (c = 1,50) en el nivel de -tocoferol
se asocian
=
= ccon
;un aumento del
0 , 51
y G ( x)
0,023x
0,51
medias
esrelativos
constante
igual
a la explicativa
- 1) = 100(1,23
- 1)en=ela
23%
en
media geomtrica
de -caroteno.
El cambio
100(1,50
es decir,geomtricas
a incrementos
variable
les corresponde
un mismo

relativo
la variable respuesta.
incrementos
(c = 1,50)un
en el nivel de
es
decir,en
a incrementos
relativosPor
en ejemplo,
la variable
explicativadel
les50%
corresponde
0,51 dado por
0 , 51
IC
al 95% para
la razn
medias
geomtricas
viene

1)
=
100(1,23

1)
=
23%
en la media
a-tocoferol
se asocian
condeun
aumento
del
100(1,50
y G (cx) 0,023(cx)
0,51
=
=
c
;
geomtrica
de b-caroteno.
para
medias geomtricas
51 Porde
mismo
cambio
relativo enElla
variable
ejemplo,
incrementosviene
del dado por
yIC
( xal) 95%0respuesta.
,023xla0,razn
b t

188

G
SE ( b )

c 1 698; 0 , 975 1 = 1,500,511,960, 039 = (1,19; 1,27),


50% (c = 1,50) en el nivel de -tocoferol se asocian con un aumento del
de decir,
dondeaseincrementos
concluye con
una confianza
del 95%
que la media
geomtrica un
de b-caroteno
es
relativos
en la variable
explicativa
les corresponde
0,51
aumenta
ycon
un 27%
por
cadaen
incremento
del
engeomtrica
el -caroteno.
nivel de de
a-tocoferol.
de
donde entre
se concluye
una
confianza
della95%
que
la 50%
media
- 1)un=19
100(1,23
- 1)
= 23%
media
geomtrica
de
El
100(1,50
mismo cambio relativo en la variable respuesta. Por ejemplo, incrementos del
Pastor-Barriuso
R. aumenta
caroteno
entre un
y un geomtricas
27% por cada
incremento
IC al 95%
para la razn
de 19
medias
viene
dado pordel 50% en el nivel
50% (c = 1,50) en el nivel de -tocoferol se asocian con un aumento del
de -tocoferol.
b t
SE ( b )
511, 96 0 , 039
c 1 698; 0 , 975 - 1)1 == 123%
,500,en
= (1,19;
1,27),de -caroteno. El
la media
geomtrica
100(1,500,51 - 1) = 100(1,23

Regresin lineal simple

La utilizacin de una transformacin logartmica para el a-tocoferol ha producido un


doble efecto beneficioso en el ajuste del modelo. Por un lado, aunque persisten las
observaciones con alto leverage (debidas, en este caso, a valores muy bajos del a-tocoferol),
su influencia es ahora sensiblemente menor, como indica el tamao de los crculos de la
Figura 10.18(a). Por otro lado, la relacin subyacente entre el a-tocoferol y el b-caroteno
parece responder mejor al modelo potencial de la Figura 10.17(b), obtenido mediante
transformaciones logartmicas de ambas variables, que al modelo exponencial de la
Figura 10.12(b), resultante de transformar nicamente el b-caroteno. Esta apreciacin se
fundamenta en que la curvatura de los residuos de la regresin lineal del logaritmo del
b-caroteno sobre el a-tocoferol (panel b de la Figura 10.13) desaparece
transformar
residuosalsean
comparables a distintos nive
tambin el a-tocoferol (panel b de la Figura 10.18).

realizar el diagnstico del modelo mediant

1,6

0,5
-caroteno (g/g)

log(-caroteno)

0
-1
-2

ei

ri =
1,2

s 1

1 (x

n (n

0,8

que se obtienen de dividir los residuos ei p

0,4

trmino hi se conoce como el leverage de


-3

0
2,5

estandarizada de la distancia entre cada va


0

100

200

300

400

que(g/g)
se tratar en el apartado siguiente. No
-tocoferol

log(-tocoferol)

(a)

(b)
no hay valores muy extremos de la variabl
Figura 10.17 Recta de regresin del logaritmo del -caroteno sobre el logaritmo del -tocoferol en el grupo
residuos
control del estudio EURAMIC (a) y tendencia potencial resultante en la escala originalleverage),
de ambasambos
variables
(b). ei y ri se compo

En determinados casos el grfico de los


3

rk

2
1

ri

Figura 10.17

0,5

predichos y i no permite apreciar claramen

de linealidad y homogeneidad de la varian

-0,5

en tales circunstancias, es aconsejable divi

-2 ordenados
-1,5
-1 valores
-0,5 crecientes de y (po
por
i

(b)

-1

1,5

-2

sk

-3

rk =

y la varianza

0,5
0,0015

0,003

0,005

0,01

hi

0,02

0,04

-2

-1,5

-1

-0,5

s k2 =

y k

(a)

( c)
residuos lineal
en cada
Figura 10.18 Grfico de los residuos estandarizados ri frente a los leverages hi dedelalos
regresin
deluno de los grupos.
logaritmo del -caroteno sobre el logaritmo del -tocoferol en el grupo control del estudio EURAMIC (a),
Figura 10.18
donde el rea de los crculos es proporcional a la distancia de Cook Di, y grficoresiduos
de las medias
y a los valores pre
rk (b)
frente
medios
desviaciones tpicas sk (c) de los residuos estandarizados por deciles de los valores predichos.

indicar falta de linealidad en la relacin,


Pastor-Barriuso R.

189

Correlacin y regresin lineal simple

en los restantes n2 = n - n1 sujetos del segundo grupo. Bajo esta codificacin, la


10.3.7 Variable explicativa dicotmica
Y sobre la
la variable
interpretacin
regresin
lineal degrupo.
la variable
respuesta
n2 modelo
= n - n1 de
sujetos
del segundo
Bajo esta
codificacin,
en los restantesdel
Hasta el momento se han considerado nicamente modelos de regresin lineal con variables
explicativas
continuas.
No obstante,
las variables
explicativas
pueden
continuas
X esdel
particularmente
sencilla,
dadode
que
la estimacin
deser
laYtanto
pendiente
se como
indicadora
sobre
la variable
interpretacin
modelo
de regresin
lineal
la variable
respuesta
categricas ya que la regresin lineal no establece ninguna asuncin respecto a su distribucin.
En reduce
este apartado
revisa el ajuste sencilla,
e interpretacin
delamodelos
de regresin
lineal simple
con
a X esseparticularmente
dado que
estimacin
de la pendiente
se
indicadora
una nica variable explicativa dicotmica, que clasifica a los sujetos en dos grupos o categoras
segn
la presencia
de unadel
determinada
caracterstica.
El tratamientolade variables
no2n =ausencia
n - n1 sujetos
segundo grupo.
Bajo esta codificacin,
en
los
restantes
reduce
a
explicativas
politmicas
con
tres
o
ms
categoras
se
abordar
en
el Tema 11 ya que estas
(

)(

)
x
x
y
y
nesgo
el riesgo
de desarrollar
de desarrollar
un primer
un primer
infarto
infarto
agudo
agudo
de miocardio
en n1 en

i
i de miocardio
n
n
=
1
i
variables
requieren
mltiples
variables
indicadoras
para
distintas
Yysobre
la variable
interpretacin
modelo
de regresin
lineal
de
respuesta
b1 =del
nde
en los restantes
= segundo
( grupo.
= las esta
( y1 codificacin,
y ) =categoras.
y ilavariable
y )Bajo

n2 = nn - n1 sujetos del
1 y 2 la
n
n
n
2
1
=
i
1se2 introducen
2 modelos de regresin mediante
ss.valores
Los valores
obtenidos
obtenidos
fueron
fueron
0,89, explicativas
0,89,
1,58,
1,58,
0,79,
1,29,
1,29,
1,42,
0,84,
0,84,
(
)(
x i (x ix0,79,
yx i)
y ) 1,42,
Las
variables
dicotmicas
en los

n1
n
n
X
es
particularmente
sencilla,
dado
que
la
estimacin
deuna
laYpendiente
se
indicadora
=
1
i
sobre
la variable
modelo
deX,regresin
de
respuesta
i =1
de
las dos
categoras
unainterpretacin
nica variable
indicadora
que toma
distintos
b1 =del
= lineal
( y ilavalores
variable
( ycada
y ) = xi en

1 y ) = y1 y 2
n
653y mmol/l.
1,53 mmol/l.
La media
La
media
de
los
de
niveles
los
niveles
del
colesterol
del
colesterol
HDL
HDL
en
en
n
n
n
2
1
=
i
de la variable. Aunque la (eleccin
es arbitraria,
la codificacin ms frecuente
2
2
x i x ) de estos1 valores

a losXnessujetos
particularmente
sencilla,
dado
que
la
estimacin
de la pendiente
indicadora
=
1
en
pertenecientes
al
primer
grupo
y
0
en
los
restantes
n2 = n sen1 sujetos
es xreduce
i =1
yi la constante1 a
spantes
es es
del segundo grupo. Bajo esta codificacin, la interpretacin del modelo de regresin lineal de
reduce arespuestan Y sobre la variable indicadora X es particularmente sencilla, dado que la
la variable
y la constante
a ( x i se
x )(reduce
y y)
n
10
+ 1pendiente
1 10 0,89 +0estimacin
1,89
,58++1...
,58++1de
,...
53la
,53
b0 =i y ab1 x =n y n1 1 ( y1 y 2 ) n= y 2 ,
i =1
x
mmol/l.
mmol/l. =
= xi
= xi =
b1 = 1,223
n = n1,223
n( y i y ) = n ( y1 y ) = y1 y 2
0 i =110 i =1
10 10
n1 n 2 i =1
2 y )
(

)(
x
x
y

i ( xi b0x=i) y b1 x =n y n1 n1 ( y1 y 2 ) n=2 y 2 ,
i =1 i =1
=
y2 y
n( y i y ) = n ( y1 yen) =lay1primera
n medias muestrales de
donde y1 yb1y=2 son las
n1 n 2 i =1la variable respuesta
2
2
ca
senta
presenta
las siguientes
las siguientes
propiedades:
propiedades: ( x i x )
=
1
i
ysegunda
la constante
variablemuestrales
explicativa,
As,en
la la
constante
donde
y1categora
y y 2a sondelaslamedias
de respectivamente.
la variable respuesta
primera y
aslacin).
en (traslacin).
Si seysuma
Silase
suma
una
constante
una
constante
a
cada
a
uno
cada
de
uno
los
de
datos
los
datos
constante a
ysegunda
la constante
a de la variable
corresponde
simplemente
a la media
de la variable
respuesta enAs,
el segundo
grupo (xi =
nrespectivamente.
categora
explicativa,
la constante
1
=
y

b
x
=
y

(
y

y
)
=
y
,
,edia
la media
de la muestra
de la muestra
resultante
resultante
es igual
es igual
a la media
abla
media
inicial
inicial
ms
la
ms
la
1
1
2
2
0
n
x
= 1)elysegundo
el segundo
grupo
0)
y
la
pendiente
a
la
diferencia
de
medias
entre
el
primer
(
corresponde simplemente a la media de la variable
respuestai en
grupo
(xi =(xi
n1
donde
y
son
las
medias
muestrales
de
la
variable
respuesta
en
la
primera
y
segunda
=
c
,
x
entonces
+
c
,
entonces
y
=
x
y
+
=
c
x
.
Un
+
c
cambio
.
Un
cambio
de
origen
de
origen
que
que
ada;
i yi =sixiy+
i
i
b0 = y b1 x = y ( y1 y 2 ) = y 2 ,
1
2
n
categora
de
explicativa,
respectivamente.
As, ladado
constante
corresponde
donde
y1 lay variable
y 2 son
las
medias
muestrales
de
la variable
respuesta
primerasimplemente
y
=
el
error
estndar
la constante
= 1) yenellasegundo
grupo
( xi
0)0).
y laAsimismo,
pendiente
a la
diferencia
dedemedias
entre
elviene
primer
(xi por
=
0)
y
la
pendiente
a
la
diferencia
de
a
la
media
de
la
variable
respuesta
en
el
segundo
grupo
(x
ncia
recuencia
es el centrado
es el centrado
de la variable,
de la variable,
que consiste
que consiste
en restar
en restar
a
a
i
=variable
1) y el
segundo de
grupo
(xi = 0).respuesta
Asimismo,
error estndar
de la
medias
entre
(xlai medias
segunda
explicativa,
respectivamente.
As,en
la el
constante
donde
y1categora
yel yprimer
las
muestrales
la variable
la
primera
y
= 0). Asimismo,
elde
error
estndar
de la constante
viene dado
por
2 son
2
n
1
1
x
s
constante
viene
dado
por
1
astra
muestra
su media.
su media.
La media
La media
de unadevariable
una variable
ser, por = s
SEcentrada
(b0) centrada
= s ser,+ por
+
=
2
n
n n 2 n enAs,
(n la
) s xrespectivamente.
1variable
corresponde
simplemente
a
la
media
de
respuesta
eln 2segundo
grupo (xi =
segunda categora de la variable explicativa,
la constante
2
1
1 n1
x
s
SE(b0 ) = s
+
=s
+
=
2
x
=
1)
el segundo
grupo
0)
y
la
pendiente
a
la
diferencia
de
medias
entre
el
primer
(
n de
n n 2 n i en elny2segundo
(n la
)s x
1variable
corresponde simplemente a la media
respuesta
grupo
(xi =(xi
y
el
error
estndar
de
la
pendiente
por
ala
nidades).
(unidades).
Si se multiplica
Si se multiplica
cada uno
cadade
uno
losde
datos
los datos
de unade una
y el=error
estndar de
la
pendiente
por la constante viene dado por
0).
Asimismo,
el
error
estndar
0) y la pendiente a la diferencia dedemedias
entre el primer (xi = 1) y el segundo grupo (xi
estndar
de la
stante,
a constante,
la media
la media
deylaelmuestra
deerror
la muestra
resultante
resultante
espendiente
igual
es igual
a la por
media
as la media n
1
1
SEestndar
(b1 ) = de la constante
=s
= s dado+por ,
= 0). Asimismo, el error
viene
2
n1 n 2 1 nn11 n 2s
cxi, entonces
y = cySE
x .=(bc0)x =. s s1x +n 1x
onstante
te utilizada;
utilizada;
si yi =sicxyi, =entonces
=
s (n 1) s 2 ns n + n 1n = 1
n que
n,2
b1)es= ms
sx
= s de2 las
+ varianzas
donde la varianza residualSE
s2 (no
la=2combinacin
s12 y s22 de la variable
n
n
n
n
sdatos
n de
1x de 1 2 1
1x los
2 losde
2
2
1
2s
de
neo
origen
de origen
y escala.
yrespuesta
escala.
Si se multiplica
Si
multiplica
cada
uno
cada
ense
ambos
grupos,
suno
ms
que
la combinacin
donde
la
varianza
residual
s es
SE
(b0)de
= no
+ datos
=s
+ 1 de
= las varianzas s1 y s 2 de
2
n (n 1) s x
n n2 n
n2
n
y el
error
estndar
de1la
pendiente
por
2
2 suma
rconstante
una constante
y al resultado
y al
resultado
se
le
suma
se
le
otra
constante,
otra
constante,
la
media
la
media
s = en ambos
b1 xi )
(2yi esb0 ms
la
variable
respuesta
que la combinacin de las varianzas s12 y s 22 de
donde
la varianza
residual
n 2 i =1 s nogrupos,
n1 la
n2 ms la
error
de
laprimera
pendiente
por
esultante
nte es igual
es igual
a la media
aylaelmedia
inicialestndar
inicial
por lapor
primera
constante,
constante,
ms lan
s
1
1
2
+ ( y j = sy 2 ) 2
yambos
(SE
la variable respuesta
en
b1y) 1=) grupos,
,
=s

i (
2+
2
(
n
1
)
s
(
n

+
n
n
n
n
1 1
i =1
j =n
s
1
1
2 1) s 2
1
2
1
2
x
.
=
yi =sic1yxi i=+cc12x,i entonces
+ c2, entonces
y = cy1 x=+=c1cx2. + c2.
inte;
s
n
1 n 12
n

2
SE(b1) =
,
=s
=s
+
n1 n 2
n1 n 2
sx n 1
2
donde la varianza residual s no es ms que la combinacin de las varianzas s12 y s 22 de52
nsformar
ra transformar
los valores
los valores
del colesterol
del colesterol
HDL HDL
de mmol/l
de mmol/l
a mg/dl
a mg/dl
se se
190 Pastor-Barriuso
R. resultados se desprende
De estos
que
la
pendiente b1 y su error estndar SE(b1)
la
variable
respuesta
en ambos
s2 nogrupos,
es ms que la combinacin de las varianzas s12 y s 22 de52
donde
la varianza
residual
elorfactor
de conversin
de conversin
38,8. 38,8.
As, utilizando
As, utilizando
la propiedad
la propiedad
del del
coinciden exactamente con la estimacin puntual y el error estndar de diferencia de
la variable
ense
ambos
grupos,
la,
media
la media
del colesterol
del colesterol
HDL HDL
en respuesta
mg/dl
en mg/dl
se calculara
calculara

comparacin de medias mediante el test de la t de Student para muestras


Referencias

independientes con igual varianza.

DeEjemplo
estos resultados
se comparar
desprendelos
queniveles
la pendiente
su error estndar
SE(b
10.18 Para
mediosbde
HDL entre
los1) coinciden
1 ycolesterol
exactamente con la estimacin puntual y el error estndar de la diferencia de medias en
distribuciones
con igual
6.3.1).dePuede
concluirse,sepor
tanto, que las
casos de infarto
de varianza
miocardio(vase
y los Apartado
controles libres
la enfermedad,
podra
inferencias relativas a la pendiente de un modelo de regresin lineal con una nica variable
explicativa
equivalentes
a la comparacin
mediante
ajustardicotmica
un modeloson
de algebraicamente
regresin lineal simple
del colesterol
HDL sobredelamedias
variable
el test de la t de Student para muestras independientes con igual varianza.
indicadora del estatus caso/control (xi = 1 en los casos y 0 en los controles) en la
Ejemplo 10.18 Para comparar los niveles medios de colesterol HDL entre los casos de
= 462
casosen
delos
infarto
n2 =libres
539 controles
del ajustar
estudio
muestra
completa
infarto
de
miocardio
yn1los
controles
libres
de layenfermedad,
se enfermedad,
podra
un modelo
valor esperado
delde
colesterol
HDL
controles
de la
cuyo
de regresin lineal simple del colesterol HDL sobre la variable indicadora del estatus
EURAMIC
delcasos
colesterol
La recta de
1 en los
y 0 enHDL.
los controles)
en regresin
la muestraestimada
completaentre
de n1 = 462
caso/control
(xi =valores
IC al 95% escon
casos de infarto y n2 = 539 controles del estudio EURAMIC con valores del colesterol
valor
esperado
HDL
enentre
los controles
libres
de lay enfermedad,
cuyo
el
colesterol
HDL
y colesterol
la variable
indicadora
del
estatus
caso/control
es
HDL.
La
recta
dedel
regresin
estimada
el colesterol
HDL
la variable
indicadora
del
b0 t999;0,975SE(b0) = 1,09 1,960,012 = (1,06; 1,11).
estatus caso/control es
IC al 95% es
y = 1,09 0,11x,
Por otra parte, la pendiente b1 = -0,11 mmol/l determina el cambio en el nivel
b0 tpica
t999;0,975
SE(b0) del
= 1,09
1,960,012
= (1,06;
1,11).
con una desviacin
residual
colesterol
HDL de
s = 0,27
mmol/l que, debido a la
s = 0,27
con
unadedesviacin
tpica
del
colesterol
de
hiptesis
de
homogeneidad
la varianza,
se asume
casos que,
y controles. El
medio
colesterol
HDL residual
pordecada
incremento
deHDL
una constante
unidad
en en
lammol/l
variable
valor
esperado
del
colesterol
HDL
en
los
controles
libres
de
la
enfermedad,
)
=
0,012
y
de
la
pendiente
SE(b
= 0,017. La
error
estndar
de
la
constante
es
SE(b
0
1)cuyo
Por otra parte, la pendiente b1 = -0,11 mmol/l
determina el cambio en el nivel
debido
a lab0hiptesis
de homogeneidad
de la
varianza,
se asume
constante
1,09equivale
mmol/l
estima
la media
del
colesterol
HDL
constante
1) y en con valor 0
indicadora,
lo= que
a la diferencia
de
medias
entre
casosen
(xlos
i = sujetos
ICmedio
al variable
95%
es
de
la
indicadora;
esto
es,
el
valor
esperado
del
colesterol
HDL
en los controles
de colesterol HDL por cada incremento de una unidad en la variable
SE(b0) subyacente
= 0,012 y deviene
la
casos
ydecontroles.
estndar
constantede
esmedias
libres
la(xenfermedad,
cuyo
al de
95%
es
IC al
95%ICpara
laladiferencia
controles
i = 0). El error
indicadora, lob0que
equivale
de medias entre
casos
(xi = 1) y
t999;0,975
SEa(bla0 )diferencia
= 1,09 1,960,012
= (1,06;
1,11).
pendiente
dado por SE(b1) = 0,017. La constante b0 = 1,09 mmol/l estima la media del
Por
otra parte,
pendiente
b1 = 0,11
determina
el cambio
en elviene
nivel medio de
El IC al 95%
para lammol/l
diferencia
de medias
subyacente
controles
(xi =la0).
Por
otra
parte,
la
pendiente
b
=
-0,11
mmol/l
determina
el
cambio
en
el
nivel
1 con valorde
HDL en
porloscada
incremento
unala unidad
la variableesto
indicadora,
lo que
colesterol HDL
sujetos
0 de
variableenindicadora;
es, el
b1 t999;0,975SE(b1) = -0,11 1,960,017 = (-0,14; -0,08)
=
1)
y
controles
(x
=
0).
El
IC
al
95%
equivale
a
la
diferencia
de
medias
entre
casos
(x
dado por
i
i
medio
de
colesterol
HDL
por
cada
incremento
de
una
unidad
en
la
variable
para la diferencia de medias subyacente viene dado por
53
H
:

=
0
mediante
y el contraste bilateral de la hiptesis
de
igualdad
de
medias
1
= 0,11 1,960,017
( 0,14;
0 0,08)
999;0,975 SEa(b
1 tequivale
indicadora, lobque
la1 )diferencia
de medias =entre
casos
(xi = 1) y

estadstico
yel el
contraste bilateral de la hiptesis de igualdad de medias H0: 1 = 0 mediante el
El IC de
al 95%
para la de
diferencia
viene
controles
(xi = 0).
H0: 1 = 0 mediante
y
el contraste
bilateral
la hiptesis
igualdadde
demedias
mediassubyacente
estadstico
dado
por
el estadstico

t=

b1
0,11
=
= 6,35
SE (b1 ) 0,017

b1 t999;0,975
SE(b1) 6,35)
= b-0,11
1,960,017
(-0,14;As,
-0,08)
0,11
resulta en un valor
P = 2P(t
2F(6,35)
<= 0,001.
los casos de infarto de
1
999
=
t=
= -6,35
miocardio
presentan
colesterol
significativamente
inferior
= 2nivel
P(t999medio
SE
-6,35)
2(-6,35)
< 0,001.
As, los casos
de que los
resulta en un
valor Pun
(bde
,017 HDL
1) 0
sujetos
libres
de
la
enfermedad
(P
<
0,001),
con
una
diferencia
estimada
en
0,11 mmol/l
y el contraste bilateral de la hiptesis de igualdad de medias H0: 1 = 0 mediante
(IC
al 95%
0,08-0,14presentan
mmol/l). un
Notar,
ltimo,
que estos HDL
resultados son exactamente
infarto
de miocardio
nivelpor
medio
de colesterol
2P(t999 -6,35)
de2(-6,35)
< 0,001.
As,muestras
los casosindependientes
de
resultaaen
unobtenidos
valor P =mediante
iguales
los
el
test
la
t
de
Student
para
el estadstico
con
igual varianza (Ejemplos
6.8). libres de la enfermedad (P < 0,001),
significativamente
inferior que6.7
losy sujetos
infarto de miocardio presentan un nivel medio de colesterol HDL
b1
0,11
con una diferencia estimadat =en 0,11
mmol/l
(IC=al-6,35
95% 0,080,14 mmol/l). Notar,
= libres
significativamente inferior queSE
los(bsujetos
de la enfermedad (P < 0,001),
)
0
,
017
10.4REFERENCIAS
1
por
ltimo,
que
estos
resultados
son
exactamente
a los obtenidos
mediante
con una diferencia
estimada
en 0,11
(IC aliguales
95% 0,080,14
mmol/l).
Notar, Fourth
1. Armitage
P, Berry G,
Matthews
JNS.mmol/l
Statistical
Methods
in Medical
Research,
P
=
2
P
(
t

-6,35)

2(-6,35)
<
0,001.
As,
los
casos
de
resulta
en
un
valor
999
Edition.
Blackwell
2002.
de Student
paraScience,
muestras
independientes
cona los
igual
varianzamediante
elpor
testltimo,
deOxford:
la t que
estos resultados
son exactamente
iguales
obtenidos
2. Bickel
PJ,miocardio
Doksum presentan
KA. Mathematical
Statistics:
Basic HDL
Ideas and Selected Topics.
infarto de
un nivel medio
de colesterol
Englewood
Cliffs,
NJ:
Prentice
Hall,
1977.
(Ejemplos
6.7
y
6.8).
el test de la t de Student para muestras independientes con igual varianza
significativamente inferior que los sujetos libres de la enfermedad (P < 0,001),
Pastor-Barriuso R.
(Ejemplos 6.7 y 6.8).
con una diferencia estimada en 0,11 mmol/l (IC al 95% 0,080,14 mmol/l). Notar,
10.4 REFERENCIAS

191

Correlacin y regresin lineal simple

3. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury
Press, 2002.
4. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.
5. Conover WJ. Practical Nonparametric Statistics, Third Edition. New York: John Wiley
& Sons, 1999.
6. Draper NR, Smith H. Applied Regression Analysis, Third Edition. New York: John Wiley
& Sons, 1998.
7. Kleinbaum DG, Kupper LL, Nizam A, Muller KE. Applied Regression Analysis and
Other Multivariable Methods, Fourth Edition. Belmont, CA: Duxbury Press, 2008.
8. Pea D. Estadstica: Modelos y Mtodos, Volumen 2, Modelos Lineales y Series
Temporales. Madrid: Alianza Editorial, 1987.
9. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,
2006.
10. Seber GAF, Lee AJ. Linear Regression Analysis, Second Edition. New York: John Wiley
& Sons, 2003.
11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
12. Stuart A, Ord JK, Arnold S. Kendalls Advanced Theory of Statistics, Volume 2A, Classical
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.
13. Weisberg S. Applied Linear Regression, Third Edition. New York: John Wiley & Sons,
2005.

192

Pastor-Barriuso R.

TEMA 11
REGRESIN LINEAL MLTIPLE
11.1INTRODUCCIN
En el Tema 10 se present la regresin lineal simple como una herramienta para analizar la
relacin lineal entre una variable respuesta continua y una nica variable explicativa. En la
prctica, sin embargo, suele contarse con ms de una variable explicativa y el inters se centra
en estudiar la relacin de cada una de las variables explicativas con la variable respuesta,
teniendo en cuenta a su vez las restantes variables explicativas. De este tipo de problemas se
ocupa la regresin lineal mltiple.
En presencia de mltiples variables explicativas asociadas con la variable respuesta, la
utilizacin de distintos modelos de regresin lineal simple para cada variable explicativa da
lugar a estimaciones imprecisas y a menudo sesgadas de las asociaciones subyacentes con la
variable respuesta. Para ilustrar este hecho, la Figura 11.1 presenta los diagramas de dispersin
entre una variable respuesta Y y una variable explicativa X1, diferenciando mediante puntos y
crculos los valores de otra variable explicativa dicotmica X2. En la Figura 11.1(a), la variable
explicativa X2 est asociada con la variable respuesta Y (los valores de Y tienden a ser mayores
en uno que en otro grupo de X2), pero no con la variable explicativa X1 (los valores de X1 se
distribuyen por igual en ambas categoras de X2). Si se ignora la variable X2 y se ajusta un
modelo de regresin lineal simple entre X1 e Y a toda la nube de puntos (lnea gruesa), se
obtiene la misma pendiente que al ajustar distintas rectas para cada valor de X2 (lneas finas)
y, en consecuencia, la asociacin entre X1 e Y no estar confundida por X2. No obstante, la
varianza residual alrededor de la recta de regresin es mayor al ignorar la variable explicativa
X2, lo que ocasionar un mayor error estndar en la estimacin de la pendiente. Por el contrario,
en la Figura 11.1(b), la variable explicativa X2 est asociada de forma independiente con la
variable respuesta Y y con la variable explicativa X1 (para valores fijos de X1 o Y, los valores
de la otra variable difieren segn categoras de X2). La pendiente de la recta de regresin
simple entre X1 e Y (lnea gruesa) sobreestima el efecto independiente de X1 sobre Y cuando X2
permanece constante (lneas finas). Esto es debido a que las variables explicativas X1 y X2
estn correlacionadas y la regresin lineal simple estimar los efectos confundidos de ambas
variables al no poder discernir entre el efecto independiente de X1 y el efecto inducido por su
asociacin con X2.
La principal conclusin del ejemplo anterior es que, si las variables explicativas estn
relacionadas entre s, lo que sucede con cierta frecuencia, la regresin lineal simple puede
proporcionar estimaciones sesgadas de las asociaciones subyacentes de cada variable
explicativa con la variable respuesta. Por ello, los efectos de distintas variables explicativas
deben estudiarse conjuntamente mediante modelos de regresin lineal mltiple. Estos modelos
son una extensin de la regresin lineal simple a la presencia de dos o ms variables explicativas,
que pueden ser tanto continuas como categricas. Como veremos a continuacin, la regresin
lineal mltiple permite estimar el efecto independiente de cada variable explicativa,
manteniendo constantes las restantes variables incluidas en el modelo. Su utilidad en los
anlisis epidemiolgicos es, por tanto, directa ya que facilita estimaciones ajustadas del efecto
de cada variable explicativa.
Pastor-Barriuso R.

193

11.2 lineal
ESTRUCTURA
Regresin
mltiple

DE LA REGRESIN LINEAL MLTIPLE

El modelo de regresin lineal mltiple asume que la media de la variable respuesta Y


puede expresarse como una combinacin lineal de las variables explicativas X1, ..., Xp;
es decir, para valores fijos x1, ..., xp de estas variables explicativas, el valor esperado de
y
la variable
respuesta es
p
11.2 ESTRUCTURA DE LA REGRESIN LINEAL MLTIPLE
E(Y|x1 , ..., xp) = 0 + 1 x1 + + p xp = 0 + j x j .
j =1

El modelo de regresin lineal mltiple asume que la media de la variable respuesta Y


x1

x1

La
constante
0 corresponde
al valor esperado de Y cuando todas las(b)variablesX , ..., X ;
(a) combinacin lineal de las variables explicativas
puede
expresarse
como una
1
p
11.2 ESTRUCTURA DE LA REGRESIN LINEAL MLTIPLE
Figura 11.1 Diagramas de dispersin de la variable respuesta Y frente a la variable explicativa X1 para
+ estas
+ variables
+ p0dicotmica
= 0; mientras
cada
explicativas
son
0, yE(Y|0,
0)otra
= xpvariable
0de
10 explicativa
es decir,
para
valores
fijos,
xde
explicativas,
elque
valor
esperado
distintos
valores
(puntos
crculos)
X asociada
con
Y pero no de
con X
1, ...,
2

(panel
a) y asociada
tanto con Ylineal
comomltiple
con X1 (panel
b). Las
gruesas
rectas de Y
regresin
El modelo
de regresin
asume
quelneas
la media
derepresentan
la variablelas
respuesta
simple
entre X1 ede
Y ignorando
lavariable
X
y
las
lneas
finas
corresponden
a
las
rectas
de
regresin
2
coeficiente
regresin
determina
el
cambio
esperado
en
Y
por
cada
incremento
de para
la variable respuesta es j
cada valor de X2.

puede expresarse como una combinacin lineal de las variables explicativas X1, ..., Figura
Xp; 11.1
una unidad en Xj, manteniendo constantes el resto de variables explicativas,
p
11.2 ESTRUCTURA DE LA REGRESIN LINEAL MLTIPLE
es decir, para valores
fijos
x1x, p...,
valor
esperado de
E(Y|x
) =xp 0de
+ estas
1 x1 +variables
+ p xexplicativas,
1 , ...,
p = 0 + elj x
j .
j =1
El modelo de regresin
la 1media
E(Y|x1 , ...,lineal
xj-1, xjmltiple
+ 1, xj+1,asume
..., xp ) -que
E(Y|x
, ..., xp )de la variable respuesta Y puede
la variable
respuesta
es
expresarse
como
una combinacin
lineal de las variables explicativas X1, ..., Xp; es decir, para
respuesta es
valores
fijos x1, ...,0xpcorresponde
=deestas
x1 +al
+explicativas,
j-1
xj-1 + j(x
1)
+ esperado
j+1todas
xj+1 +de
lavariables
+variable
p xp
0 + 1variables
j +
La constante
valor
esperado
deel
Yvalor
cuando
las
p

E(Y|x
...,x1 xp)1 =+
+ 1pxx1p )+= j+
.
j x j que
(10, +
explicativas son 0,- E(Y|0,
, 0) =0 +0 +
10 + . + pxpp0==00;+mientras
cada
j =1

194

La As,
constante
0decorresponde
valor
esperado
Yesperado
cuando en
todas
lascada
variables
explicativas
coeficiente
regresin
alj determina
el cambio
Y por
de
los coeficientes
de regresin
asociados
a de
cada
variable
explicativa
noincremento
pueden
estar
son0,
E(Y|0,
,
0)
=

0
+

0
=

;
mientras
que
cada
coeficiente
de
regresin
j
La constante 0 corresponde
al valor pesperado
de Y cuando todas las variables
0
1
0
determina
el cambio
esperado
en Y
porexplicativas,
cadaelincremento
destas
unapermanecen
unidad en Xconstantes.
j, manteniendo
una unidad
en
constantes
restoya
deque
variables
explicativas,
j, manteniendo
confundidos
porXlas
dems variables
constantes
el
resto
de
variables
explicativas,
explicativas son 0, E(Y|0, , 0) = 0 + 10 + + p0 = 0; mientras que cada
En este sentido,
y 1a, diferencia
simple,
de regresin lineal
E(Y|x
..., xj 1, xj +de1,laxjregresin
E(Y|x1 ,los
..., coeficientes
xp )
+1, ..., xp )
coeficiente de regresin j determina el cambio esperado en Y por cada incremento de
= 0 + 1 x1 + + j 1 xj 1 + j(xj + 1) + j+1 xj+1 + + p xp
mltiple facilitan el efecto
independiente de cada variable explicativa sobre la variable

+ + p xpel) =resto
j. de variables explicativas,
una unidad en Xj, manteniendo
0
1 x1 constantes
respuesta ajustando o controlando por posibles diferencias en la distribucin de las
As, los coeficientes de regresin asociados a cada variable explicativa no pueden estar
E(Y|x
, ..., xj-1variables
, xj + 1, xexplicativas,
xp) permanecen constantes. En este
j+1, ..., xp) - E(Y|x
1, ...,
confundidos por
las 1dems
ya que
stas
restantes variables explicativas incluidas en el modelo.
sentido, y a diferencia de la regresin simple, los coeficientes de regresin lineal mltiple
As, los coeficientes de regresin asociados a cada variable explicativa no pueden estar
= 0 + 1 x1 +
j-1xj-1variable
+ j(xj +explicativa
1) + j+1xj+1sobre
+ +lavariable
facilitan el efecto independiente
de+ cada
respuesta
p xp
Para completar la estructura general de la regresin lineal mltiple, se asume que los
ajustando o controlando por posibles diferencias en la distribucin de las restantes variables
confundidos por las dems variables explicativas, ya que stas permanecen constantes.
explicativas incluidas-en
(el+modelo.
1x1 + respuesta
+ p x p ) = j.
valores individuales de0 la variable
se distribuyen normalmente alrededor del
Para
completar
general
la regresin
lineal
se asume
que loslineal
valores
En este
sentido,layestructura
a diferencia
de lade
regresin
simple,
losmltiple,
coeficientes
de regresin
individuales
de la definido
variable
respuesta
se distribuyen
alrededornodel
valor estar
esperado
valorlos
esperado
por
la ecuacin
de regresin,
As,
coeficientes
de regresin
asociados
a cadanormalmente
variable explicativa
pueden
mltiple
el efecto
independiente de cada variable explicativa sobre la variable
definido
por facilitan
la ecuacin
de regresin,
confundidos por las dems variables explicativas, ya que stas permanecen
constantes.
Y|x1 , ..., xp ~ N( 0 + 1 x1 + + p xp , 2),
ajustando o controlando por posibles diferencias en la distribucin de las
orespuesta
equivalentemente
En
este
sentido,
o equivalentementey a diferencia de la regresin simple, los coeficientes de regresin lineal3
restantes variables explicativas incluidas en el modelo.
Y = 0 + 1 xde
1 + + p xp + ,
mltiple facilitan el efecto independiente
cada variable explicativa sobre la variable
Para completar la estructura general de la regresin lineal mltiple, se asume que los
respuesta
ajustando
o controlando
por posibles
diferencias
la distribucin
de las
donde el error
aleatorio
en la variable
respuesta
sigue unaendistribucin
normal
con
Pastor-Barriuso
R.
valores individuales de la variable respuesta se distribuyen normalmente alrededor del
restantes
incluidas
en de
el modelo.
media 0 yvariables
varianzaexplicativas
2 para cualquier
valor
las variables explicativas. De esta
valor esperado definido por la ecuacin de regresin,

Estructura de la regresin lineal mltiple

donde el error aleatorio en la variable respuesta sigue una distribucin normal con media 0 y
varianza 2 para cualquier valor de las variables explicativas. De esta especificacin del modelo
de regresin lineal mltiple, se desprenden las siguientes asunciones:
yy Linealidad: El valor esperado de la variable respuesta Y cambia linealmente con cada
variable explicativa Xj, de tal forma que para valores fijos de las dems variables
explicativas, cambios de magnitud constante a distintos niveles de Xj se asocian con un
mismo cambio en la media de Y.
yy Aditividad: El efecto conjunto de varias variables explicativas sobre la variable respuesta
es la suma de sus efectos independientes.
yy Homogeneidad de la varianza: La varianza de la variable respuesta permanece constante
para cualquier valor de las variables explicativas.
yy Normalidad: Dados unos valores fijos de las variables explicativas, la variable respuesta
se distribuye de forma normal.
En el caso de dos variables explicativas, estas asunciones pueden representarse mediante el
grfico tridimensional de la Figura 11.2. Debido a las hiptesis de linealidad y aditividad, los
valores esperados de Y para cualquier combinacin de X1 y X2 se sitan en el plano definido por
la ecuacin de regresin 0 + 1x1 + 2x2. Asimismo, por las asunciones de homogeneidad de la
varianza y normalidad, los valores individuales de Y para cualquier combinacin de X1 y X2 se
distribuyen de forma normal y con la misma varianza alrededor de dicho plano de regresin.
Las hiptesis de linealidad y homogeneidad de la varianza se evaluarn utilizando procedimientos
de diagnstico grfico similares a los empleados en regresin lineal simple. Las desviaciones
de la asuncin de aditividad se explorarn, por su parte, mediante la inclusin de trminos de
interaccin entre las variables explicativas.
Plano de regresin:
E(Y|x1, x2) = 0 + 1x1 + 2x2

0 + 1xj1 + 2xj2
0 + 1xi1 + 2xi2

xi1
xj2

xj1
X1

xi2
X2

Figura 11.2 Asunciones subyacentes al modelo de regresin lineal mltiple con dos variables explicativas.

Pastor-Barriuso R.

195

individuales sobre
la variable
respuesta explicativas:
seran indiscernibles.
Independencia
lineal
de las variables
Ninguna variable explicativa

Regresin lineal mltiple

es una combinacin lineal exacta de las dems ya que, en tal caso, sus efectos
Ejemplo 11.1 Supongamos que un modelo de regresin lineal mltiple incluye
individuales
sobre
la variable
respuesta seran
indiscernibles.
A estas
anlogas
a las
en regresin
lineal
se aaden
la presin
arterialdos nuevas
comoasunciones,
variables explicativas
la utilizadas
presin arterial
sistlica
X1 ysimple,
condiciones necesarias para poder estimar la ecuacin de regresin:
diastlica11.1
X2, Supongamos
yy Independencia
lineal de lasque
variables
explicativas:
Ninguna
Ejemplo
un modelo
de regresin
lineal variable
mltipleexplicativa
incluye es una
combinacin lineal exacta de las dems ya que, en tal caso, sus efectos individuales sobre
lacomo
variable
respuesta
seran indiscernibles.
variables
explicativas
laY presin
sistlica X1 y la presin arterial
= 0 + arterial
1 x1 + 2 x2 + .

Ejemplo 11.1
diastlica
X2, Supongamos que un modelo de regresin lineal mltiple incluye como
Si
se
aade
adems la la
presin
delarterial
pulso,sistlica
definidaXcomo
la diferencia entre la
variables explicativas
presin
1 y la presin arterial diastlica X2,
.
Y = 0 +X3 1=x1X+1 - 2Xx22, +elmodelo
resultante puede
presin arterial sistlica y diastlica
Si se aade adems la presin del pulso, definida como la diferencia entre la presin
reescribirse
como
Si
se aade
adems
la presinX3del
como
la diferencia
la
arterial
sistlica
y diastlica
= Xpulso,
el modelo
resultante
puede entre
reescribirse
como
1 X2,definida
resultante puede
presin arterial sistlica
y diastlica
X3=2 xX2 1+- X32x,3el+ modelo
Y=
0 + 1 x1 +

reescribirse como

= 0 + 1 x1 + 2 x2 + 3 (x1 x2 ) +
= 0 + ( 1 + 3 )x1 + ( 2 3 )x2 + ,

Y =equivalente
0 + 1x1 +almodelo
x3 + con 1 = 1 + 3 y 2 = 2 3.
que es algebraicamente
2x2 + 3anterior
Existen, por tanto, infinitas combinaciones de los parmetros 1, 2 y 3 que dan lugar a
la misma ecuacin de regresin
valor
= 0 + (para
2x2 + 3(x
) +3, basta tomar 1 = 1 3 y 2
1x1 + cualquier
1 - x2de
que es algebraicamente equivalente
al modelo
anterior
con = + y 2 = 2
la presin
= 2 + 3 para obtener los mismos coeficientes de regresin 11 y 21). As,3 como
del pulso es una combinacin
sistlica y diastlica, no
= 0 +lineal
(1 +exacta
3)x1 +de(la2 presin
- 3)x2 +arterial
,
por tanto,
infinitas
combinaciones
de los
parmetros
1, una
- posible
3. Existen,
2 y de
3 que
es
determinar
unvocamente
los efectos independientes
de cada
estas tres
variables explicativas.
que
algebraicamente
equivalente
al modelo
anterior
con valor
y 2 = 2
dan es
lugar
a la misma ecuacin
de regresin
(para
cualquier
1 = de
1 +33, basta
yy El nmero de observaciones n debe ser superior o igual al nmero de coeficientes p + 1 de
tanto, infinitas
combinaciones
de los
parmetros
1, de
2 py =
32que
3. Existen,
la- ecuacin
depor
regresin.
Este requerimiento
resulta
obvio
en el caso
variables
explicativas (vase Figura 11.2), ya que para determinar el plano de regresin se necesitan
5
lugarna=la3misma
de regresin
(para cualquier valor de 3, basta
aldan
menos
puntosecuacin
u observaciones
no alineadas.
Cabe destacar que estas dos condiciones son requerimientos tericos mnimos para estimar
la ecuacin de regresin. En la prctica, sin embargo, el nmero de observaciones ha de ser muy
superior al nmero de coeficientes de regresin para poder obtener estimaciones precisas
5 de
estos coeficientes y no incurrir en problemas de sobreajuste (esto es, modelar el error aleatorio
en lugar de la relacin subyacente). Un criterio habitual es no incluir ms variables explicativas
que el nmero de observaciones dividido por 10. Asimismo, aunque las variables explicativas
no presenten una correlacin lineal perfecta, es importante evaluar su grado de colinealidad. Si
las variables explicativas son muy dependientes entre s, resulta muy difcil separar sus efectos
e identificar la contribucin individual de cada una de ellas, lo que provocar estimaciones
inestables de los coeficientes de regresin. Este problema se conoce como multicolinealidad y
se tratar ms adelante en el apartado de diagnstico del modelo de regresin lineal mltiple.
11.3 ESTIMACIN E INFERENCIA DE LA ECUACIN DE REGRESIN
En este apartado se presenta, en primer lugar, el procedimiento de estimacin de los coeficientes
de regresin lineal mltiple. A continuacin, se describen las propiedades de los estimadores y se
derivan intervalos de confianza y tests de hiptesis para los coeficientes de regresin. Finalmente,
se presentan intervalos de confianza para el valor esperado de la variable respuesta e intervalos de
prediccin para una nueva observacin en funcin de los valores de las variables explicativas.
196

Pastor-Barriuso R.

coeficientes de regresin 0, 1, , p se obtienen mediante el mtodo de mnimos


Estimacin e inferencia de la ecuacin de regresin

cuadrados a partir de una muestra de n observaciones (yi, xi1, , xip) mutuamente

independientes. En concreto, tal y como se muestra en la Figura 11.3 para dos variables
11.3.1 Estimacin de los coeficientes de regresin
explicativas, se trata de estimar los valores b0, b1, , bp que minimicen la suma de
Al igual que en regresin lineal simple, las estimaciones
puntuales b0, b1, , bp de los coeficientes
de regresin 0, 1, , p se obtienen mediante el mtodo de mnimos cuadrados a partir de
- y i , que corresponden
a las En
distancias
entre
los errores o residuos
ei x= y) i mutuamente
independientes.
concreto,
tal y
una cuadrados
muestra de de
n observaciones
(yi, xi1, ,
ip
como se muestra en la Figura 11.3 para dos variables explicativas, se trata de estimar los valores
valores observados yi de la variable respuesta y los correspondientes valores
b0, blos
1, , bp que minimicen la suma de cuadrados de los errores o residuos ei = yi i, que
corresponden a las distancias entre los valores observados yi de la variable respuesta y los
estimados o predichos
por la ecuacin
de regresin
y i = b0 +debregresin
1xi1 + +ib=
pxbip0, + b1xi1 +
correspondientes
valores estimados
o predichos
por la ecuacin
+ bpxip,
SSE =

i =1

i =1

i =1

ei2 = ( y i y i ) 2 = ( y i b0 b1 xi1 ... b p xip ) 2.

Para estimar los coeficientes de regresin que minimizan esta suma de cuadrados del error,
se calculan las derivadas parciales de SSE respecto a b0, b1, , bp y se igualan a cero, resultando
[Figura 11.3 aproximadamente aqu]
el sistema de p + 1 ecuaciones lineales
n
n
SSE
= 2 ei = 2 ( y i b0 b1 x i1 ... b p x ip ) = 0,
Para estimar los
de regresin
que minimizan esta suma de cuadrados del
b0 coeficientes
i =1
i =1
n
n
SSE
y se
igualan
error, se calculan
parciales de SSE respecto a b , b1, , bpj =
= 2las
xij ederivadas
1, ,
p. a
i = 2 x ij ( y i b0 b1 x i1 ... b p xip ) 0= 0,
b j
i =1
i =1
cero, resultando el sistema de p + 1 ecuaciones lineales
En general, este sistema lineal se resuelve utilizando lgebra de matrices. En el Apndice al
final del tema se derivan las frmulas matriciales para calcular b0, b1, , bp que, bajo las
En general,
sistemaylineal
se resuelve
lgebra
de matrices.
el
asunciones
de este
linealidad
aditividad,
son utilizando
estimadores
insesgados
de losEncoeficientes
de

Apndice al final del tema se derivan las frmulas matriciales para calcular b0, b1, , bp
(xi1, xi2, yi)
Plano de regresin estimado:
7
y = b0 + b1 x1 + b2 x2

que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los

i yip. En el caso particular de dos variables


coeficientes de regresin 0,ei=1,y,

explicativas, puede comprobarse que estos estimadores vienen dados por


( xi1 , xi 2 , y i )

b1 =

b2 =

ryx1 ryx2 rx1 x2 s y


1 rx21 x2

s x1

ryx2 ryx1 rx1 x2 s y


1 rx21 x2

s x2

b0 = y - b1 x1 - b2 x 2 .

,
x1

De estasx2expresiones se deduce que, si las variables explicativas X1 y X2 estn


11.3
Figura
11.3 Error o desviacin
observado de
respuesta
a sumltiple
valorFigura
estimado
rx1 x2 = 0,del
lasvalor
estimaciones
de lalosvariable
coeficientes
de respecto
regresin
se
incorrelacionadas
por el plano de regresin.

reducen a b1 = ryx1 s y / s x1 y b2 = ryx2 s y / s x2 , que son iguales a las obtenidas en regresin


Pastor-Barriuso R.

simple (vase Apartado 10.3.1). Por tanto, cuando las variables explicativas estn

incorrelacionadas, sus coeficientes estimados por regresin mltiple coinciden con los

197

explicativas, puede comprobarse que es


ficientes de regresin 0, 1, , p. En el caso particular de dos variables
s, puede comprobarse que estos estimadores vienen dados por
que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los
licativas, puedeRegresin
comprobarse
que estos estimadores vienen dados por
ry
lineal mltiple
b1 =
r

r
r
s
coeficientes
regresin
yx de yx
y 0, 1, , p. En el caso particular de dos variables
2 x1 x 2
,
b1 = 1
2
1 rxr1 xyx2 1 rsyxx21rx1 x2 s y
, estosdeestimadores
= .comprobarse
explicativas,
que
vienen
dados porpuede comprobarse
regresin
0, b1,1 puede
,
Enr 2el casos particular
dos variables
explicativas,
p1
ry
x
x1 x 2
1
(como
ocurre
en
regresin
lineal
simple),
sinotambin
tambinde
desus
sus
re
en
lineal
simple),
e XX11eeYY rryxyx1 1(como
que ocurre
estos
estimadores
vienen
dados
porsino
b2 =
ryxregresin

r
r
s
yx1 x1 x 2
y
2
b2 = ocurre
r sino
r rtambin
s de sus
en2 regresin, lineal simple),
entre X1 e Y ryx11 (como
1 rxr1yxx22 rsyxx12rx1 x2 s y b1 = yx1 yx2 x1 x2 y ,
2
pectivas
correlacionescon
conlalavariable
variable
X
r
y
r
.
ectivas correlaciones
X
r
y
r
.
b2 =
22 yxyx2 2
x1xx1 2x2 ,
s x1
1 rx1 x2
s x2
b0 = y
1 rx21 x2
respectivas correlaciones con la variable X2 ryx22 y rx11x22 .
r

r
r
s
b0 = y - b1 x1 - b2 x 2 .
22
y
2yx
1 x1 x 2
Unavez
vezestimada
estimadalalaecuacin
ecuacinde
deregresin,
regresin,lalavarianza
varianza
delalayxvariable
variable
respuesta
Una
respuesta
b2 = de
,
2
s x2
1 rx21 x2
b0 = y - b1 x1 - b2 x 2 .
De estas expresiones se deduce que, si l
Una vez estimada la ecuacin de regresin, la varianza de la variable respuesta
xpresiones
se deduce
que,se
siestima
las variables
explicativas
X1 residual
yresidual
X2 estn
varianza
ededor
dedicha
dicha
ecuacin
se
estima
mediante
dedor de
ecuacin
mediante
lalavarianza
b0 = y b1 x1 b2 x 2 .
incorrelacionadas rx1 x2 = 0, las estimaci
alrededor
de dicha
ecuacin
mediante
la varianza
estas
expresiones
se deduce
que,sesiestima
las variables
explicativas
X1residual
y X2 estn
estimaciones dese
los
coeficientes
se X y X estn incorrelacionadas
onadas rx1 x2 = 0,
nndeduce
Delas
estas
que, si de
lasregresin
variables mltiple
explicativas
SSE expresiones
SSE
11
1
2
22
22
s
=
=
(
y

b
x

...

b
x
)
,
s = r = 0,, las
= estimaciones
( yde
b00coeficientes
b11x i1i1 ... deb pregresin

px ipip) ,

ii
reducen
a b1 = ryx1 s y / s x1 y b2 = ryx2 s y /
los
mltiple
se
orrelacionadas
n
x
x
n1n22 pp11SSE
nn pp11i =i1=11
2
( yai alas
las
bobtenidas
blas
regresin
b pexplicativas
x ip ) simple
,
en...en
regresin
(vase
10.3.1). Por
b1 = ryx1 s y / s x1 y bs2De
== estas
ryx2 s yexpresiones
/ s x2 ,=,que
queson
son
iguales
obtenidas

0 si
1 x ivariables
1
seiguales
deduce
que,
X1 y XApartado
2 estn

1
n
p
n
p
=
1
i
cuando las variables explicativas estn incorrelacionadas, sus coeficientes
estimados
por10.3.1). Por tan
simple (vase
Apartado
ucen a b1 = ryx1 stanto,
y / s x1 y b2 = r yx2 s y / s x 2 , que son iguales a las obtenidas en regresin
nde
la
suma
de
cuadrados
del
error
SSE
se
divide
por
n
p
1
ya
que,
una
vez
regresin
mltiple
coinciden
con
los
obtenidos
de
distintas
regresiones
simples
para
cada
de
la
suma
de
cuadrados
del
error
SSE
se
divide
por
n
p
1
ya
que,
una
vez
rx1 x2las
= variables
0, las estimaciones
de estn
los coeficientes de regresin mltiple se
incorrelacionadas
ase Apartado 10.3.1).
Por tanto, cuando
explicativas
variable
explicativa.
Por
el
contrario,
cuando
las
variables
explicativas
estn correlacionadas,
incorrelacionadas,
sus coeficientes estim
donde
laApartado
suma de
cuadrados
del
errorcuando
SSE
selas
divide
por nexplicativas
-lineal
p - 1 simple),
ya que,
una
vez
ple
(vase
10.3.1).
Por
estn
e de
Y
rregresin,
(como
ocurre
envariables
regresin
sino
tambin
de susde sus efectos
entre
X1 ajustados
yxtanto,
mados
los
p
+
1
coeficientes
de
regresin,
los
n
errores
o
desviaciones
de
la
variable
sus
efectos
mediante
regresin
mltiple
pueden
diferir
notablemente
mados
los
p
+
1
coeficientes
los
n
errores
o
desviaciones
de
la
variable
1
onadas, sus coeficientes
estimados
por
regresin
mltiple
coinciden
con
los
reducen
a b1 = las
ryx1restantes
s y / s x1 y variables
b2 = ryx2 sexplicativas.
a las obtenidas
en de
regresin
y / s x 2 , que son
crudos
ignorando
As,iguales
por ejemplo,
la relacin
la variable
obtenidos
de
distintas
regresiones simpl
estimados
los
p
+
1
coeficientes
de
regresin,
los
n
errores
o
desviaciones
de
la
variable
orrelacionadas,
sus
coeficientes
estimados
por
regresin
mltiple
coinciden
con
los
puesta
respecto
a
la
ecuacin
de
regresin
contienen
n
p
1
grados
de
libertad.
Bajo
con
la
variable
respuesta
Y
ajustando
por
la
variable
X
se
estima
mediante
el
explicativa
X
uesta
respecto
a
la
ecuacin
de
regresin
contienen
n
p
1
grados
de
libertad.
Bajo
respectivas
correlaciones
con
la
variable
X
r
y
r
.
2 Por
1
2
yx2 el x1 x2
de
distintas
regresiones
simples
para
cada
variable
explicativa.
como ocurre encoeficiente
regresin
lineal
simple),
sino
tambin
de
sus
simple
(vase
Apartado
10.3.1).
Por
tanto,
cuando
las
variables
explicativas
estn
e
Y
r
ocurre e
entre
X
slo de
delibertad.
la correlacin
X11 las variables
de regresin
mltiplecontienen
b1, que depende
yx1 (comoexplicati
contrario,
cuando
respuesta
respecto
a la ecuacin
de regresin
n - p - 1 no
grados
Bajo entre
enidos
de
distintas
regresiones
simples
para
cada
variable
explicativa.
Por
el
hiptesis
de
linealidad,
aditividad
homogeneidad
de
varianza,
varianza
(comoexplicativas
ocurre
regresin
simple),
sino
tambin
de susrespectivas
correlaciones
hiptesis
linealidad,
aditividad
yyhomogeneidad
de
varianza,
varianza
2
cuando
lasde
variables
estn
correlacionadas,
sus
efectos
ajustados
Una
vezenestimada
la lineal
ecuacin
delala
regresin,
lalala
varianza
de la variable
respuestacon la
incorrelacionadas,
sus
coeficientes
estimados
por
regresin
mltiple
coinciden
con los mltiple pueden dife
laciones
con la variable
X2 ryx2aditividad
y rx1 x2 .. y homogeneidad de la varianza, la varianza mediante respectivas
regresin
las2hiptesis
de linealidad,
correlaciones con l
2cuando las variables explicativas estn correlacionadas, 2sus
2
trario,
efectos
ajustados
esmltiple
unestimador
estimador
insesgado
del
parmetro
poblacional

.
idual
un
insesgado
del
parmetro
poblacional

.
dual
ss es
2
egresin
pueden
diferir
notablemente
de
sus
efectos
crudos
Una
vez estimada
ecuacinsedeestima
regresin,
la varianza
de la
variable respuesta alrededor
residual
alrededor
de distintas
dichalaecuacin
mediante
la varianza
obtenidos
de
regresiones
simples
para cada
2
2 variable explicativa. Por el
2
ignorando lasUna
restantes
variables
explica
es
un
estimador
insesgado
del
parmetro
poblacional

.
residual
s
ada
la
ecuacin
de
regresin,
la
varianza

de
la
variable
respuesta
de
dicha
ecuacin
se
estima
mediante
la
varianza
residual
diante regresin mltiple pueden diferir notablemente de sus efectos crudos
vez estimada
la ecuaci
las restantes variables explicativas. As, por ejemplo,
la
relacin
de
la
en
el riesgo
de
desarrollarsus
unefectos
primer ajustados
infarto agudo de miocardio e
n estn
contrario,
cuando
las
variables
explicativas
correlacionadas,
Ejemplo11.2
11.2En
En
Ejemplo
10.7
seestudi
estudi
relacin
del
ndice
demasa
masa
Ejemplo
elelEjemplo
10.7
lalarelacin
ndice
de
SSE antioxidantes
1 del
2 se
2
variable
explicativa
X con la variable re
varianza
residual
a
ecuacin
se
estima
mediante
la
s
=
=
(
y

b
x

...

b
x
)
,
orando las restantes variables explicativas. As, por ejemplo,la relacin
i
i1
p ip
0 de1 la
alrededor de1dicha ecuacin se
psehombres
la

1 i =1 Los
1 npor
n ajustando
padultos.
En elrespuesta
Ejemplo Y10.7
estudi
relacin
del
ndice
de
masa
variable
la
variable
X2valores
se
estima
plicativaEjemplo
X1 con la11.2
obtenidos
fueron
0,89, 1,58, 0,79, 1,29, 1,42, 0,84
mediante
regresin
mltiple
notablemente
de
sus efectos
crudos
corporalcon
conelelcolesterol
colesterolHDL
HDLutilizando
utilizando
unpueden
modelodiferir
deregresin
regresin
linealsimple.
simple.
corporal
un
modelo
de
lineal
mediante
el coeficiente de regresin m
n variable
respuestadel
Y ajustando
por
la variable
able SSE
explicativadonde
X11 con
la la
suma
de cuadrados
error SSE
se divide
por n X2pse estima
1 ya que, una vez estimados los
2slo de la
corporal
con
el
colesterol
HDL
utilizando
un
modelo
de
regresin
lineal
simple.
SSE
,
que
depende
no
correlacin
l=coeficiente
de
regresin
mltiple
b
1
= +ignorando
brestantes
regresin,
b1 x i1 variables
...1,06,
los
b p nxerror
) ,SSE
0,87,
1,96
ydesviaciones
1,53
mmol/l.
de respuesta
los
niveles
del colesterol

0de
ilas
iperrores
1coeficientes
o se
variable
as2 = HDL en=
la( ysuma
cuadrados
del
divide
por
nde-La
plaHDL
-media
1laya
que,
una
vez
explicativas.
As,
por
ejemplo,
relacin
de
la respecto
obstante,
existen
otros
muchos
determinantes
de
los
niveles
de
colesterol
HDL
No
muchos
determinantes
de
los
niveles
de
colesterol
obstante,
pdonde
1otros
nNo
p 1 npexisten
i =1
n p 1
slo de
de libertad.
la correlacin
diante el coeficiente
de regresin
mltiple
b1, que depende
la ecuacin
de regresin
contienen
n p 1 no
grados
hiptesis de linealidad,
8 Bajo lasHDL
No obstante, existen otros muchos determinantes
de
los
niveles
de
colesterol
10
participantes
es un
estimador
insesgado
aditividad
yexplicativa
homogeneidad
de estos
varianza,
laelel
varianza
residual
la
variable
respuesta
la variable
X2la
sevariable
estima del
variable
X
estimados
los p de
+de1alcohol.
coeficientes
de
regresin,
losYes
najustando
errores so2por
desviaciones
de
1 con
como,por
porejemplo,
ejemplo,
consumo
alcohol.
Para
obtener
efecto
independiente
como,
elelconsumo
Para
obtener
efecto
independiente
8
2
poblacional
cuadrados del parmetro
error SSE se
divide porn.- p - 1 ya que, una vez
donde la suma de cuadrados de
como, por ejemplo, el consumo de alcohol. Para obtener el efecto independiente
10 regresin
,
que
depende
no
slo
de
la
correlacin
mediante
el
coeficiente
de regresin
mltiple
bcontienen
respuesta
respecto
ase
la podra
ecuacin
de regresin
n
p
1
grados
de
libertad.
Bajo
1
decada
cadauno
unode
deestos
estos
determinantes,
se
podra
ajustar
unmodelo
modelo
de
regresin
de
determinantes,
ajustar
un
de
1
0,89 + 1,58 + ... + 1,53
x
x
=
1,223
mmol/l.
=
=
1 coeficientes de regresin,
los
n
errores
o
desviaciones
de
la
variable

i
11.2 En el Ejemplo
10.7ajustar
se estudi
la relacin
del ndice
corporallos
con
estimados
de cada uno Ejemplo
de estos determinantes,
se podra
un10
modelo
de regresin
10 de masa
8 p + 1 coeficiente
i =1
lasel
deHDL
linealidad,
y homogeneidad
delineal
la
varianza,
un modelo
de yregresin
simple. la
Novarianza
obstante, existen
linealmltiple
mltiplecon
con
elcolesterol
colesterol
HDLutilizando
comoaditividad
variable
respuesta
yelelndice
ndice
demasa
masa
lineal
elhiptesis
colesterol
como
variable
respuesta
de
o a la ecuacin de regresin
contienen
n - p - 1 grados
de libertad.
Bajo
otros
determinantes
de los
niveles de
colesterol HDL como, por
ejemplo,
el a la ecuaci
respuesta
respecto
lineal mltiple
conmuchos
2el colesterol HDL como variable respuesta y el ndice de 2masa
esde
un alcohol.
estimador
insesgado
del
parmetro
poblacional

.
residual
consumo
Para
obtener
el
efecto
independiente
de
cada
uno
de
estos
corporalyyelelconsumo
consumo
desalcohol
alcohol
comovariables
variables
explicativas.
corporal
de
como
explicativas.
La media aritmtica presenta las siguientes propiedades:
nealidad, aditividad ydeterminantes,
homogeneidadsedepodra
la varianza,
launvarianza
ajustar
modelo
de regresin lineal mltiple con
colesterol
las el
hiptesis
de linealidad, adit
corporal y el consumo de alcohol
como
variables
explicativas.
HDL
variable
respuesta
y
el
ndice
de
masa
corporal
y
el
consumo
de
alcohol
como
Ennn==449
449controles
controles
delcomo
estudio
EURAMIC
con
datos
disponibles
de
estas
En
del
estudio
EURAMIC
con
datos
disponibles
de
estas
Cambio
de origen (traslacin). Si se suma una constante a cada uno de los dato
Ejemplo
11.2
En el Ejemplo
se estudi la relacin del ndice de masa
estimadorEn
insesgado
del
parmetro
poblacional
2. 10.7
variables
explicativas.
residual s2 es un estimador ins
n = 449 controles
del
estudio
EURAMIC
con datos disponibles de 2estas
2
=26,2
26,2yylassmedia
3,61
kg/m
pararesultante
variables,lalamedia
mediaEn
desviacin
tpicadel
fueron
==3,61
para
variables,
yylala
tpica
fueron
1=
x1x1 con
de
unaxx1muestra,
de kg/m
la
muestra
esvariables,
igual a la la
media inicial m
ndesviacin
=
449 controles
estudio
EURAMIC
datos
disponibles
de estas
corporal con el colesterol HDL utilizando un modelo de regresin
lineal simple.
22
3,61 kg/m
kg/m para
para el ndice de masa
variables, la media yy la
tpica fueron x1 = 26,2 y s x11 == 3,61
la
1.2 En el Ejemplo 10.7media
se estudidesviacin
la relacin del ndice de masa
el Ejem
y
=
x
+
c
,
entonces
x + yc.sEjemplo
Un
deEn
origen
qu
constante
utilizada;
si
16,5
= cambio
0,29511.2
corporal,xx22 ==16,5
ndicede
demasa
masacorporal,
corporal,
16,5yyy ssxx2 2===21,8
21,8g/da
g/dapara
parael
consumo
dealcohol y y == 1,08
elelndice
21,8
g/da
para
elelconsumo
consumo
de
i
i de
y HDL
No obstante, existen
otros
muchos
determinantes
de
los
niveles
de
colesterol
r
r
=
-0,091
=
-0,091
y
las
y
las
correlaciones
correlaciones
de
de
estas
estas
variables
variables
explicativas
explicativas
co
fue
fue
x1 x2 x1 x2 de correlacin de Pearson entre el ndice de
mmol/l
para
colesterol
HDL.
coeficiente
el ndice
deutilizando
masa
corporal,
x 2 = 16,5
y s x22 El
= 21,8
g/da
para el consumo de
n el colesterol
HDL
unelmodelo
de regresin
lineal
simple.
corporal
con en
el colestero
== 0,091
yde
lasde
correlaciones
deestas
estas
corporal
y el consumo
de alcohol
rEl
-0,091
yde
correlaciones
variables
explica
fue El
realiza
con
frecuencia
es
el centrado
la independiente
variable, de
que
consiste
restar
a
xPara
alcoholyy yy ==1,08
1,08masa
0,295
mmol/l
para
colesterol
HDL.
alcohol
yysscomo,
para
elel
colesterol
HDL.
1 xcoeficiente
2coeficiente
yy==0,295
pormmol/l
ejemplo,
elseconsumo
de alcohol.
obtener
ellas
efecto
variables
explicativas
con
el
colesterol
HDL
fueron
0,273
y
0,232,
colesterol
colesterol
HDL
HDL
fueron
fueron
r
r
=
-0,273
=
-0,273
y
r
y
r
=
0,232,
=
0,232,
respectivamente.
respectivament
L
yx1 yx1
yx2 yx2
e, existenalcohol
otros muchos
determinantes
de mmol/l
los niveles
deelcolesterol
HDL
y y respectivamente.
= 1,08
y sy = 0,295
para
colesterol
HDL.
El
coeficiente
de
No
obstante,
existen
otro
Las estimaciones
losmuestra
coeficientes
de fueron
regresin
sey obtienen
cada
valor deyyla
media.
media
una variable
ser, por
colesterol
HDL
ryx1 mltiple
=deregresin
-0,273
ryx2 =centrada
0,232, respectiva
cadaeleluno
de estos
determinantes,
seconsumo
podra su
ajustar
un La
modelo
de
correlacinde
dePearson
Pearsonde
entre
ndice
demasa
masa
corporal
consumo
de
alcohol
correlacin
entre
ndice
de
corporal
elel
de
alcohol
entonces
como
estimaciones
estimaciones
de de
loslos
coeficientes
coeficientes
de de
regresin
regresin
mltiple
mltiple
se se
obtienen
obtienen
ento
e
ejemplo, el
consumo de
de Pearson
alcohol. entre
Para obtener
elde
efecto
independiente
como, por ejemplo, el co
correlacin
el ndicetanto,
masa
corporal
y el consumo de alcohol
igual
a
0.
lineal mltiple con el colesterol HDL como
variablederespuesta
y el ndice
de masa mltiple se obtie
estimaciones
los coeficientes
de regresin
o de estos determinantes,
se R.podra ajustar un modelo de regresin r r r rr r s s
198 Pastor-Barriuso
de
cada
uno
estos
dete
,273
0,273
0,232
0datos
,091
0,de
295
0de,295
+ 0+,232
0,091
yx yx Si
yx2 se
yx
x12x2multiplica
x1 x29
y9 y 0
Cambio de escala (unidades).
una
= = cada uno de2 los
=1 = 1 1explicativas.
= -0,02
= -0
corporal y el consumo
de alcohol comobvariables
1b
2 2
2
,61 0,295
0,091
273
,3091
+ 0,232 3 0,61
ple con el colesterol HDL como variable respuesta y el ndice de masa 1 1rx1rxr2yxx1 x2 sryxx1 2srxx11x2 9s y 1 100,,091
lineal
mltiple
con
el col
=
b
=
1
por EURAMIC
una constante,
media
resultante
igual
a la media
2
En n = 449 controles muestra
del estudio
conladatos
s de estas
3,61
de
1disponibles
r 2la muestra
1 0es
,091

ryx2 rrx1x2 =s y-0,273


ryxfueron
232 0,respectivamente.
091 0,295
0,y273
colesterolbHDL
ryx2+ =0,0,232,
Las
1
yx1
=
= -0,0207,
1=
2
2
Estimacin
e
inferencia
de
la ecuacin de regresin
s
3
,
61
1 rx1x2
1 0,091
x1
estimaciones de los coeficientes de regresin mltiple se obtienen entonces como
ryx ryx1 rx1x2 s y
0,232 0,273 0,091 0,295
=
b2 = 2
= 0,0028,
2
,8
ryx1 1 ryxr2xr1xx21x2 s sy x2 0,2731 + 0,232
0912 0,091 021
,295
=
b1 =
= 0,0207,
s x1
3,61
1 rx21x2
1 0,0912
b0 = y - b1 x1 - b2 x 2 = 1,08 + 0,020726,2 - 0,002816,5 = 1,58,
ryx ryx1 rx1x2 s y
0,232 0,273 0,091 0,295
=
b2 = 2
= 0,0028,
2
s x2
21,8
1 rx1x2
1 0,0912
de donde resulta la ecuacin de regresin
b0 = y b1 x1 b2 x 2 = 1,08 + 0,020726,2 0,002816,5 = 1,58,
y = 1,58 - 0,0207x1 + 0,0028x2,
de donde resulta la ecuacin de regresin

= 1,58 0,0207x1 + 0,0028x2,


condonde
una varianza
delde
colesterol
de
resulta laresidual
ecuacin
regresinHDL respecto a dicha ecuacin
con una varianza residual del colesterol HDL respecto a dicha ecuacin

s2 =

SSE
1 449 y = 1,58 - 0,0207x1 + 0,0028x2, 2 34,33
=
{ y i (1,58 0,0207 xi1 + 0,0028 xi 2 )} = 446 = 0,077.
446 446 i =1

con una
varianza residual
colesterol
HDL respecto
a dicha
Estas
estimaciones
pueden del
obtenerse
directamente
de ajustar
unaecuacin
regresin lineal mltiple
Estas
estimaciones
pueden
obtenerse
directamente
ajustar una
regresin
lineal
del
colesterol
HDL sobre
el ndice
de masa
corporal y eldeconsumo
de alcohol
en los
programas
449
estadsticos
convencionales,
cuyos
resultados
completos
se
muestran
en
la
Tabla
11.1.
SSE
1
34,33
=
{ y i sobre
(1,58 el0ndice
,0207 xde
0,0028
x i 2 )}2 y= el consumo
= 0,077.
s2 = del colesterol
mltiple
HDL
corporal
de colesterol

i1 +masa
La ecuacin
del
446de regresin
446 i =1 puede utilizarse para estimar el valor esperado
446
HDL en funcin del ndice de masa corporal y el consumo de alcohol. As, por ejemplo,
alcohol
en los programas
estadsticos
cuyos resultados
de alcoholcompletos
de 20 g/da, el
para
un ndice
de masa corporal
de 25convencionales,
kg/m2 y un consumo
Estas
estimaciones
pueden
obtenerse
directamente
de
ajustar
una
regresin
lineal
+
modelo estima un nivel medio de colesterol HDL de (25, 20) = 1,58 0,020725
se muestran= en
la mmol/l.
Tabla 11.1.
0,002820
1,12
mltiple del colesterol HDL sobre el ndice de masa corporal y el consumo de
Las estimaciones b1 y b2 determinan el efecto independiente de cada variable explicativa sobre
la
variable
una vez
controladas
las posibles diferencias
la otra variable
explicativa.
[Tabla
11.1 aproximadamente
aqu]
alcohol
enrespuesta,
los programas
estadsticos
convencionales,
cuyosen
resultados
completos
se muestran en la Tabla 11.1.
La ecuacin
de regresinde
puede
utilizarselineal
para mltiple
estimar eldel
valor
esperado
del sobre
Tabla
11.1 Resultados
la regresin
colesterol
HDL
el ndice de masa corporal (IMC) y la ingesta de alcohol en los controles del
colesterol
HDL en funcin
del11.1
ndice
de masa corporalaqu]
y el consumo de alcohol.
[Tabla
aproximadamente
estudio
EURAMIC.
Anlisis de la varianza*

As, por ejemplo, para un ndice de masa corporal de 25 kg/m2 y un consumo de


Suma puede
de
Gradospara
de estimar el valor esperado
Razn
La ecuacin de regresin
utilizarse
del de
cuadrados
libertad
Varianza
varianzas
alcohol de 20 g/da, el modelo estima un nivel medio de colesterol HDL de y (25,
Regresin
4,58 del ndice de masa
2
colesterol HDL en funcin
corporal y2,29
el consumo de29,72
alcohol.
Error
446 mmol/l.
0,077
+ 0,002820 = 1,12
20) = 1,58 - 0,02072534,33
As, por ejemplo, para un ndice de masa corporal de 25 kg/m2 y un consumo de
Total
38,91
448
10
*
Coeficiente
determinacin
R2 =estima
4,58/38,91
0,118.
alcohol
de 20deg/da,
el modelo
un =nivel
medio de colesterol HDL de y (25,
Coeficientes de regresin

20) = 1,58 - 0,020725 + 0,002820 = 1,12 mmol/l.


Estimacin

Test H0: j = 0

Error estndar

IC al 95%

Valor P 10

Constante

1,58

0,098

(1,39; 1,77)

16,14

< 0,001

IMC

0,0207

0,0036

(0,0278; 0,0135)

5,68

< 0,001

0,0028

0,0006

(0,0016; 0,0040)

4,68

< 0,001

Alcohol

Pastor-Barriuso R.

199

explicativa sobre la variable respuesta, una vez controladas las posibles


g/da (aproximadamente una desviacin tpica) en la ingesta de alcoholPor
se asocian
otro lado, para un mismo nd
corporal se asocia con una disminucin media en el colesterol HDL de
diferencias en la otra variable explicativa. Por un lado, manteniendo constante el
Regresin
lineal
con
unmltiple
aumento medio en el colesterol HDL de
g/da (aproximadamente una des
y (xde1 +alcohol,
c1, x2) -cada
y (xincremento
b1c(x1 1=+3,50
c1) +kg/m
b2x22 -en
(bel
b1x1 +deb2masa
x2 )
1, x2) = b0 +de
0 +ndice
consumo
y (x1, x2 + c2) - y (x1, x2) = b0 + b1x1 + b2(x2 + c2) - (b0 + b1x1 + bcon
2x2)un aumento medio en el cole
b1 =media
3,50(-0,0207)
= -0,072.
=elc1consumo
Por
un lado,
constante
deen
alcohol,
cada
incremento
corporal
se manteniendo
asocia con una
disminucin
el colesterol
HDL de de c1 = 3,50 kg/m2
en el ndice de masa corporal se asocia con una disminucin media en el colesterol HDL de
= c2b2 = 200,0028 = 0,056.
y (x1, x2 + c2) - y (x1, x2)
Por otroy lado,
de
masa
corporal,
incrementos
de
c
=
20
2
c1, x2un
) mismo
y (x1, xndice
)
=
b
+
b
(x
+
c
)
+
b
x
(b
+
b
x
+
b
x
)
(x1 + para

2
0
1 1
1
2 2
0
1 1
2 2

0,0207)
= 0,072.
= cinducido
Para
el grado de confusin
por
el la
consumo
la
1b1 = 3,50(
g/daevaluar
(aproximadamente
una desviacin
tpica)
en
ingesta de
de alcohol
alcohol en
se asocian
Porcruda
otro (una
lado,pequea
para unparte
mismo
ndice
de masa
corporal, incrementos
desujetos
c2 = 20
de la
reduccin
del colesterol
HDL entre los
cong/da
asociacin
entre el
ndice
de
corporal
y de
el colesterol HDL, basta comparar
el el grado de confusi
evaluar
con un aumento
medio
el masa
colesterol
HDLen
(aproximadamente
una en
desviacin
tpica)
la ingesta de alcohol sePara
asocian
con un
Por
otro
lado,
para
un
mismo
ndice
de
masa
corporal,
incrementos
de
c
2 = 20
aumento
medio
colesterol
HDLndice
de de masa corporal sino a un consumo de
sobrepeso
no en
se el
debe
a su mayor
coeficiente ajustado mediante regresin mltiple b1 = -0,0207 con el coeficiente
asociacin entre el ndice de mas
y (x1, x2 + c2) y (x
(x2la+ingesta
c2) (b0de+ alcohol
b1x1 + bse
)
1, xdesviacin
2) = b0 + btpica)
1x1 + b2en
2x2asocian
g/da (aproximadamente
una
alcohol ligeramente menor). No obstante, los efectos crudo y ajustado no difieren
crudo obtenido de una regresin =simple
misma =muestra
20la 0,0028
0,056. de 449 controles
c2b2 =en
coeficiente ajustado mediante reg
con
un
aumento
medio
en
el
colesterol
HDL
de
Para
evaluar
elpequea
gradopor
departe
confusin
inducidode
por
el consumo
de alcohol
ensujetos
la asociacin
substancialmente,
lo que
el reduccin
consumo
alcohol
no parece
ser unlosfactor
de con
(una
de la
del
colesterol
HDL
entre
b1 cruda
= rel
La
razn
coeficientes
yx1 sndice
y / s x1 =
crudo
de una regresin
entre
de-0,273
masa0,295/3,61
corporal y=el-0,0222.
colesterol
HDL,entre
bastaloscomparar
el obtenido
coeficiente

con
coeficiente
ajustado
mltiple
y mediante
(x1, xel
+sec2regresin
) -dey para
= binducido
+b1b1=x10,0207
+por
bmasa
+corporal
c2)el- de
(b
+ alcohol
b1axcorporal
+ crudo
ben
Para
evaluar
confusin
el2 consumo
confusin
importante
la
entre
ndice
masa
el de de
2 grado
1, x
2) asociacin
0ndice
2(x
0de
1un
2x2)layobtenido
sobrepeso
no
debe
a(x
su
mayor
de
sino
consumo
crudo
y ajustadosimple en la misma muestra de 449 controles b1 = ryx1 s y / s x1 == -0,2730,295/3
una regresin
asociacin
entre
el en
ndice
de masa
corporal
ellos
colesterol
HDL,
bastay comparar
el
0,2730,295/3,61
= 0,0222.
La
coeficientes
crudo
ajustado
colesterol
HDL
los
controles
del
EURAMIC.
= entre
20y0,0028
= 0,056.
= crazn
alcohol ligeramente
menor).
No
obstante,
los
efectos
crudo
y ajustado
no difieren
2b2 estudio

200

crudo y ajustado
b1 0,0222
coeficiente
ajustado mediante
mltiple
b1 = -0,0207
conser
el un
coeficiente
1,08
substancialmente,
por lo queregresin
el=consumo
de=alcohol
no parece
factor de
Para evaluar el grado de confusin
b1 inducido
0,0207por el consumo de alcohol en la
11.3.2 Inferencia sobre los coeficientes de regresin
b1
crudo
obtenido
regresin
simple ende
la
misma
muestra
de 449corporal
controles
indica
que, si importante
nodeseuna
ajusta
porlaelasociacin
consumo
alcohol,
se sobreestima
un 100(1,08
confusin
para
entre
el ndice
de masa
y el 1) =
asociacin entre el ndice de masa corporal y el colesterol HDL, basta comparar el
b1
8%
la que,
asociacin
delse
de masa
corporal
el colesterol
HDL. Esto es
En indica
el Apndice
del tema
demuestra
bajo las
asunciones
de
sialnofinal
seinversa
ajusta
por
elndice
consumo
deque,
alcohol,
se con
sobreestima
unlinealidad,
100(1,08
b1 colesterol
= ryxa1 sque
/
s
=
-0,273

0,295/3,61
=
-0,0222.
La
razn
entre
los
coeficientes
debido
el
consumo
de
alcohol
presenta
una
leve
correlacin
negativa
con
el
ndice
HDL
en
los
controles
del
estudio
EURAMIC.
y
x1
coeficiente
ajustado
mediante regresin mltiple b1 = -0,0207 con el coeficiente
de
masa
corporal,
lo queinversa
induce
unndice
pequeo
sesgocorporal
en ladeestimacin
cruda (una
aditividad
y
homogeneidad
de
la varianza,
losdeestimadores
mnimos
cuadrados
bpequea
- 1) = 8% la asociacin
del
masa
con el colesterol
j
indicaHDL.
que,
si no se ajusta por el
parte
de
la
reduccin
del
colesterol
HDL
entre
los
sujetos
con
sobrepeso
no
se
crudo yobtenido
ajustadode una regresin simple en la misma muestra de 449 controles debe a su
2
mayor
masa
corporal
sino
ade
unregresin
consumo
de
ligeramente
No
siguen
aproximadamente
una
distribucin
normal
con media
j y correlacin
varianza
v=jj menor).
en
Esto
es ndice
debidode
asobre
que
ellos
consumo
de alcohol
presenta
unaalcohol
leve
11.3.2
Inferencia
coeficientes
-1)negativa
8% la asociacin inversa d
obstante,
los efectos crudo y ajustado
no difieren substancialmente, por lo que el consumo

b1 = ryx1 s y / s x1 = -0,2730,295/3,61
= 0-0,0222.
razn entre los coeficientes
b

,0222 unLapequeo
1
de
alcohol
no
parece
ser
un
factor
de
confusin
importante
para
entre el
el suficientemente
ndice al
definal
masadel
corporal,
sesgo
en la
ladeasociacin
estimacin
muestras
grandes,
Encon
el Apndice
tema selodemuestra
que,
bajo
las asunciones
linealidad,
= 1,08
=que induce
Esto
es debido a que el consumo
,0207en los controles del estudio EURAMIC.
b1 0HDL
ndice de masa corporal y el colesterol
11
crudo
y
ajustado
aditividad y homogeneidadb de la
varianza, los estimadores de mnimos cuadrados
bj de masa corporal, l
con
el
ndice

j
j ~
N de
(0, regresin
1)de
, alcohol,
j = 0, 1, ,
p,
11.3.2indica
Inferencia
sobre
los coeficientes
que, si no
se ajusta
por
el
se sobreestima
un 100(1,08
distribucin
v jj b consumo
siguen aproximadamente una
normal
con
media
j y varianza 2vjj en

0
,
0222
1
= 1,08 asunciones de linealidad, aditividad
=
En el Apndice
del tema
se demuestra
que,
bdel
0,0207
- 1) = 8% al
la final
asociacin
inversa
ndice
de bajo
masalas
corporal con el colesterol HDL.
1
y homogeneidad
de la varianza,
los estimadores de mnimos cuadrados bj siguen aproximadamente
muestras suficientemente
grandes,
donde vjj es un valor conocido que depende del 2tamao muestral y de las varianzas y
varianza
vjj en muestras
suficientemente
grandes,
una distribucin
normal
conelmedia
j y de
Esto es debido
a que
consumo
alcohol presenta
una leve
correlacin negativa
indica que, si no se ajusta por el consumo de alcohol, se sobreestima un 100(1,08
j ~
b j explicativas.
covarianzas entre las variables
Si se reemplaza el parmetro desconocido
que
N (0induce
, 1) , jun
= 0,
1, , p,
con el ndice de masa corporal, lo
pequeo
sesgo en la estimacin
- 1) = 8% la asociacin inversa
v jj del ndice de masa corporal con el colesterol HDL.
por la desviacin tpica residual s, puede probarse que los estadsticos resultantes siguen
11
dondeEsto
vjj es es
undebido
valor conocido
que
depende
del
tamao
muestral
y
de
las
varianzas
y
covarianzas
a que el consumo de alcohol presenta una leve correlacin negativa
aproximadamente
unaconocido
distribucin
t de Student
con
los nmuestral
- pdesconocido
- 1 grados
libertad
depende
del
y de lasde
y
donde
vjj es un valor
entre
las variables
explicativas.
Sique
se reemplaza
el tamao
parmetro
varianzas
por
la desviacin
tpica con
residual
s,
puede
probarse
que
los
estadsticos
resultantes
siguen
aproximadamente
una
el ndice de masa corporal, lo que induce un pequeo sesgo en la estimacin
correspondientes
a
la
estimacin
de
la
desviacin
tpica
residual,
distribucin
t deentre
Student
con los nexplicativas.
p 1 grados
de reemplaza
libertad correspondientes
a la estimacin

covarianzas
las variables
Si se
el parmetro desconocido
11
de la desviacin tpica residual,
por la desviacin tpica residual
probarse que los estadsticos resultantes siguen
b j s,j puede
~ t

j = 0, 1, , p.
n p 1 ,
s
v
jj
aproximadamente una distribucin
t de Student con los n - p - 1 grados de libertad
Notar que estas distribuciones de los estimadores bj en muestras suficientemente grandes no
correspondientes
a la estimacin
de la y,
desviacin
tpica residual,
requieren
de estas
la asuncin
de normalidad
por tanto,
vlidas para
cualquier distribucin
en muestras
suficientemente
Notar que
distribuciones
de los estimadores
bj son
subyacente de la variable respuesta.
grandes no requieren de la basuncin
j j ~de normalidad y, por tanto, son vlidas para
t n p 1 ,
j = 0, 1, , p.
Pastor-Barriuso R.
s v jj
cualquier distribucin subyacente de la variable respuesta.

Utilizando estos resultados, los intervalosjj de confianza al 100(1 - )% para los


los contrastes bilaterales
de las hiptesis
de efecto
independiente
de cada
variable explicativa
H : de
= 0ausencia
se realizan
mediante
los estadsticos
0

coeficientes de regresin j vienen dados por


Estimacin
e inferencia
la ecuacin
t de
Studentde regresin
que H
bajo
dichas hiptesis nulas se distribuyen aproximadamente
como
una de
ariable explicativa
0: j = 0 se realizan mediante los estadsticos

)%
para
los
Utilizando estos resultados, los intervalos
de
confianza
al
100(1
bj
t
=
,
con n - p - 1 grados de libertad.
bj tn-p-1,1s v jj /2 s v jj
bj j vienen dados
por
coeficientes
de
regresin
Utilizando estos resultados,
los
t=
, intervalos de confianza al 100(1 )% para los coeficientes
s vpor
de regresin j vienen dados
jj
Ejemplo
Los programas
estadsticos
facilitan
los
contrastes
bilaterales
hiptesis aproximadamente
deconvencionales
ausencia de efecto
independiente
de cada
t de Student
quey bajo
dichas11.3
hiptesis
nulasdeselas
distribuyen
como
unadirectamente
bj tn p 1,1 /2 s v jj

las
coeficientes
deuna
regresin
lineal mltipledey cada
sus variable
t de Student
ue bajo dichas hiptesis
nulas
sebilaterales
distribuyen
como
variable
H0:de
j aproximadamente
= 0de
selos
realizan
los
estadsticos
ycon
los
las
hiptesis
de mediante
ausencia
de
efecto
independiente
ncontrastes
- pestimaciones
- 1explicativa
grados
depuntuales
libertad.
explicativa
H0: j =bilaterales
0 se realizan
los de
estadsticos
y los contrastes
de mediante
las hiptesis
ausencia de efecto independiente de cada
estndar. Segn la Tabla 11.1, los errores estndar de los coeficientes
libertad.
on n - p - 1 grados deerrores
bj
Ejemplo 11.3 Los programas estadsticos
facilitan directamente
t = convencionales
,
variable
explicativa
H
0: j = 0 se realizan mediante los estadsticos
estimados para el ndice de masa corporal
y
el
consumo
de
alcohol son
s v jj
Ejemplo 11.3 Loslasprogramas
estadsticos
facilitan
directamente
estimaciones
puntualesconvencionales
de los coeficientes
de regresin
lineal mltiple y sus
que bajo
dichas
hiptesis
nulas
se
distribuyen
aproximadamente
como
unaPor
t detanto,
Student con
0,0006.
respectivamente SE(b1) = s v11 = 0,0036byj SE(b2) = s v 22 =
t
=
,
n que
p puntuales
1 grados
de hiptesis
libertad.
errores
estndar.
Segnnulas
la Tabla
11.1,
los errores
estndar ydesus
los
coeficientes
bajo
dichas
se
aproximadamente
como
una t de Student
las estimaciones
de
los
coeficientes
dedistribuyen
regresin
lineal
mltiple
s v jj
los ICs al 95% para estos coeficientes de regresin son
estimados
para el
ndice
masa estndar
corporal de
y ellos
consumo
de alcohol
son directamente las
n - p -la1 Tabla
grados
de
libertad.
conEjemplo
errores estndar.
Segn
11.1,
losde
errores
coeficientes
11.3
Los
programas
estadsticos
convencionales
facilitan
puntualesnulas
de los
coeficientesaproximadamente
de regresin lineal
mltiple
sus errores
queestimaciones
bajo dichas hiptesis
se distribuyen
como
una t dey Student
b1Segn
t446;0,975
b111.1,
=v-0,0207

1,970,0036
=
(-0,0278;
-0,0135),
estimados para elestndar.
ndice de
masa
corporal
ys) el
consumo
de
alcohol
son
SETabla
(SE
b1)(=
=
0,0036
y
SE
(
b
)
=
s
v
=
0,0006.
Por
tanto,
respectivamente
la
los
errores
estndar
de
los
coeficientes
estimados
para el
2
11
22
Ejemplo
11.3
Los
programas
estadsticos
convencionales
facilitan
directamente
masa
corporal
y el consumo
deel nivel
alcohol
son
respectivamente
n - ppuede
- 1degrados
de libertad.
conndice
As,
afirmarse
con una confianza
del 95% que
medio
de colesterol
b

t
SE
(
b
)
=
0,0028

1,970,0006
=
(0,0016;
0,0040),
2
446;0,975
2
(
b
)
=
s
v
=
0,0036
y
SE
(
b
)
=
s
v
=
0,0006.
Por
tanto,
respectivamente SE
Por
tanto,
los
ICs
al 95% para
los ICs
de regresin
son
1 al 95%
2
11 para estos coeficientes
22
las
estimaciones
puntuales
de
los
coeficientes
de
regresin
lineal
mltiple
estos
de regresin
son del estudio EURAMIC disminuye entre y sus
HDL coeficientes
en la poblacin
de referencia
Ejemplo
11.3
Los programas
convencionales
facilitan
directamente
los ICs al 95% para
estos
de(bdentro
regresin
son
queerrores
tambin
incluyen
deestadsticos
los
de la=
Tabla
11.1.
Encoeficientes
general,
el
bcoeficientes
set446;0,975
SE
= Tabla
0,0207
resultados
1,97
0,0036
( 0,0278;
0,0135),
1estndar.
1 ) la
Segn
11.1,
los errores
estndar
de los
3,500,0135 = 0,047 y 3,500,0278 = 0,097 mmol/l por cada incremento de c1 =
b2 t446;0,975puntuales
SE(b2 ) = de
0,0028
1,97 0,0006
= (0,0016;lineal
0,0040),
las estimaciones
los subyacente
coeficientes
regresin
mltipledeycsus
cde
j asociado
un aumento
intervalo
el
jconsumo
j
estimados
para el ndice
deefecto
masa =corporal
y el-0,0135),
deaalcohol
son
b1 t446;0,975
SE(b1de
)2 =confianza
-0,0207
para
1,970,0036
(-0,0278;
ndice de
masade
corporal
entre sujetos
con la11.1.
misma
3,50tambin
kg/m enseelincluyen
que
dentro
los resultados
de la Tabla
En ingesta
general,de
el intervalo
errores
Segn
lasubyacente
TablaX11.1,
errores
estndar
de los coeficientes
como
unidades
enestndar.
la
variable
explicativa
de respectivamente
confianza
para
elSE
efecto
cjlos
j asociado
a=un
aumento
de cj unidades
j se calcula
b2 t446;0,975
SE
(
b
)
=
0,0028

1,970,0006
=
(0,0016;
0,0040),
(
b
)
=
s
v
=
0,0036
y
SE
(
b
)
s
v
0,0006.
Poreltanto,en la
2 se incluyen dentro
1
que tambin
de los resultados de la2 Tabla 11.1.
general,
22 =En
alcohol, explicativa
y que la media
del colesterol HDL aumenta
entre 200,0016
variable
Xj sepoblacional
calcula 11
como
estimados para el ndice de masa corporal y el consumo de alcohol son
bj resultados
tpara
cj{11.1.
bj ctj
intervalo
elcoeficientes
n p 1,1
efecto
/2 SE(cjsubyacente
j ) = de
n jpasociado
j )}. aumento de cj
/2 SE(abun
los ICsde
al confianza
95%
para
estos
regresin
son
que tambin se incluyen
decjlos
de labpor
Tabla
En1,1
general,
= 0,032 dentro
y 200,0040
= 0,080 mmol/l
cada
incremento
de cel
2 = 20 g/da en el
SE
(b1una
) = sconfianza
v11 = 0,0036
y SE
(b2el
) =nivel
s vmedio
Por tanto,
respectivamente
22 = 0,0006.
As,
puedeenafirmarse
con
del
95%
que
de colesterol
HDL en
X
se
calcula
como
unidades
la
variable
explicativa
j
c

asociado
a
un
aumento
de
c
intervalo de confianza
para
el
efecto
subyacente
j
j
j
referencia
t446;0,975
SEsujetos
(del
b1) estudio
= -0,0207
1,970,0036
= masa
(-0,0278;
-0,0135),
consumo
debalcohol
entre
con el
mismo
ndice
de
corporal.
Estos = 0,047
la
poblacin
EURAMIC
disminuye
entre
3,500,0135
1de
2
los
ICs
al
95%
para
estos
coeficientes
de
regresin
son
y3,500,0278 = 0,097 mmol/l por cada incremento de c1 = 3,50 kg/m en el ndice de
X
setdel
calcula
como
unidades en la variable
explicativa
bj sujetos

(0,0028
cmisma
{1,970,0006
bj tn-p-1,1SE(0,0016;
(bjy)}.quede
n-p-1,1jbmasa
j) = c
jcorporal
/2=
efectos
independientes
de
la
ingesta
b2entre
ctj446;0,975
SEndice
(con
b2/2)SE
=
0,0040),
masa
corporal
lade
ingesta
deyalcohol,
la alcohol
media poblacional
13
del colesterol
HDL
aumenta
entre
200,0016
=
0,032
y
200,0040
=
0,080
mmol/l
por
b1 t446;0,975SE(b1) = -0,0207 1,970,0036 = (-0,0278; -0,0135),
sobre
el
colesterol
HDL
son
muy
significativos,
ya
que
sus
correspondientes
test
cada
incremento
de
c
=
20
g/da
en
el
consumo
de
alcohol
entre
sujetos
con
el
mismo
cjbque
cj{dentro
bj tn-p-1,1(bj)}. de la Tabla 11.1. En general, el
j tn-p-1,1/2SE
jbj)2
/2SE
tambin
se(cincluyen
de los
resultados
ndice de masa
corporal.
Estos
efectos
independientes
del=ndice
de 0,0040),
masa corporal y de la
b2 t446;0,975SE(b2) = 0,0028 1,970,0006
(0,0016;
estadsticos
ingesta
de alcohol sobre el colesterol HDL son muy significativos, ya que sus
de cj
intervalo de confianza para el efecto subyacente cjj asociado a un aumento 13
correspondientes test estadsticos
que tambin se incluyen dentro de los resultados de la Tabla 11.1. En general, el
b1
0,0207 como
unidades en la variablet explicativa
=Xj se calcula
=
= 5,68,
13
(
)
0
,
0036
SE
b
1
intervalo de confianza para el efecto
subyacente cjj asociado a un aumento de cj
cjbj tn-p-1,1-b/22SE(cjb0j),0028
= cj{bj tn-p-1,1-/2SE(bj)}.
t=
= 4,68,
X=j se calcula
como
unidades en la variable explicativa
SE (b2 ) 0,0006
arrojan valores P bilaterales
2P(t446
5,68) 2F(5,68) < 0,001 y 2P(t446 4,68)
cjbj tn-p-1,1/2SE(cjbj) = cj{bj tn-p-1,1-/2SE(bj)}.
2{1 F(4,68)} < 0,001, tal como muestra la Tabla 11.1.
arrojan valores P bilaterales 2P(t446 -5,68) 2(-5,68) < 0,001 y 2P(t446 4,68) 13
11.3.3 2{1
Inferencia
sobre
la ecuacin
de muestra
regresin
- (4,68)}
< 0,001,
tal como
la Tabla 11.1.

13
La ecuacin de regresin puede utilizarse para estimar el valor esperado de la variable respuesta
en funcin de los valores de las variables explicativas. Dados unos determinados valores x01, ,
11.3.3 Inferencia sobre la ecuacin de regresin
Pastor-Barriuso R.

La ecuacin de regresin puede utilizarse para estimar el valor esperado de la variable


respuesta en funcin de los valores de las variables explicativas. Dados unos

201

de+ una
variable
dicho
forma equivalente,
o, dicho
formadeequivalente,
estos es
1x01determinada
+determinada
px0pvariable
y varianza
2ho,
en
aproximadamente normal con media 0de+ una
0 de
respuesta en funcin de los valores de las variables explicativas. Dados unos
alrededor
de qu
se agrupan
datos observados.
Las
alrededor
de qu valor
sevalor
agrupan
los datoslosobservados.
Las medida
muestras
suficientemente grandes,
Regresin
lineal mltiple
determinados valores x01, , x0p de las variables explicativas, el estimador insesgado
central
de la muestra
sirven
tanto
para resumir
los resultados
de
la muestra
sirven tanto
para
resumir
los resultados
observ
~ N( + central
AS
DE TENDENCIA
CENTRAL
TENDENCIA
CENTRAL
y 0
1 x01 + + p x0p , 2 h0 ),
0
que,
como
se muestra
envariable
el Apndice
de este
se distribuye
deesperado
forma de la variable
esperado
de la
es tema,
x0p del
de valor
las
variables
explicativas,
elrespuesta
estimador
insesgado
del valor
inferencias
acerca
de los parmetros
poblacionales
realizar realizar
inferencias
acerca de
los parmetros
poblacionales
correspoc
respuesta
es
sdencia
de tendencia
informan
acerca
de
esmedia
elms
valor
ms
representativo
central central
informan
acerca
cul
es cul
el
valor
donde
h0 es elde
leverage
delcon
punto
(x representativo
una
, ,
+ x10p
x ) que
+ puede
+ pxinterpretarse
y varianza como
2h0 en
aproximadamente
normal
y 0 = b010 0+continuacin
b1 x01 01+continuacin
+sebpdescriben
x0p 0p se describen
los principales
estimadores
de la t
los principales
estimadores
de la tendenci
minada
dicho
de equivalente,
forma equivalente,
estos estimadores
variablevariable
o, dichoo,de
forma
estos estimadores
indicanindican
muestras
grandes,
medida
distancia
al centro
de lasCENTRAL
medias
muestrales
( x1 ,
que,
como estandarizada
sesuficientemente
muestra ende
el su
Apndice
derespecto
este
tema,
se distribuye
de
forma
aproximadamente
1.2
1.2
MEDIDAS
MEDIDAS
DE
DE
TENDENCIA
TENDENCIA
CENTRAL
variable.
variable.
2
normal con media 0 + 1x01 + + px0p y varianza h0 en muestras suficientemente grandes,
qusevalor
se agrupan
losobservados.
datos observados.
Las medidas
de tendencia
alor
agrupan
los datos
Las medidas
de tendencia
~ N( +Apartir
2
de
de
, x p ) de las variables explicativas.
yLas

la+ distribucin
central
, informan
h0informan
),tn-p-1 resultante
0
1 xtendencia
01 +
p x0p
0
Las
medidas
medidas
de
de
tendencia
central
acerca
acerca
de cul
de cul
es elesvalor
el valor
msms
represe
repr
1.2.1 aritmtica
Media aritmtica
1.2.1 Media
sirvenpara
tanto
para resumir
los resultados
observados
como para
ramuestra
sirven tanto
resumir
los resultados
observados
como para
donde h0 es el
leverage del punto
(x01, , x0p) que puede interpretarse como una medida
s2huna
, determinada
se=sigue
que
el intervalo
confianza
al1,15).
100(1 - )%
sustituir 2 porysuestimacin
de
una
de
determinada
variable
variable
o,aritmtica,
dicho
o,,de
dicho
de=forma
de
forma
equivalente,
estos
estos
estimadores
estimadores
ind
14
t
s
1,12

1,97
0puede
,077
0interpretarse
0025
(1,09;
446;0,975
La
media
denotada
por
x p,) se
define
0 (x01
La
media
aritmtica,
denotada
por
se
como
lacomo
sumaladesum
ca
,define
de
las
estandarizada
de
su0 distancia
respecto
al
centro
de
las
medias
muestrales
( x 1,equivalente,
donde
h
es
el
leverage
del
punto
,
,
x
)
que
como
una
0
0p
rencias
acerca
de los parmetros
poblacionales
correspondientes.
A
acerca de
los parmetros
poblacionales
correspondientes.
A
2
variables explicativas. A partir de la distribucin tnp1 resultante de sustituir por su estimacin
0 de
+alrededor
confianza
x01 +
xvalor
el valor
esperado
de +valores
qu
de
qu
valor
agrupan
se muestrales
agrupan
losvalor
los
datos
datos
observados.
Las
medidas
medidas
de tendenci
de
tende
1alrededor
0p es
se sigue
que el
intervalo
alp100(1
se
)%
para
el
esperado
Las
s2, para
valores
dividida
porel
de
observaciones
muestrales
por
el observados.
nmero
realizad
x11xobservaciones
,01 +
medida
estandarizada
de
su
distancia
respecto
al
centro
dedividida
las
medias
muestrales
(de
0 +nmero
ncriben
se describen
los
principales
estimadores
de
la
tendencia
central
de
una
los principales estimadores
de
la
tendencia
central
de
una
Por el contrario,
el
valor
esperado
del
colesterol
HDL
entre
los
sujetos
con
un
y 0 t446;0,975 s h0 = 1,12 1,97 0,077 0,0025 = (1,09; 1,15).
+ px0p es
central
central
de la
demuestra
la muestra
sirven
sirven
tanto
paramuestral
para
resumir
resumir
los
los
resultados
observados
como
por
eltanto
tamao
por
xi resultados
el
valorobservados
observado
paracom
elpa
valor
observado
para el sujeto
in el
tamao
muestral
por
xi yel
y 0 kg/m
Atpor
slanhdistribucin
npartir
de
/2 consumo
) de las
explicativas.
tyn-p-1
resultante
, x pndice
p2 1,1
0 .
devariables
masa corporal
de 32
y un
de alcohol
de
40 g/dade
se
realizar
realizar
inferencias
acerca
acerca
deHDL
los
de
parmetros
parmetros
poblacionales
poblacionales
correspondientes.
A
Por elesperar,
contrario,
el valor
esperado
colesterol
entre
los por
sujetos
conenunel correspondientes.
Como cabra
la estimacin
delinferencias
valor
esperado
de
lalos
variable
respuesta
punto
lavendra
media
vendra
dada
ladel
media
dada
por
2 en 1,58 - 0,020732
2 + 0,002840 = 1,03 mmol/l, cuyo IC al 95%
estima

por
su
estimacin
s
,
se
sigue
que
el
intervalo
de
confianza
al
100(1

)%
sustituir
aritmtica (x01Como
, , x0pcabra
) ser esperar,
tanto mslaimprecisa
cuanto
ms
extremo
puntorespuesta
o, ms concretamente,
tica
estimacin
del valor
esperadosea
de dicho
la variable
en el
2
continuacin
continuacin
se
describen
se
describen
los
los
principales
principales
estimadores
estimadores
la
detendencia
la tendencia
central
central
de ud
ndice
de
masa
corporal
de
32
kg/m
y
un
consumo
de
alcohol
de
40
g/da de
se
medias
muestrales
cuanto mayor sea su distancia estandarizada h0 respecto al centro de las
n
n
+
+
...
+
x
x
x
1 x1 + x 2 +1... + 2x n
1
n
tanto
+1,03
cada
x01
+uno

+0uno
para
el
valor
itmtica,
denotada
por
x(p,x).
se, como
define
la
suma
cada
de
a,
denotada
por ( x 1,punto
se
suma
de
,define
0 de
1ms
px0p
.
,esperado
x0pla)como
ser
imprecisa
cuanto
ms
seax dicho
o, ms
x x=i =
xi =
.
= punto
01
,los
077
es
0,los
0113
= extremo
(0,97; 1,09)
de
1,97
variable.
variable.
n i =1
n
n
estima en 1,58 - 0,020732 + 0,002840 = 1,03 mmol/l, cuyo IC aln95%
i =1
2
strales dividida
por
elEjemplo
nmero
de observaciones
realizadas.
Si denotamos
dividida
por el nmero
de observaciones
realizadas.
Simasa
denotamos
11.4
Paramayor
un ndice
de
corporal
de x = 25hkg/m
y un consumo
al centro de alcohol
las
concretamente,
cuanto
sea
su
distancia
estandarizada
0 respecto
y 0 tn-p-1,1-/2 s h0 01
.
ms
impreciso,
ya
que
el
punto
de
estimacin
(32,
40)
est
= 20 g/da, el modelo
de
regresin
mltiple
estima
un
nivel
medio
de
colesterol
HDL
de es
x02sensiblemente
1.2.1
1.2.1
Media
Media
aritmtica
aritmtica
Laesmedia
es la1,09)
medida
de tendencia
central
ms utilizada
La media
la
medida
de tendencia
central ms
utilizada
y de m
0,0113
= (0,97;
1,03 1,97 0,077
ao
muestral
x
el
valor
observado
para
el
sujeto
i-simo,
i
=
1,
...,
n,
estral
y por xiyelpor
valor
observado
para
el
sujeto
i-simo,
i
=
1,
...,
n,
i
= 1,58 0,020725
de 0muestrales
medias
( x1 , , x+p ).0,002820 = 1,12 mmol/l. El punto de estimacin (x01, x02) =
delprximo
centro
de
las
muestrales
(26,2;
16,5)
y xpresenta
un
leverage
Lacentro
media
Lamedias
media
aritmtica,
aritmtica,
denotada
denotada
xCorresponde
se
define
como
como
lagravedad
suma
la ambas
suma
de
cada
de
uno
uno
delos
los
de
=respuesta
(26,2;
de
(25,distante
20) est
al
de
las
medias
muestrales
(variable
1, se
2,)define
interpretacin.
al16,5)
centro
de
gravedad
de
interpretacin.
Corresponde
al
centro
deen
de cada
los
datos
ded
Como
cabra
la estimacin
del
valor
esperado
depor
la por
el
yesperar,
0 t446;0,975 s h0 = 1,12 1,97 0,077 0,0025 = (1,09; 1,15).
ndrapor
dada por
ada
es bajo.
As, el IC al
variables
explicativas
y, en
consecuencia,
leverage
es sensiblemente
ms
impreciso,
ya que su
el punto
de hestimacin
40) est
0 = 0,0025(32,
2 observaciones
alto
95%
para
elx11.4
valorPara
esperado
delmuestrales
colesterol
HDL
entre
los
sujetos
con
un
ndice
de
masa
valores
valores
muestrales
dividida
dividida
por
por
el=nmero
el
nmero
observaciones
realizadas.
realizadas.
Si denota
Si den
Ejemplo
un
ndice
de
masa
corporal
de
xlimitacin
25
kg/m
yde
un
consumo
de
principal
esde
que
est
muyo,influenciada
por
los
val
principal
limitacin
que
est
muy
influenciada
por
los valores
ext
punto
(x01
,de
,0,0113.
tanto
ms
imprecisa
cuanto
ms
extremo
sea
dicho
punto
ms
01 es
0p) ser
2
y
un
consumo
de
alcohol
de
20
g/da
es
corporal
de
25
kg/m
ndistante
n
del
centro
de
las
medias
muestrales
(26,2;
16,5)
y
presenta
un
leverage
Por
el
contrario,
el
valor
esperado
del
colesterol
HDL
entre
los
sujetos
con
un
+ +x 2x+n ... + x n
1 x1 + x 2 x+1 ...
1
.nsea
xconcretamente,
x i = decuanto
. mayor
x=
x=i =
porpor
el
tamao
el distancia
tamao
muestral
muestral
ypuede
por
ymltiple
por
xun
elxhfiel
elrespecto
valor
para
para
sujeto
elcentral
sujeto
i-simo,
i-simo,
i =dei1,=
i no
ivalor
g/da,
eln1,12
modelo
depuede
regresin
estima
un
nivel
medio
alcohol
caso,
unobservado
fielobservado
reflejo
de
laellas
tendencia
central
l
caso,
no
ser
reflejo
de
la tendencia
de
la distrib
al
centro
de
su
estandarizada
0ser
n i =valor
n=y20
n i =1 El
yn0 xt02
s
h
=

1,97
0
,
077

0
,
0025
=
(1,09;
1,15).
1
446;0,975
predicho
es
un
estimador
insesgado
no
slo
de
la
esperanza
o
media
0
2
0
alto de
de masa
0,0113.
ndice
corporal
de 32 kg/m y un consumo de alcohol de 40 g/da se
la xmedia
media
vendra
vendra
dada
dada
por+por
yla
= 1,58
-del
0,020725
0,002820
= 1,12
mmol/l.con
El punto
colesterol
de
Pordeel
contrario,(HDL
esperado
colesterol
HDL entre
los sujetos
un ndice
xel1 ,valor
,
medias
muestrales
p0 ).
2ms
poblacional
de
la
variable
respuesta
entre
aquellos
sujetos
con
los
mismos
valores
deejemplos
las en ejemplos
Ejemplo
1.4
En
este
y
en
los
sucesivos
sobre
Ejemplo
1.4
En
este
y
en
los
sucesivos
sobre estima
es la medida
de tendencia
central
ms
utilizada
y
de
fcil
medida
de tendencia
central
ms
utilizada
y
de
ms
fcil
de masa
de 32esperado
kg/m
ydel
un colesterol
consumo
de alcohol
deal
40
g/da
estima
en corporal
1,58 - 0,020732
+ 0,002840
= 1,03 mmol/l,
cuyo los
IC
95%
Por
el contrario,
el valor
HDL
entre
sujetos
conseunestima

El
valor
predicho
y
es
un
estimador
insesgado
no
slo
de
la
esperanza
o
media
n
1,58
0,020732(x+0100,002840
1,03est
mmol/l,
cuyoalIC
al
xmuestrales
x+ xn
1 95%
1den lasxmedias
, x02) = (25,= 20)
prximo
centro
deestimacin
1 +x1x 2+ +
2...++...
.
=
=
=de
x
x
x
x inuevo
y0n =.de
explicativas,
sino
tambin
de
respuesta
individual
de
sujeto
2lamuestra.
2=
utilizarn
los
valores
del
colesterol
HDL
obtenidos
enp
utilizarn
los
valores
del
colesterol
HDL
obtenidos
en los 10
n.
Corresponde
alvariables
centro
de
gravedad
de
los
datos
de
la
Su
responde
al centro
de
gravedad
de
los
datos
de
la
muestra.
Su

i un
Ejemplo
11.4corporal
Para unde
ndice
de masa
de de
x01alcohol
=
25
kg/m
y
un
consumo
ndice
de masa
32 kg/m
y uncorporal
consumo
40
g/da
se
n 1,09)
n n
i =n
1 i =1
0
,
077

0
,
0113
=
(0,97;
1,03

1,97
poblacional
la variable respuesta entre aquellos sujetos con los mismos valores de las
( x1 , x de
2 ) = (26,2; 16,5) de ambas variables explicativas y, en consecuencia, su
estudio
European
Study
onmedio
Antioxidants,
Myocardial
estudio
European
Study on
Antioxidants,
Myocardial
Infarct
0muy
+essensiblemente
x
+

xvalores
+los
impreciso,
En el
Apndice
esteeste
tema
se demuestra
que,
bajo
las
mitacin
es que
est
influenciada
por
extremos
y,
en
n es que est
muy
influenciada
por
extremos
ende
este
1
01
0p20
0.valores
x02
=ms
g/da,
modelo
regresin
un
alcohol
de+los
yay,que
elde
punto
de mltiple
estimacin
40)nivel
est
distante
del
estima
en 1,58
-p0,020732
+el0,002840
=
1,03
mmol/l,
cuyo estima
IC(32,
al 95%
y0 = y dey ms
variables
explicativas,
sino tambin
de la la
respuesta
individual
decentral
un central
nuevo
sujeto
La media
La media
esel
medida
lapunto
medida
de
tendencia
de
tendencia
ms
ms
utilizada
utilizada
de ms
fcilfcil
centro
de lash0medias
(26,2;
presenta
unvalor
leverage
de
es
sensiblemente
msmuestrales
impreciso,
yaes
que
de
estimacin
(32,alto
40)
est
=central
0,0025
eslabajo.
As,
el16,5)
ICthe
al y95%
para
el
esperado
del0,0113.
the
Breast
(EURAMIC),
un
estudio
multicntrico
Breast
(EURAMIC),
un
estudio
multicntrico
de casosdey
no fiel
ser reflejo
un fiel reflejo
de leverage
la
tendencia
de
distribucin.
un
de laasunciones
tendencia
central
de
la
distribucin.
de
la
regresin
lineal
mltiple
(linealidad,
aditividad,
homogeneidad
de
la
de colesterol HDL de y 0 = 1,58 - 0,020725 + 0,002820 = 1,12 mmol/l. El punto
0insesgado
,077
0Corresponde
,0113
=
(0,97;
1,09)
1,97
El0 +valor
1x01predicho
+del
centro
+ pxes
+ las
interpretacin.
En
el Apndice
de
esteslo
tema
se
demuestra
que,
bajo
las
interpretacin.
Corresponde
aldecentro
allaycentro
de gravedad
de un
gravedad
depoblacional
los
datos
datos
de la
demuestra.
la muestrS
2de los
0p 1,03
0.
estimador
no
esperanza
o media
distante
deun
medias
muestrales
(26,2;
presenta
leverage
y un
colesterol
HDL
los
sujetos
con unentre
ndice
de16,5)
masa
corporal
de
25
kg/m
0 entre
entre
1991
y
1992
en
ocho
pases
Europeos
e
Israel
pa
1991
y
1992
en
ocho
pases
Europeos
e
Israel
para
evalu

y
y
sigue
la
distribucin
normal
varianza
y
normalidad),
la
diferencia
0
0sujetos
de la variable
respuesta
con los
mismos
valores
demuestrales
las variables
, sobre
x02) =aquellos
(25, 20)
estmuestrales,
prximo
al se
centro
de las
medias
deejemplos
estimacin
(x01entre
plo
este
enasunciones
los sucesivos
ejemplos
estimadores
En 1.4
esteEn
y en
losysucesivos
sobre
estimadores
muestrales,
se
limitacin
limitacin
es que
esdeque
est
est
muymuy
influenciada
influenciada
por
los
valores
extremos
extremos
y, en
y, e
de latambin
regresin
lineal
mltiple
(linealidad,
aditividad,
homogeneidad
delos
la valores
explicativas,
sino
deprincipal
la principal
respuesta
individual
un
nuevo
sujeto
y = por
altosensiblemente
de 0,0113.
consumo
de alcohol
de
20
g/dayaesque
0 + 1x01 + +
es
ms impreciso,
el punto de estimacin (32,040) est
de este
se~variables
demuestra
que,
las
asunciones
de la su
regresin
px0p + 0(. xEn, xel )Apndice
2
16,5)
de
ambas
explicativas
y,
en
consecuencia,
ytema
-puede
y0primeros
Nser
(0,
sujetos
(1
+
hdistribucin
)),bajo
rn
los valores
delvarianza
colesterol
HDL
obtenidos
encaso,
los
del
valores
del colesterol
HDL1 yobtenidos
en los
10
primeros
sujetos
del
0reflejo
0 10
2 = (26,2;
caso,
puede
no
no
ser
un
fiel
un
fiel
reflejo
de
la
de
tendencia
la
tendencia
central
central
de
la
dedistribucin.
la distribucin.

y
y
sigue
la
normal
normalidad),
la
diferencia
0
lineal mltiple (linealidad, aditividad, homogeneidad
de la varianza y normalidad), la diferencia
0
distante del centro de las medias muestrales (26,2; 16,5) y presenta un leverage
siguepredicho
la distribucin
normal
0 Ely0valor
y 0 esInfarction
un
estimador
insesgado
no slo
esperanza o media
o European
Study
on Antioxidants,
Infarction
of deellavalor
opean
Study on
Antioxidants,
Myocardial
and
h0 =Myocardial
0,0025 es bajo.
As,Cancer
eland
IC Cancer
alof95% para
esperado del
leverage
15
2
de alto
tal forma
que
el
intervalo
de
prediccin
al
100(1

)%
para
una
nueva
observacin
de 0,0113.
y0 Ejemplo
y0 ~ N
(0,1.4
En
(1 +
Ejemplo
1.4
En
este
este
yhen
y los
en los
sucesivos
sucesivos
ejemplos
ejemplos
sobre
sobre
estimadores
estimadores
muestra
mue
0 )),
de lamulticntrico
variable
respuesta
entre
aquellos
sujetos
mismosdevalores
de2 las
east (EURAMIC),
un estudio
de
y controles
realizado
EURAMIC),
unpoblacional
estudio
multicntrico
deentre
casos
ycasos
controles
realizado
y un
colesterol
HDL
los
sujetos
con
un ndice
de con
masalos
corporal
25 kg/m
de individual
tal forma yque
el intervalo
prediccin
al
100(1
)%
para HDL
unaHDL
nueva
observacin
dado por deutilizarn
0 viene
utilizarn
los los
valores
valores
del del
colesterol
colesterol
obtenidos
obtenidos
en los
en los
10 primeros
10 primeros
sujes
viene
dado
por
individual
y
y
variables
explicativas,
sino
tambin
de
la
respuesta
individual
de
un
nuevo
sujeto
de
tal
forma
que
el
intervalo
de
prediccin
al
100(1

)%
para
una
nueva
observacin
0Europeos
1991
ocho
pases
Israel
evaluar
el de
efecto
deslo
los de la esperanza o media0 =
1992 yen1992
ochoenpases
e Israel
evaluar
el efecto
los no
El Europeos
valor
predicho
y e0para
es un
estimador
insesgado
consumo
de alcohol
depara
20 g/da
es
estudio
European
Study
Study
on Antioxidants,
on Antioxidants,
Myocardial
Myocardial
Infarction
Infarction
andand
Canc
C
y 0 estudio
tn European
p 1,1 /2 s 1 + h0 .

En
el
Apndice
de
este
tema
se
demuestra
que,
bajo
las
y
viene
individual
0+
1x01 +
px0pdado
0.por
0
poblacional de la variable respuesta entre aquellos sujetos
con
5 los mismos valores de las
5
the the
Breast
Breast
(EURAMIC),
(EURAMIC),
un estudio
un estudio
multicntrico
multicntrico
de casos
de casos
y controles
y controles
rea
15
asunciones
de
la
regresin
lineal
mltiple
(linealidad,
aditividad,
homogeneidad
de
la
202 variables
Pastor-Barriuso
R.
Este intervalo
de prediccin
parayla
individual
de un
sujeto
ser y0 =
explicativas,
sino tambin
derespuesta
latn-p-1,1respuesta
individual
de nico
un nuevo
sujeto
/2 s 1 + h0 .
0
entre
entre
1991
1991
y 1992
y 1992
en ocho
en ocho
pases
pases
Europeos
Europeos
e Israel
e Israel
parapara
evaluar
evaluar
el efecto
el efect
d

y
y
sigue
la
distribucin
normal
varianza
y
normalidad),
la
diferencia
0
amplio que el 0intervalo de confianza para la respuesta media de
0 +substancialmente
1x01 + + pxms
0p + 0. En el Apndice de este tema se demuestra que, bajo las

prediccin incorpora la varianza residual de cada respuesta individual alrededor de


Contrastes de hiptesis en regresin lineal mltiple
dicha ecuacin de regresin. Notar, adems, que los intervalos
de prediccin para una

nueva observacin requieren de la hiptesis de normalidad, mientras que los intervalos


Este intervalo de prediccin para la respuesta individual de un nico sujeto ser substancialmente
de
paraelelintervalo
valor esperado
tiendenpara
a serlacorrectos
muestras
suficientemente
msconfianza
amplio que
de confianza
respuestaenmedia
de todos
los sujetos con un
mismo patrn de variables explicativas ya que, adems del error en la estimacin del valor
grandes,
de la distribucin
subyacente
de la incorpora
variable respuesta.
predicho independientemente
por la ecuacin de regresin,
el intervalo
de prediccin
la varianza residual
de cada respuesta individual alrededor de dicha ecuacin de regresin. Notar, adems, que los
intervalos de prediccin para una nueva observacin requieren de la hiptesis de normalidad,
Ejemplo
11.5intervalos
El valor predicho
del colesterol
HDL esperado
para un nuevo
sujeto
concorrectos
un
mientras
que los
de confianza
para el valor
tienden
a ser
en
muestras suficientemente grandes, independientemente de la distribucin subyacente de la
ndice
de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/da es de
variable
respuesta.

y 011.5
= 1,58El- 0,020725
+ 0,002820
= 1,12HDL
mmol/l.
el con un ndice
nuevo
Ejemplo
valor predicho
del colesterol
paraSin
un embargo,
nuevo sujeto
de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/da es de nuevo 0 = 1,58
0,020725
+ 0,002820
= 1,12
mmol/l.
Sin embargo,
el intervalo de prediccin al 95%
intervalo
de prediccin
al 95%
para
esta nueva
observacin
para esta nueva observacin
y 0 t446;0,975 s 1 + h0 = 1,12 1,97 0,077(1 + 0,0025) = (0,57; 1,67)
es notablemente ms impreciso que el intervalo de confianza calculado en el ejemplo
anterior
para el valor
medio delque
colesterol
HDLde
enconfianza
todos los calculado
sujetos con
valores
es
notablemente
ms impreciso
el intervalo
en dichos
el
del ndice de masa corporal y del consumo de alcohol (IC al 95% 1,09-1,15 mmol/l).
ejemplo anterior para el valor medio del colesterol HDL en todos los sujetos con
11.4 dichos
CONTRASTES
HIPTESIS
EN REGRESIN
LINEAL
MLTIPLE
valores del DE
ndice
de masa corporal
y del consumo
del alcohol
(IC al 95%
Como1,091,15
se vio en mmol/l).
el Apartado 10.3.2 del tema anterior, el contraste de un modelo de regresin
lineal simple se reduce a evaluar si el coeficiente 1 asociado a la nica variable explicativa es 0,
en cuyo caso el modelo no aportar explicacin alguna sobre la variabilidad de la variable
respuesta. En regresin lineal mltiple, sin embargo, la presencia de mltiples variables
explicativas
permite realizar
distintos contrastes
de hiptesis,
que danMLTIPLE
respuesta a diferentes
11.4
CONTRASTES
DE HIPTESIS
EN REGRESIN
LINEAL
preguntas de investigacin. En general, los contrastes de hiptesis en regresin lineal mltiple
pueden clasificarse en tres grandes grupos, a saber:
Como se vio en el Apartado 10.3.2 del tema anterior, el contraste de un modelo de
yy El contraste global determina si el modelo en su conjunto explica una parte significativa
de lalineal
variabilidad
de reduce
la variable
respuesta.
regresin
simple se
a evaluar
si el coeficiente 1 asociado a la nica
yy Los contrastes parciales individuales evalan la contribucin independiente de cada
variable
explicativa
es 0, en
caso el modelo
no aportar
alguna sobre
variable
explicativa
unacuyo
vez controlados
los efectos
de lasexplicacin
restantes variables
explicativas.
yy Los contrastes
parcialesrespuesta.
mltiplesEnvaloran
si un
determinado
subgrupo
delados o ms
la variabilidad
de la variable
regresin
lineal
mltiple, sin
embargo,
variables explicativas contribuye significativamente a explicar la variabilidad residual de
la variable
respuesta
que noexplicativas
se explica por
las otras
variables
incluidas
en el de
modelo.
presencia
de mltiples
variables
permite
realizar
distintos
contrastes

En los siguientes apartados se describen los procedimientos estadsticos necesarios para realizar
hiptesis,
que danConviene
respuestaresaltar
a diferentes
preguntas
de de
investigacin.
En general,
losy aditividad
dichos contrastes.
que estos
contrastes
hiptesis asumen
linealidad
en los efectos de las variables explicativas y, en consecuencia, no deben interpretarse como pruebas
contrastes
lineal
mltiple
pueden clasificarse
en tres del
grandes
de bondad de
delhiptesis
ajuste, yaen
queregresin
no facilitan
ninguna
informacin
sobre la idoneidad
modelo lineal
aditivo para describir la relacin subyacente de las variables explicativas con la variable respuesta.
grupos, a saber:
11.4.1 Contraste global del modelo de regresin lineal mltiple

17

La hiptesis nula del contraste global de un modelo de regresin lineal mltiple establece que ninguna
de las variables explicativas se asocia linealmente con la variable respuesta, que puede formularse
Pastor-Barriuso R.

203

Regresin lineal mltiple

Al igual
que en regresin
lineal
simple,
este de
contraste
global
antioxidantes en el riesgo
de desarrollar
un primer
infarto
agudo
miocardio
en se realiza

descomponiendo
de 1,58,
la variable
respuesta.
Una
estimada
la ecuacin
como
Hvalores
: 1 = 2obtenidos
= la
= variabilidad
0. Bajo
esta
hiptesis
nula,
la ecuacin
devez
regresin
se reduce
al trmino
hombres adultos.
Los
fueron
0,89,
0,79,
1,42, global
0,84,
p=
Al0 igual
que en regresin
lineal
simple,
este1,29,
contraste
se realiza
constante 0 y el modelo no aportar entonces ninguna explicacin sobre la variabilidad de la variable
=media
yLa
b0es,+ por
bde
+
+ bpxpdel
, lacolesterol
suma
de cuadrados
dela=variable
regresin
1x1tanto,
= 2 =SST
=
0 frente a la
El propsito
contrastar
la
hiptesis
nula en
H0: 1total
1,06, 0,87, 1,96respuesta.
y de
1,53
mmol/l.
los
niveles
HDL
descomponiendo
la variabilidad
de la variable
respuesta.
Una
vez estimada
lap ecuacin
hiptesis alternativa bilateral de que al menos una de las variables explicativas se relaciona linealmente
: 0 para algn j = 1, , p.
conrespuesta
la respuesta,
quedescomponerse
corresponde a Hcomo
estos 10 participantes
es puede
y = b0 + b1x1 + 1+ bjpxp, la suma de cuadrados total SST de la variable
de regresin
Al igual que en regresin lineal simple, este contraste global se realiza descomponiendo la
n
n
variabilidad
de
de regresin = b0 + b1x1
2Una vez estimada la ecuacin
+
1 10
0la
,89variable
1,58=+respuesta.
...(+y1,53ycomo
respuesta
puede
descomponerse
SST
)
=
( ymmol/l.
y + yi y i ) 2

i
i
x+ = +
x
=
1,223
=
totali =1SST de la variable respuesta puede descomponerse
b x i, la suma de cuadrados
10 p p
10 i =1
como i =1
n
n
n
n
n
2
2
2 +

=
(
y

y
)
(
y

y
)
+
2
SST =
( yii y ) =
( yii yi + yi
y i )(2y i y )( yi y i )

i =1
i =1
i =1
i =1 de miocardio
i =1 en antioxidantes en el riesgo de desarrollar un primer infarto agu
riesgo aritmtica
de desarrollar
un primer
infarto agudo
media
presenta
las siguientes
propiedades:
n
n
n CENTRAL
n
n
1.2 MEDIDASCENTRAL
DE TENDENCIA
DAS DE TENDENCIA
=
(( yyi
yy )) 22 +
(( yyi
yyi ))22 +
= 2SSR( +y SSE,

)( yi valores
y i ) obtenidos fueron 0,89, 1,58, 0,7

i
i
i
i yLos
adultos.
Los
valores
fueron 0,89,
1,58,
0,79,
1,42,i =0,84,
i una
=1 1,29,
1 cadahombres
Cambio
de obtenidos
origen (traslacin).
Si se
suma
constante
uno de los
1
i =1
i =a
i =1 datos
n
n ms
Las medidas
de tendencia
central
informan
acerca
de representativo
cul 2es el valor ms representativo
s de tendencia
central informan
acerca
de cul
es el valor
2
1,06,
y la
1,53 mmol/l. La media de los niveles del co
1,53
mmol/l.
La
media
de
los
niveles
del
colesterol
HDL
ena( ylai media

=
(
y

y
)
+
y i ) =0,87,
SSR1,96
+ms
SSE,
de una muestra, laya
media
de
la
muestra
resultante
es
igual
inicial

i
que las desviaciones i =y1i - y y yi - iy=1i estn incorrelacionadas
de una determinada
variable
o, dicho deestos
forma
equivalente,
estos estimadores indican
rminada variable
o, dicho de forma
equivalente,
estimadores
indican
estos
participantes
es
tes
es
ya que
i y y=yxi +icestn
incorrelacionadas
yi =desviaciones
xi + c, entonces
. Un cambio
de10
origen
que
constante
utilizada;
si las
nagrupan los datos observados.
alrededor
deque
qu
valor
se
Lasn medidas de tendencia
e qu valor
se agrupan
loslas
datos
observados.
tendencia
y i Las
y yi - yni de
- y medidas
estn
incorrelacionadas
ya
desviaciones

)(

)
=

y
y
y
y
y
e
y ei

i de la variable,
i
i
i i
10
se
con
centrado
que
consiste
en restar a
1 10
0,89 + 1,58 + ... + 1,53
+ 1,58 + ...es
+ 1el,53
1 realiza
0,89frecuencia
i =1
i =1
i =1
x
xpara
= 1,223 m
=
x
=
1,223
mmol/l.
=

i =
i
la10muestra
sirvenlostanto
para resumir
los nresultados
observados
como
a10
muestracentral
sirven de
tanto
para resumir
resultados
observados
comoppara
n
10n i =1
10
n
n
n
i =1
cada valor de la muestra su media. La
de una
= b0
+ y b ejser,
xijpor
ei y ei = 0
variable

( ymedia
y i eecentrada

i y )( y i y i ) =
ii
i
j =i1=correspondientes.
i =1 A
realizar
acerca
poblacionales
rencias acerca
deinferencias
los parmetros
poblacionales
correspondientes.
A
i =1de los parmetros
i =1 i =1
1 i =1
p
tanto,
igual
a
0.
n
n
n
La media
presenta
las siguientes
propiedades:
resenta las siguientes
propiedades:
de acuerdo
a las ecuaciones lineales derivadas del
mtodoaritmtica
de mnimos
cuadrados
(vase Apartado
=
b
e
+
b
x
e

y
ede
0
continuacin
se
describen
los
principales
estimadores
la
tendencia
n se describen
los
principales
estimadores
de
la
tendencia
una

0 central
i de de
j ij i central
i =una
11.3.1).
En consecuencia,
la suma
de derivadas
cuadrados
total
SST
se
en dos(vase
trminos
de acuerdo
a las ecuaciones
lineales
del
de descompone
mnimos
cuadrados
i =1
j =1 mtodo
i =1
i =1
Cambio de escala
(unidades).
Silase
multiplica
cada
uno
de
los
datos
de
una

Cambio
de
origen
(traslacin).
Si
se
suma
una
(traslacin).
Si independientes:
se suma
una constante
a
cada
uno
de
los
datos
suma de cuadrados de la regresin SSR, que representa la variabilidad de
la constante a cad
variable.
es cierta.
Por
otro
lado,
como
vio la
ensuma
el regresin,
Apartado
11.3.1,
la suma
de
delenSSE,
variable
respuesta
explicada
por elsemodelo
de
y la suma
de
cuadrados
del error
Apartado
11.3.1).
En
consecuencia,
de cuadrados
total
SST
se cuadrados
descompone
muestradepor
unaque
constante,
la amedia
de
la
muestra
resultante
es
igual
a
la
media
derepresenta
acuerdo
las
ecuaciones
lineales
derivadas
del
mtodo
de
mnimos
cuadrados
de
una
muestra,
la
media
de
la
muestra
media
la muestra
resultante
es
igual
a
la
media
inicial
ms
la
la variabilidad residual que permanece sin explicar. Por un lado,(vase
laresultante
suma es igual a la
n - p - 1 SSR
grados
de libertad.
Adems,
bajo
lasya
asunciones
del modelo
erroraritmtica
SSE contiene
decuadrados
deindependientes:
la regresin
contiene
p grados
dedelibertad
que,
conocida
la media
1.2.1 Media
a aritmtica
dos
trminos
la suma
de cuadrados
la
regresin
SSR,
que
y
=
cx
,
entonces
y
=
c
x
.
utilizada;
si
i
i
Apartado
11.3.1).
En
consecuencia,
la
suma
de
cuadrados
total
SST
se
descompone
y
=
x
+
c
,
entonces
constante
utilizada;
si
xi +lac,constante
entonces
y
=
x
+
c
.
Un
cambio
de
origen
que
;inicial
si yi =por
muestral , los valores estimados por la ecuacin de regresin i = b0 + ib1xi1i + bpxipen= y += x + c. Un cam
2
selos
distribuye
de
lineal
mltiple,
se
comprueba
elloscociente
SSE/
b1(xrepresenta
regresin
+ la

+ bcomo
lade
quedan
completamente
por
los
coeficientes
media
aritmtica,
denotada
por
xsuma
se
define
como
la
dedeterminados
cada
unoelde
itmtica,La
denotada
por
x 1,) se
define
de cada
unoque
desuma
variabilidad
variable
respuesta
explicada
por
modelo
depregresin,
i1
p(xip
p,)la
2
Cambio
simultneo
de
origen
y
escala.
Si
se
multiplica
cada
uno
de
los
datos
de
dos
trminos
independientes:
la
suma
de
cuadrados
de
la
regresin
SSR,
que
sigue
asociados
las variables
explicativas.
De hecho,
probarse
que el cociente
SSR/ de
sepuede
realiza
con frecuencia
es el centrado
la variable, que con
uencia es el centrado
de laavariable,
que consiste
en restar
a
n
p
1
grados
de
libertad
con
independencia
de
la
conforme
a
una
chi-cuadrado
con
:

distribucin
chi-cuadrado
con
p
grados
de
libertad
cuando
la
hiptesis
nula
H
valoresuna
muestrales
dividida
por
el
nmero
de
observaciones
realizadas.
Si
denotamos
strales dividida
por
el
nmero
de
observaciones
realizadas.
Si
denotamos
y la suma de cuadrados del error SSE, que representa la variabilidad residual
0 que
1
2
una
muestra
por
una
constante
y
al
resultado
se
le
suma
otra
constante,
la
media
representa
la
variabilidad
de
la
variable
respuesta
explicada
por
el
modelo
de
regresin,
= 0 es de
cierta.
otro centrada
lado, como
se por
vio encada
el Apartado
la suma
de cuadrados
p media
valor de 11.3.1,
la muestra
su media.
La mediadel
de una variable c
uestra su media.=La
una Por
variable
ser,
hiptesis
nula.
Combinando
las
distribuciones
muestrales
de
ambas
sumas
de
error
SSE
contiene
n

1
grados
de
libertad.
Adems,
bajo
las
asunciones
del
modelo
de
por nyel
tamao
muestral
y
por
x
el
valor
observado
para
el
sujeto
i-simo,
i
=
1,
...,
n,
ao muestral
por
x
el
valor
observado
para
el
sujeto
i-simo,
i
=
1,
...,
n,
i
i
permanece
sin explicar. Por un lado, la suma de cuadrados de la regresin SSR contiene
2 la
de la muestra resultante
es
igual
a la media
inicial
porSSE,
laque
primera
constante,
de mltiple,
cuadrados
error
que
representa
la
variabilidad
residual
que a una
y la suma
se distribuye
conforme
regresin
lineal
se del
comprueba
el cociente
SSE/
tanto,
igual
a ms
0.
chi-cuadrado
n p que
1 grados
libertad
hiptesis
Hmuestral

p = 0 estimados
lanula.
raznCombinando
entre
se
tiene
bajoconocida
ladehiptesis
nulaindependencia
la por
media
vendra
por
ndra dada
0: 1 = 2 y=,de
pcuadrados,
gradosdada
decon
libertad
ya
que,
la con
media
losla=valores
por la
y
=
c
x
+
c
,
entonces
y
=
c
x
+
c
.
segunda
constante;
si
i
1
i
2
1
2
permanece
sin
explicar.
Por
un
lado,
la
suma
de
cuadrados
de
la
regresin
SSR
contiene
distribuciones
muestrales
de ambas
sumas deCambio
cuadrados,
se tiene
que bajo Si
la hiptesis
nulacada uno de los
de escala
(unidades).
se multiplica
(unidades). Si selasmultiplica
cada uno
de los datos
de una
2
1 = n2 = explicada

=
0
la
razn
entre
la
varianza
explicada
por
la
regresin
SSR/p
y
la
varianza
H0:ecuacin
p
y
la
varianza
residual
s
=
SSE/(
n
p
1)
varianza
por
la
regresin
SSR/
+ b+pxipn = y + b1(xi1 - x1 ) + + bp(xip - x p )
de regresin
0 + bx11xi1
+ +la
+ ...
x 2
x1 +p x 2 +ya...yque,
1i+=nx nbconocida
1 2 de
p=grados
media
muestral
, losconstante,
valores estimados
porlalamuestra resultante e
px = 1)es
residual
s =x i SSE/(n
. por yuna
x.i =a la
= libertad
xde
muestra
la media de
onstante, la media
la
muestra
resultante
igual
media

n de mmol/l a mg/dl se
n i =1
n ndeli =1colesterol HDL
Ejemplo 1.5 Para transformar
los valores
SSR por los p coeficientes asociados a las variables
quedan completamente determinados
= cxi, entonces
y = c xy i. = b0 + b1xi12 + + inicial
ante utilizada; si yiecuacin
bpxip = por
y +labconstante
(x - x ) utilizada;
+ + bp(sixipyi- =xcx
de regresin
p )i, entonces y = c x
p2 del
/ p 1 i1 1
p
SSR As, utilizando
multiplica por el factor de conversin 38,8.
la propiedad
Lade
media
es la medida
de= tendencia
ms
utilizada
y deSSR/
ms fcil
a es la medida
tendencia
central
ms
utilizada
y de ms
fcil
2 = Fp,n p 1
= central
~el cociente
2
sigue una distribucin
explicativas.
DeFhecho,
puede
probarse
que
SSE
n2 p 1 /(n

1
)
ps

Cambio
simultneo
de origen
escala. Si se multiplica cada u
o de origen y escala.
Si
se
multiplica
cada
uno
de
los
datos
de
a las yvariables
determinados
por
los p coeficientes asociados
2 calculara
cambio de escala, quedan
la mediacompletamente
del colesterol HDL
en
mg/dl
se
muestra.
p de1)la
interpretacin.
Corresponde
al centro
de gravedad
de los Su
datos de la muestra. Su
n. Corresponde
al centro
de gravedad
de los(ndatos
chi-cuadrado con p grados de libertad cuando la hiptesis nula2H0: 1 = 2 = = p = 0
una
muestra
porunasigue
constante
y al resultado se le suma otra c
na constante y al resultado
se
le
suma
otra
constante,
la
media
una distribucin
explicativas.
Deen
hecho,
puede
probarse
que el
cociente
SSR/
distribuye
como
el
cociente
de dos
distribuciones
chi-cuadrado
independientes
divididas por
38,8
= 47,45
mg/dl.
directamente a se
partir
de su media
mmol/l
como
1,223
principal
es que est
influenciada
por los
valores
mitacin es
que estlimitacin
muy influenciada
pormuy
los valores
extremos
y, en
este extremos y, en este
distribuye comogrados
el cociente
de dos distribuciones
independientes
sussecorrespondientes
de libertad,
que equivale chi-cuadrado
a una distribucin
F de Fisher con p
muestranula
resultante
a la= media
tante es igual a la chi-cuadrado
media inicial por la
primeradeconstante,
ms ladelalahiptesis
libertad
H
1es
= igual
entre
p =19
0 inicial por la prim
2 = las
grados de libertadcon
en pelgrados
numerador
y n pcuando
1 en el denominador.
La0: razn
varianzas
puede no
un fiel reflejo
de de
la la
tendencia
central de la distribucin.
no ser uncaso,
fiel reflejo
de ser
la tendencia
central
distribucin.
6 a una distribucin F
divididas por sus correspondientes grados de libertad, que equivale
segunda constante; si yi = c1xi + c2, entonces y = c1 x + c2.
; si yi = c1xi + c2, entonces y = c1 x + c2.

204 Pastor-Barriuso
R.con p grados de libertad en el numerador y n - p - 1 en el denominador. La 19
Fisher
1.4 En
este
y en lossobre
sucesivos
ejemplos
sobre estimadores
muestrales, se
plo 1.4 En este Ejemplo
y endelos
sucesivos
ejemplos
estimadores
muestrales,
se
ransformar los valores del colesterol HDL de mmol/l a mg/dl seEjemplo 1.5 Para transformar los valores del colesterol HDL
entre
las varianzas
explicada
residual
constituye,
tanto, sujetos
el estadstico
los valores
del colesterol
HDL
obtenidos
en los del
10 por
primeros
del para el
arn los valoresutilizarn
delrazn
colesterol
HDL
obtenidos
en los
10y primeros
sujetos

Contrastes de hiptesis en regresin lineal mltiple

Tabla
11.2 Tabla genrica del anlisis de la varianza en regresin
Tabla 11.2 Tabla genrica del anlisis de la varianza en regresin lineal mltiple.*
lineal mltiple.*
Suma de
Suma
de
cuadrados
cuadrados
Regresin

SSR =

( y
i =1

Error

SSE =

Total

i =1

i =1

Grados de
Grados
de
libertad
libertad

y) 2

(y
i =1

SSR
p

ei2 = ( y i y i ) 2

SST =

Varianza
Varianza

n p 1

y) 2

s2 =

Razn de
Razn
de
varianzas
varianzas
F=

SSR
ps 2

SSE
n p 1

n 1

*
Coeficiente
de determinacin
R2 = SSR/SST.
* Coeficiente
de determinacin
R2 = SSR/SST.

explicada y residual constituye, por tanto, el estadstico para el contraste global del modelo de
regresin lineal mltiple. La descomposicin de la variabilidad de la variable respuesta, junto
con la razn de varianzas resultante, suele resumirse en la tabla del anlisis de la varianza
(Tabla 11.2).

Como complemento al contraste global del modelo, suele calcularse el coeficiente de


determinacin R2 = SSR/SST, que es una medida cuantitativa de la proporcin de la variabilidad
equivale al cuadrado del coeficiente de correlacin r y entre los valores observados yi
de la variable respuesta explicada por el modelo de yregresin
mltiple. El coeficiente de
determinacin R2 vara entre 0 y 1 y aumenta siempre que se incluyen nuevas variables
por la no
ecuacin
de regresin,
que
se
de la variable
los valores
explicativas
en elrespuesta
modelo, yaunque
este predichos
incrementoy i puede
ser significativo
(ver
apartado
siguiente). Otra de sus principales propiedades es que equivale al cuadrado del coeficiente de
ryy entre
entre
losvalores
valores
observadosyyimltiple
coeficiente de correlacin
los
respuesta y los valores predichos i
correlacin
coeficiente
de observados
correlacin
,
conoce como
ide la variable
por la ecuacin de regresin, que se conoce como coeficiente de correlacin mltiple,

2
que se
y los valores predichos y i por la ecuacin de regresin,
n
n
2
2

(
y
y
)

i
( y y )
SSR i =1 i
i =1

2
de correlacin mltiple,
= n
= n
R =
n
SST
( y i y ) 2 ( y i y ) 2 ( y i y ) 2
n

( y

y)

( y i y ) 2
i =1

i =1

i =1

i =1

n
n

( y i y )( y i y ) ( y i y i )( y i y )
i =1
= n
= n
i =1
i =1

n
2
2 =
2
n
n

(
y
y
)
(
y
y
)
(
y
y
)

i
i
i
i =1
i =1
i =1
( y i y ) 2 ( y i y ) 2
i

i =1

i =1

n
n

2
( y i y )( y i y ) ( y i y i )( y i y ) n

i =1
i =1
( y i y )( y i y )
=
i =1
= 2
n
n
= n
ryy .
2
2
n

(
y
y
)
(
y
y
)

i
i
2
2
i =1
i =1
( y i y ) ( y i y )
2

i =1

64

i =1

( y i y )( y i y )
Notar
que
de los coeficientes de regresin minimizan la suma de cuadrados del
i =1
las estimaciones
2
Notar
que
las
estimaciones
de los coeficientes
de regresin
minimizan R
la2 suma
de
= n
=
r
.
yy
error
SSE y, en consecuencia,
maximizan
el coeficiente
de determinacin
del modelo.
De la
n
2
2

(
y
y
)
(
y
y
)
relacin
entre
los
coeficientes
de
determinacin
y
correlacin
mltiple,
se
deriva
entonces
que

i
i
i =1 cuadrados del error SSE y, en consecuencia, maximizan el coeficiente de determinacin
i =1
las estimaciones b0, b1, , bp maximizan la correlacin entre los valores observados yi y los

R2 del modelo. De la relacin entre los coeficientes de determinacin y correlacin


es de los coeficientes de regresin minimizan la suma de

Pastor-Barriuso R.

mltiple, se deriva entonces que las estimaciones b0, b1, , bp maximizan la correlacin
y, en consecuencia, maximizan el coeficiente de determinacin

entre los valores observados y y los valores predichos y = b + b x + + b x , de tal

205

estimada y = 1,58 - 0,0207x1 + 0,0028x2


correlacin con la variable respuesta.
Regresin lineal mltiple

449

SSR = (1,58 0,0207 x i1 + 0,0028 x i 2 1,08) 2 = 4,58


Ejemplo 11.6 En la primera
parte de la Tabla 11.1 se presenta el anlisis de la
i =1

de lai =regresin
mltiple
sobreotra
el ndice
de
valoresvarianza
predichos
b0 + b1xi1lineal
++
bpxip, dedel
talcolesterol
forma queHDL
cualquier
combinacin
lineal
y
la
suma
de
cuadrados
residual
de las variables explicativas tendr menor correlacin con la variable respuesta.
semasa
descompone
suma de de
cuadrados
porcuadrados
la ecuacin
de del
regresin
corporal en
y ellaconsumo
alcohol.explicada
La suma de
total
colesterol
Ejemplo 11.6 En la449primera parte de la Tabla 11.1 se presenta
el anlisis de la varianza
{ y i 1(1+,58
0,0207
x i1 + 0,0028 x i 2 )}2 = 34,33.
=-
0,0028x
estimada
y =SSE
1,58
0,0207x
HDL
2
de
la
regresin
lineal
mltiple
del
colesterol
HDL
sobre
el
ndice
corporal y el
se descompone en lai =suma
de cuadrados explicada por la ecuacin de
de masa
regresin
1
consumo de alcohol. La suma de cuadrados total del colesterol HDL
449
449
+ 0,0028x
estimada y = 1,58
1 cuadrados
2 2
se
en=la- 0,0207x
suma
de
SST
=
1,08
) 2 x=i 2por
38,91
=) 4,58/38,91
= 0,118 y
Pordescompone
tanto, el SSR
coeficiente
de
determinacin
estima
en
R
(
1
,
58

0
,
0207
0se,0028
1la
,08ecuacin
= 4,58de regresin
(xyi1i +2explicada

i =1

i =1

+ 0,0028x2explicada por la ecuacin de regresin estimada


estimada
y = 1,58
449
se
descompone
la- 0,0207x
suma
de1mltiple
cuadrados
el coeficiente
deencorrelacin
en r = 0,118 = 0,343. Es decir, la
21
(
1
,
58

0,0207 x i1 +yy0,0028 x i 2 1,08) 2 = 4,58


SSR
=

=
1,58

0,0207x
+
0,0028x
1
2
y la suma de cuadrados residual
i =1
449

combinacin lineal del ndice de masa corporal y el consumo2 de alcohol presenta


SSR = (1,58 0,0207 x i1 + 0,0028 x i 2 1,08) = 4,58
449 i =1
y la suma de cuadrados
residual
{ y i con
(1,el
58colesterol
0,0207 xHDL,
x i 2 )}2 = as
34,33.
SSE
=
una correlacin de
0,343
consiguiendo
explicar el
i1 + 0,0028
y la suma de cuadrados
residual
i =1
449 residual
y11,8%
la suma
devariabilidad
cuadrados
de la
colesterol HDL en los controles2 del
estudio
= 34,33.
SSE = { ydel
i (1,58 0,0207 x i1 + 0,0028 x2i 2 )}
Por tanto, el coeficiente
i =1 de determinacin se estima en R = 4,58/38,91 = 0,118 y
449
EURAMIC.
Esta
variabilidad
explicada por se
el modelo
de regresin
lineal mltiple
Por tanto, el coeficiente de determinacin
estima en
R2 = 4,58/38,91
= 0,118 y el
SSE = { y i (1,58 0,0207 x i1 + 0,0028 x i 2 )}2 = 34,33.
2
Es
decir,
la
combinacin
de
correlacin
mltiple
r
=
0
,
118
=
0,343.
Es
decir,
la
elcoeficiente
coeficiente
de
correlacin
mltiple
en
yyse estima en R = 4,58/38,91 = 0,118
i =1
Por tanto, el
coeficiente
de determinacin
representa
una
parte
significativa
de
la
variabilidad
total
del
colesterol
HDL,
ya y
lineal del ndice de masa corporal y el consumo de alcohol presenta una correlacin
de
0,343
con
el
colesterol
HDL,
consiguiendo
as
explicar
el
11,8%
de
la
variabilidad
del
2
combinacin
lineal
del ndice
de masa
corporal
yrazn
consumo
devarianzas
alcohol
=la
=R0,343.
Es
decir,=presenta
la0,118 y
el coeficiente
deglobal
correlacin
mltiple
en ryse
0el,118
=las
4,58/38,91
Por
tanto,
coeficiente
de modelo
determinacin
estima
enentre
que
el contraste
del
explicada
y EURAMIC.
colesterol
HDL
en los
controles
del
estudio
Esta
variabilidad
explicada
por
incluidas
en elel
modelo
contribuyan
demediante
forma
significativa
a explicar
una parte
de la
el
modelo
de
regresin
lineal
mltiple
representa
una
parte
significativa
de
la
variabilidad
una
correlacin de 0,343 con el colesterol HDL, consiguiendo as explicar el
ycombinacin
residual
del ndice
deelmasa
corporal
y0,118
eldel
consumo
alcohol
runa
=o varias
= 0,343.de
Es
decir,
larazn
el
coeficiente
de
correlacin
mltiple
en
total
del colesterol
HDL,
ya
que
contraste
modelo
mediante
lapresenta
las
variabilidad
de lalineal
respuesta,
pudiendo
haber
variables
que
tengan
nula entre
o
yy global
varianzas
explicada
y
residual
11,8% de la variabilidad del colesterol HDL en los controles del estudio
una contribucin.
correlacin
deEn
0,343
con
el
HDL,
asalcohol
explicar
el
escasa
este
sentido,
cabra
preguntarse
si es posible
eliminar
algunas
,masa
58
/ 2 corporal
2,29yconsiguiendo
combinacin
lineal
del
ndice
de4colesterol
el consumo
de
presenta
=
= 29,72
F=
EURAMIC. Esta variabilidad explicada
modelo de regresin lineal mltiple
34,33 / 446por 0el,077
11,8%
de la variabilidad
del
HDL
en los
controles
del
variables
explicativas
del modelo
afectar
sensiblemente
a la capacidad
predictiva
del
una
correlacin
de 0,343
concolesterol
elsin
colesterol
HDL,
consiguiendo
asestudio
explicar
el
resulta en un valor P = P(F2,446 29,72) < 0,001 bajo la distribucin F de Fisher con 2
representa una parte significativa de la variabilidad total del colesterol HDL, ya
grados
de
libertad
en
el P(F
numerador
y 446
denominador.
EURAMIC.
Esta
explicada
por
el
regresin
mltiple
ocupan
29,72)
<en0,001
bajo
ladedistribucin
F de Fisher
resulta
encontrastes
unvariabilidad
valorvariabilidad
Pparciales
=
mismo.
Los
se
de
dar
respuesta
este
tipoestudio
delineal
preguntas,
11,8%
de
la
del2,446
colesterol
HDL
enmodelo
los
controles
del
que el contraste global del modelo mediante la razn entre las varianzas explicada
representa
una
parte
significativa
deuna
la variabilidad
del
colesterol
HDL,
ya
11.4.2
Contrastes
valorando
la contribucin
adicional
de
opor
a lo
ya
con
2 grados
deparciales
libertad
en el numerador
yms
446
en eltotal
denominador.
EURAMIC.
Esta
variabilidad
explicada
el variables
modelo
deexplicativas
regresin
lineal
mltiple
y residual
Cuando
global
de
es variabilidad
significativo,
el del
modelo
en suHDL,
conjunto
queelelcontraste
contraste
global
del regresin
modelo
razntotal
entre
las
varianzas
explicada
explicado
por una
las otras
variables
presentes
en
el la
modelo.
representa
parte
significativa
demediante
la
colesterol
ya resulta
efectivo a la hora de explicar la variabilidad observada en la variable respuesta. No obstante,
11.4.2 Contrastes parciales
,todas
58 mediante
/ 2 las
2,29 que,explicativas
esto no
implica
necesariamente
que4parcial
variables
incluidas
en el modelo
y residual
La
hiptesis
nulaglobal
del contraste
establece
una
las
variables
que
el contraste
del
entrevez
lasincluidas
varianzas
explicada
F =modelo
= la razn
= 29,72
contribuyan de forma significativa
la variabilidad de la respuesta,
34a,33explicar
/ 446
0una
,077parteel de
Cuando el contraste global de regresin
es
significativo,
modelo en su conjunto
pudiendo
haber
una
o
varias
variables
que
tengan
nula
o
escasa
contribucin.
En esteno
sentido,
Xp-r+1
, ..., Xp del modelo
se
explicativas
y residualX1, ..., Xp-r, 1 r < p, las
4,58restantes
/2
2r ,variables
29
cabra preguntarse si es posibleFeliminar
algunas
explicativas del modelo sin afectar
=
= variables
= 29,72
resulta
efectivo
a lavalor
horaPde
variabilidad
observada
en la variable
respuesta.
0,077
33
/ 446
la,29,72)
< 0,001
bajocontrastes
la distribucin
F de
resulta
en aun
= explicar
P(F2,44634
sensiblemente
la capacidad
mismo.
Los
parciales
seFisher
ocupan de dar
relacionan linealmente
conpredictiva
la variabledel
respuesta.
Ms
concretamente,
se pretende
4
,
58
/
2
2
,
29
respuesta a este tipo de preguntas,
la=contribucin
adicional de una o ms variables
F = valorando que
= 29,72
No obstante,
esto no
implica
todas
variables explicativas
con 2 grados
deexplicado
libertad necesariamente
en
ellas
numerador
y 446
en las
el denominador.
explicativas
a
lo
ya
por
otras
variables
presentes
enhiptesis
el modelo.
34
,
33
/
446
0
,
077
29,72)
bajo laa la
distribucin
F de Fisher
resulta en
un valor P
= P(F
p-r+1
= =<p0,001
= 0 frente
alternativa
contrastar
la hiptesis
nula
H0:2,446
22
La hiptesis nula del contraste parcial establece que, una vez incluidas las variables
con 2 H
grados
de
el
numerador
446
enbajo
denominador.
Xvalor
1 Pr=algn
<P(F
p,enlas
r variables
Xelel
Xpde
delregresin
modelo
se relacionan
explicativas
Xen
un
0,,libertad
para
j =restantes
p -29,72)
r + 1,
,
p, en
modelo
lineal
bilateral
11:, ...,
j
<y0,001
la, ...,
distribucin
F deno
Fisher
resulta
pr
pr+1
2,446
11.4.2
Contrastes
parciales
linealmente con la variable respuesta. Ms concretamente, se pretende contrastar la hiptesis
= de
= libertad
p = 0 frente
a la hiptesis
alternativa
bilateral H 1: j 0, para algn
nula
Hcon
mltiple
0: 2
pr+1
grados
en el numerador
y 446
en el denominador.
Cuando
global
de regresin
es significativo,
el modelo en su conjunto
j11.4.2
= p Contrastes
rel+contraste
1, , p, parciales
en
el modelo
de regresin
lineal mltiple
1 x1 +
p r xp r + p observada
la
+ variable
= de
0 +explicar
p xp + . respuesta.
r+1 xp r+1 + en
resulta efectivo a la Yhora
la+variabilidad
CuandoContrastes
el contrasteparciales
global de regresin es significativo, el modelo en su conjunto
11.4.2
NoPastor-Barriuso
obstante,
esto
no
implica parcial
necesariamente
que todas
las variables explicativas
206 resulta
Notar queR.
este
contraste
eslaequivalente
a la
comparacin
de
dos modelos:
el
a la
hora
dede
explicar
variabilidad
observada
en laen
variable
respuesta.
Cuandoefectivo
el contraste
global
regresin
es significativo,
el modelo
su conjunto
22
modelo
completo
que incorpora las
p todas
variables
explicativas
y el modelo
anterior
No
obstante,
esto
no
implica
necesariamente
que
las
variables
explicativas
resulta efectivo a la hora de explicar la variabilidad observada en la variable respuesta.

Y = 0 + 1 x1 + + p-r xp-r + p-r+1 xp-r+1 + + p xp + .


explicativas sometidas al contraste, asegurndose de utilizar las mismas observaciones
Contrastes de hiptesis en regresin lineal mltiple
Notar que este contraste parcial es equivalente a la comparacin
de dos modelos: el
en ambos modelos. Al incluir nuevas variables explicativas sobre la misma muestra de
anterior modelo completo que incorpora las p variables explicativas y el modelo
observaciones,
la variabilidad
de equivalente
la variable respuesta
explicadade
pordos
el modelo
Notar
que este contraste
parcial es
a la comparacin
modelos:completo
el anterior
modelo
completo
que
incorpora
las
p
variables
explicativas
y
el
modelo
reducido
que
resulta
reducido que resulta de excluir las r variables Xp-r+1, ..., Xp objeto del contraste,
mayor
o,igual
la variabilidad
explicada por el modelo reducido
..., Xpque
objeto
del contraste,
de SSR
excluir
las siempre
r variables
Xpr+1
1 ser
1 x 1 + + p r x p r + ,
Y = 0 +SSR
SSR0, de tal forma que la diferencia
1 - SSR0 representa el incremento en la
dado que los coeficientes asociados a dichas variables son 0 bajo la hiptesis nula. As, los
, ..., son
Xp.el0Puede
que,
si la
variabilidad
al incluir
las variables
Xp-r+1
dado
que
losexplicada
coeficientes
asociados
atiles
dichas
variables
bajo probarse
ladehiptesis
nula.
As,
contrastes
parciales
son particularmente
para
comparar
ajuste
dos modelos
anidados,
lo que permite decantarse entre el modelo ms simple o el modelo extendido con variables
= particularmente
= pdel
= 0contraste.
es cierta,
el cociente
(SSR1el- SSR
2 dos
sigue una
hiptesis
nula
H0: p-r+1
los
contrastes
parciales
tiles
para comparar
ajuste
0)/de
adicionales
en
funcin
del son
resultado

El procedimiento
ms
sencillo
para realizar un
contraste
parcial
ajustar
por
separado el
modelos
anidados,
lo que
permite
el modelo
mses
simple
el
modelo
distribucin
chi-cuadrado
con los rdecantarse
grados de entre
libertad
correspondientes
alonmero
de
modelo completo y el modelo reducido excluyendo las r variables explicativas sometidas al
contraste,
asegurndose
deadicionales
utilizar lasen
mismas
en
modelos. Al incluir
extendido
con variables
funcinobservaciones
resultado
delambos
contraste.
variables explicativas
a contrastar. Asimismo,
ladel
suma
de cuadrados
del error del
nuevas variables explicativas sobre la misma muestra de observaciones, la variabilidad de la
siempre
mayor por
o igual que la
variable
respuesta explicada
por el modelo
completo
SSR1 ser
El procedimiento
ms
para realizar
un contraste
parcial
es ajustar
independiente
del incremento
en la
variabilidad
explicada
modelo
completo SSE
1 essencillo
variabilidad explicada por el modelo reducido SSR0, de tal forma que la diferencia SSR1 SSR0
representa
elelincremento
en la variabilidad
explicada
alexcluyendo
incluir las variables
Xpr+1, ..., Xp. Puede
separado
completo
reducido
las r variables
y el cociente
SSEy1/el
2modelo
se distribuye
segn
una chi-cuadrado
con n - p - 1
SSR1 - SSR
0modelo
probarse que, si la hiptesis nula H0: pr+1 = = p = 0 es cierta, el cociente (SSR1 SSR0)/ 2
sigue una distribucin chi-cuadrado con los r grados de libertad correspondientes al nmero de
=error
p = del
0, lamodelo
grados explicativas
de libertad. De
estos resultados
se deriva
que, bajo
23
0: p-r+1 = del
variables
a contrastar.
Asimismo,
la suma
de H
cuadrados
completo SSE1 es independiente del incremento en la variabilidad explicada SSR1 SSR0 y el
razn SSE
entre/el2 incremento
la varianza
explicada por
1 - SSRDe
0)/restos
se distribuyedesegn
una chi-cuadrado
conambos
n p modelos
1 grados(SSR
de libertad.
cociente
1
resultados se deriva que, bajo H0: pr+1 = = p 2= 0, la razn entre el incremento de la varianza
s = SSE1/(n - p - 1)
y la varianza
residual
del modelo
explicada
por ambos
modelos
(SSRcompleto
1 SSR0)/r1 y la varianza residual del modelo completo
2
s1 = SSE1/(n p 1)
SSR 1 SSR 0
2
2
SSR 1 SSR 0
r /r
r

~ 2
=
= Fr,n p 1
F=
SSE1
rs12
n p 1 /( n p 1)
(n p 1) 2

sigue una distribucin F de Fisher con r y n p 1 grados de libertad al ser el cociente de dos
sigue una distribucin
F de
Fisher con r ydivididas
n - p - 1 grados
libertad al ser
el cociente
distribuciones
chi-cuadrado
independientes
por susderespectivos
grados
de libertad.
Este anlisis de la varianza para el contraste parcial de un modelo de regresin lineal mltiple
de dos distribuciones
chi-cuadrado
independientes
divididas por sus respectivos grados
se representa
esquemticamente
en la Tabla
11.3.

de libertad. Este anlisis de la varianza para el contraste parcial de un modelo de


Tabla11.3
11.3
Anlisis
de la varianza
para
el en
contraste lineal
parcial en
Anlisis
de la varianza
el contraste
parcial
regresinTabla
lineal mltiple
se
representapara
esquemticamente
enregresin
la Tabla 11.3.mltiple.
regresin lineal mltiple.

Regresin
X1,..., Xp r

Suma de Grados de
Suma
de Grados
cuadrados
libertadde Varianza
cuadrados
libertad
Varianza
[Tabla 11.3 aproximadamente
aqu]
SSR1

SSR0

p r

Xp r+1,..., Xp|X1,..., Xp r SSR1 SSR0

SSR 1 SSR 0
r

n p 1 s12 =

Error

SSE1

Total

SST

n1

Total

SST

n-1

SSE 1
n p 1

Razn de
Razn
de
varianzas
varianzas

F=

SSR 1 SSR 0
rs12

24

Pastor-Barriuso R.

207

Regresin lineal mltiple

Ejemplo 11.7 La Tabla 11.4 muestra los resultados obtenidos en el grupo control del
estudio EURAMIC al ajustar un modelo de regresin lineal mltiple con el colesterol
HDL como variable respuesta, el ndice de masa corporal, el consumo de alcohol y la
edad en aos como variables explicativas continuas y el estatus socioeconmico como
variable explicativa dicotmica (xi4 = 1 en sujetos con bajo nivel socioeconmico y 0 en
sujetos con alto nivel socioeconmico). De la tabla del anlisis de la varianza se
desprende que el modelo en su conjunto explica el 11,9% de la variabilidad del colesterol
HDL, lo que representa una parte significativa de la variabilidad total de la respuesta ya
que la razn de varianzas del contraste global del modelo F = 14,85 resulta en un valor
P = P(F4,440 14,85) < 0,001 bajo la distribucin F de Fisher con 4 y 440 grados de
libertad. No obstante, una vez incluidos el ndice de masa corporal y la ingesta de alcohol,
ni la edad (t = b3/SE(b3) = 0,0002/0,0014 = 0,12, P = 2P(t440 0,12) 2{1 F(0,12)} =
0,90) ni el estatus socioeconmico (t = b4/SE(b4) = 0,021/0,027 = 0,80, P = 2P(t440 0,80)
2{1 F(0,80)} = 0,43) presentan efectos independientes significativos sobre los niveles
de colesterol HDL. De hecho, cada incremento de 10 aos en la edad se asocia con un
aumento despreciable de 100,0002 = 0,002 mmol/l en la media del colesterol HDL entre
sujetos con igual ndice de masa corporal, consumo de alcohol y nivel socioeconmico.
De igual forma, ajustando por diferencias en el ndice de masa corporal, la ingesta de
alcohol y la edad, la media del colesterol HDL difiere nicamente en 0,021 mmol/l entre
los sujetos con nivel socioeconmico bajo y alto.
A partir de estos resultados, sera razonable preguntarse si la edad y el estatus
socioeconmico contribuyen conjuntamente a explicar la variabilidad residual del
colesterol HDL que permanece sin explicar por el ndice de masa corporal y el consumo
de alcohol, lo que equivale a contrastar este modelo frente al modelo reducido de la
Tabla 11.1 que incluye nicamente el ndice de masa corporal y la ingesta de alcohol
como variables explicativas. No obstante, los resultados de ambos modelos no son
Tabla 11.4 Resultados de la regresin lineal mltiple del colesterol HDL sobre
el ndice de masa corporal (IMC), el consumo de alcohol, la edad y el estatus
socioeconmico (ESE) en el grupo control del estudio EURAMIC.
Anlisis de la varianza*
Suma de
cuadrados
Regresin
Error
Total

Grados de
libertad

4,58
33,93
38,51

Razn de
varianzas

Varianza

4
440
444

1,14
0,077

14,85

* Coeficiente de determinacin R2 = 4,58/38,51 = 0,119.


Coeficientes de regresin
Test H0: j = 0
Constante
IMC
Alcohol
Edad
ESE

208

Pastor-Barriuso R.

Estimacin

Error estndar

IC al 95%

Valor P

1,56
0,021
0,0028
0,0002
0,021

0,12
0,0037
0,0006
0,0014
0,027

(1,33; 1,79)
(0,028; 0,014)
(0,0016; 0,0040)
(0,0026; 0,0030)
(0,031; 0,074)

13,24
5,66
4,64
0,12
0,80

< 0,001
< 0,001
< 0,001
0,90
0,43

consumo de alcohol, lo que equivale a contrastar este modelo frente al modelo


Contrastes de hiptesis en regresin lineal mltiple

reducido de la Tabla 11.1 que incluye nicamente el ndice de masa corporal y la


ingesta de alcohol como variables explicativas. No obstante, los resultados de
Tabla 11.5 Anlisis de la varianza para el contraste parcial mltiple de la
edad
el estatus
socioeconmico
en la ya
regresin
lineal reducido
del colesterol
ambosymodelos
no son
directamente (ESE)
comparables
que el modelo
HDL sobre el ndice de masa corporal (IMC), el consumo de alcohol, la edad y
el
ESE en
el grupo control
EURAMIC.
emplea
4 observaciones
msdel
queestudio
el modelo
completo (449 versus 445). Esto es
Suma de

Grados de

Razn de

libertadpara el estatus
Varianza
varianzas
debido a que hay 4 sujetoscuadrados
con valores ausentes
socioeconmico,
Regresin
4,58
4
que
pueden
pero no en el modelo
IMC,
alcoholutilizarse en el ajuste
4,53 del modelo reducido,
2
Edad, ESE|IMC, alcohol
0,053
2
0,026
0,34
completo
que
incluye
dicha
variable.
Para
comparar
ambos
modelos,
es
preciso
Error
33,93
440
0,077
Total
38,51
444

ajustar el modelo reducido a la misma muestra de 445 controles del estudio

EURAMIC, de
donde se obtiene
suma de
cuadrados
explicada
por el modelo
directamente
comparables
ya queuna
el modelo
reducido
emplea
4 observaciones
ms que el
modelo completo (449 versus 445). Esto es debido a que hay 4 sujetos con valores ausentes
incremento
en la variabilidad
explicada
al incluir
reducido
de SSR
para
el estatus
socioeconmico,
pueden utilizarse
en el ajuste
del modelo
reducido,
0 = 4,53. As, el que
pero no en el modelo completo que incluye dicha variable. Para comparar ambos modelos,
- SSR0 = del
4,58estudio
la edad
y elajustar
estatuselsocioeconmico
enaellamodelo
es SSR
es
preciso
modelo reducido
mismacompleto
muestra de
445 1controles
EURAMIC, de donde se obtiene una suma de cuadrados explicada por el modelo reducido
- 4,53
razn
el incremento
de la varianza
explicada
y la varianza
= 4,53.LaAs,
el entre
incremento
en la variabilidad
explicada
al incluir
la edad y el
de
SSR=0 0,053.
estatus socioeconmico en el modelo completo es SSR1 SSR0 = 4,58 4,53 = 0,053. La
residual
del modelo
completo
razn
entre
el incremento
de es
la entonces
varianza explicada y la varianza residual del modelo
completo es entonces
F=

0,053 / 2
0,026
=
= 0,34,
33,93 / 440 0,077

que corresponde a un valor P = P(F2,440 0,34) = 0,71 bajo la distribucin F de Fisher con
2que
y 440
grados dea libertad.
contraste
en la
Tabla 11.5.
0,34) =mltiple
0,71 bajoselarepresenta
distribucin
F de
corresponde
un valor Este
P = P(F
2,440 parcial
En conclusin, la edad y el estatus socioeconmico no contribuyen significativamente a
explicar
la 2variabilidad
deldecolesterol
una vez tenidos
cuentaseelrepresenta
ndice de masa
Fisher con
y 440 grados
libertad. HDL
Este contraste
parcial en
mltiple
corporal y el consumo de alcohol, de tal forma que el modelo reducido a estas dos ltimas
variables
explicativas
resulta igualmente
en la Tabla
11.5. En conclusin,
la edad yefectivo.
el estatus socioeconmico no

significativamente
a explicar para
la variabilidad
colesterol HDL
una de una
Loscontribuyen
contrastes parciales
pueden emplearse
evaluar la del
contribucin
adicional
nica variable explicativa o de mltiples variables explicativas. El contraste parcial individual
vez tenidos
en cuenta
masa corporal
y el consumo
alcohol, de tal
se ndice
reducede
a evaluar
la hiptesis
nula H0: de
de la variable
explicativa
Xj el
j = 0 frente a la hiptesis
alternativa H1: j 0 y, en consecuencia, es equivalente al test para los coeficientes de regresin
presentado en el Apartado 11.3.2. De hecho, puede probarse que el estadstico F de la razn de
varianzas del contraste parcial individual es igual al cuadrado del estadstico t = bj/SE(bj) del
correspondiente coeficiente, de tal forma que los valores P resultantes de ambos procedimientos
26
son idnticos (la distribucin F de Fisher con 1 grado de libertad en el numerador y n p 1 en
el denominador es, por definicin, el cuadrado de la distribucin t de Student con n p 1
grados de libertad).
Ejemplo 11.8 Para evaluar si el estatus socioeconmico contribuye a explicar la
variabilidad del colesterol HDL que no se explica por las diferencias de ndice de masa
corporal, consumo de alcohol y edad, se podra comparar la variabilidad explicada por el
modelo completo con la variabilidad explicada por el modelo que excluye el estatus
Pastor-Barriuso R.

209

explicada por el modelo completo con la variabilidad explicada por el modelo que
excluye el estatus socioeconmico en la misma muestra de 445 controles,

Regresin lineal mltiple

obtenindose una diferencia SSR1 - SSR0 = 4,58 - 4,53 = 0,049. As, el estadstico
F del contraste parcial
individual
es de 445 controles, obtenindose una diferencia SSR1
socioeconmico
en la misma
muestra
SSR0 = 4,58 4,53 = 0,049. As, el estadstico F del contraste parcial individual es
F=

0,049
0,049
=
= 0,64,
33,93 / 440 0,077

que corresponde a un valor P = P(F1,440 0,64) = 0,43 bajo la distribucin F de Fisher


con1 y 440 grados de libertad. Notar que este contraste es equivalente al test del coeficiente
2 27
0,802)
asociado al estatus socioeconmico en la Tabla 11.4 ya que 2P(t440 0,80) = P( t 440
= P(F1,440 0,64).
11.5 VARIABLES EXPLICATIVAS POLITMICAS
La regresin lineal no establece ninguna asuncin respecto a la distribucin de las variables
explicativas, que pueden ser tanto continuas como categricas. En anteriores apartados, se ha
tratado con modelos de regresin lineal que incorporan variables explicativas continuas y
pero s a las estimaciones e interpretacin de los coeficientes asociados a las variables
dicotmicas. Queda pendiente de estudiar, por tanto, el ajuste e interpretacin de modelos de
regresin lineal mltiple con variables explicativas politmicas, que clasifican a los sujetos en
indicadoras. En este apartado se presenta la codificacin de la categora de referencia,
tres o ms categoras en funcin de sus distintas caractersticas. Estas variables politmicas
pueden ser nominales (nunca fumadores, ex fumadores o fumadores actuales), ordinales (nivel
que es el mtodo ms extendido para definir variables indicadoras, de fcil
socioeconmico bajo, medio o alto) o incluso variables continuas categorizadas (normopeso,
sobrepeso u obesidad para un ndice de masa corporal < 25, 25-30 30 kg/m2, respectivamente).
interpretacin y vlido para cualquier tipo de variable politmica. Para cada una de las k
En general, las variables explicativas politmicas no se introducen directamente en los
modelos
de regresin
valorespolitmica,
asignados aseestas
variables
slo indicadora
sirven paraXdiscernir
u
categoras
j = 1, ,yak que
de lalos
variable
define
la variable
j=1
ordenar las distintas categoras, pero no tienen interpretacin numrica. La forma adecuada de
incluir
este
tipo de
variables explicativas
en una
es mediante
variables
indicadoras
en los
sujetos
pertenecientes
a la categora
j y regresin
0 en los restantes
sujetos,
tal como
se
que identifiquen cada una de las categoras de la variable. Existen diversos mtodos para
Xk no
pueden
indica adecuadamente
en la Tabla 11.6.variables
Estas variables
indicadoras
X1, ,entre
codificar
indicadoras.
La eleccin
uno
u otroincluirse
procedimiento de
codificacin no afecta al ajuste del modelo (la tabla del anlisis de la varianza permanece
simultneamente
en un modelo
de regresin
que contenga
el trmino
constante,
ya que
inalterable
ante cualquier
codificacin
que permita
diferenciar
todas las
categoras
de una
variable politmica), pero s a las estimaciones e interpretacin de los coeficientes asociados a
+ + Xk = 1Enpara
los sujetos
y cualquier
variable indicadora
puede de
suma X1indicadoras.
las su
variables
estetodos
apartado
se presenta
la codificacin
de la categora
referencia, que es el mtodo ms extendido para definir variables indicadoras, de fcil
expresarse entonces
combinacin
exacta
de la constante
y de las
interpretacin
y vlidocomo
para una
cualquier
tipo delineal
variable
politmica.
Para cada
unadems
de las k
categoras j = 1, , k de la variable politmica, se define la variable indicadora Xj = 1 en los
variables
indicadoras,
lo que jely modelo
en un problema
sujetos
pertenecientes
a lacon
categora
0 en losincurrira
restantes sujetos,
tal comodesecolinealidad
indica en la Tabla
11.6. Estas variables indicadoras X1, , Xk no pueden incluirse simultneamente en un modelo
perfecta (vase
Ejemploel11.1).
Paraconstante,
solventarya
este
con
unatodos los
+ Xexcluir
de regresin
que contenga
trmino
queproblema,
su suma Xbasta
1 +
k = 1 para
sujetos y cualquier variable indicadora puede expresarse entonces como una combinacin lineal
en el
el modelo
modelo incurrira
las otras en
cualquiera
de las variables
digamos
Xk, manteniendo
exacta
de la constante
y de lasindicadoras,
dems variables
indicadoras,
con lo que
un problema de colinealidad perfecta (vase Ejemplo 11.1). Para solventar este problema, basta
, ,
indicadoras
X1de
convariables
excluir una
cualquiera
lasXvariables
indicadoras, digamos Xk, manteniendo en el modelo
k-1,
las otras variables indicadoras X1, , Xk1,
E(Y|x1 , ..., xk 1) = 0 + 1 x1 + + k 1 xk1,

donde por simplicidad se omiten otras posibles variables explicativas. En este modelo, la
donde por
simplicidad se
otras posibles
En este
modelo,
al omiten
valor esperado
de lavariables
respuestaexplicativas.
en la categora
k de
la variable
constante
0 corresponde
politmica, que toma valores cero en todas las variables indicadoras incluidas en el modelo,
0 =corresponde
al valor cada
esperado
de la respuesta
en lacategora
k de
la
la 1constante
= 0, ..., xk1
0) = 0. Asimismo,
coeficiente
de regresin
el cambio
en
E(Y|x
j determina
variable politmica, que toma valores cero en todas las variables indicadoras incluidas
210

Pastor-Barriuso R.

en el modelo, E(Y|x1 = 0, ..., xk-1 = 0) = 0. Asimismo, cada coeficiente de regresin j


determina el cambio en el valor esperado de la respuesta en la categora j = 1, , k - 1

cualquiera de las variables indicadoras, digamos Xk, manteniendo en el modelo las otras
variables indicadoras X1, , Xk-1,

Variables explicativas politmicas

E(Y|x1 , ..., xk-1 ) = 0 + 1 x1 + + k-1 xk-1,

Tabla 11.6 Variables indicadoras para las k categoras


de una se
variable
donde por simplicidad
omitenpolitmica.
otras posibles variables explicativas. En este modelo,
Variable indicadora
Categora
X1
X2

Xk
1
1
0

0
variable politmica, que toma valores cero en todas las variables indicadoras
incluidas
2
0
1

la constante 0 corresponde al valor esperado de la respuesta en la categora k de la

en el modelo, E(Y|x1 = 0, ..., xk-1 = 0) = 0. Asimismo, cada coeficiente de regresin j

determina el cambio en el valor esperado de la respuesta en la categora j = 1, , k - 1

el valor
esperado
de la respuesta
en la categora
j = 1, , k 1 respecto a la categora k de la
respecto
a la categora
k de la variable
politmica,
variable politmica,
E(Y|x1 = 0, ..., xj1 = 0, xj = 1, xj+1 = 0, ..., xk 1 = 0)
E(Y|x1 = 0, ..., xk1 = 0) = 0 + j 0 = j.

Como puede apreciarse, la categora cuya variable indicadora se deja fuera del modelo acta
como grupo de referencia, de tal forma que los coeficientes asociados a las variables indicadoras
presentes en el modelo determinan los cambios medios en la respuesta respecto a dicha categora
de referencia. Aunque en principio la eleccin del grupo de referencia es arbitraria, en la prctica
suele utilizarse como categora de referencia aquella que representa la ausencia o el menor 29
nivel
de exposicin (nunca fumadores, nivel socioeconmico alto, normopeso), siempre y cuando su
tamao muestral sea lo suficientemente grande para obtener comparaciones precisas con el
resto de categoras de la variable politmica.
En general, la contribucin de las variables indicadoras a la capacidad predictiva del modelo
debe evaluarse conjuntamente, dado que estas variables no representan ms que las distintas
categoras de una misma variable politmica. En este sentido, los contrastes parciales presentados
en el apartado anterior pueden aplicarse al conjunto de todas las variables indicadoras para
contrastar la hiptesis nula H0: 1 = = k1 = 0, lo que equivale a un test de homogeneidad
del valor medio de la respuesta en las k categoras de la variable politmica. Notar que este test
de homogeneidad permanece inalterable ante cualquier codificacin de las variables indicadoras
o seleccin del grupo de referencia, ya que stas alteran los coeficientes de regresin, pero no
cambian la contribucin global de la variable politmica al ajuste del modelo.
Ejemplo 11.9 En la Tabla 11.7 se presentan los resultados de ajustar un modelo de
regresin lineal mltiple del colesterol HDL sobre el ndice de masa corporal, el consumo
de alcohol y el hbito tabquico en 448 controles del estudio EURAMIC con informacin
completa de estas variables. El hbito tabquico es una variable politmica con tres
categoras, que diferencia a los sujetos segn sean nunca fumadores (113 sujetos), ex
fumadores (163) o fumadores actuales (172). Se designa como categora de referencia a
los nunca fumadores y, en consecuencia, el modelo incluye dos variables indicadoras
para los ex fumadores (xi3 = 1 en ex fumadores y 0 en el resto) y los fumadores actuales
(xi4 = 1 en fumadores actuales y 0 en el resto).
Para evaluar si el nivel medio de colesterol HDL difiere en las tres categoras del hbito
tabquico una vez tenidas en cuenta las diferencias de ndice de masa corporal y consumo
de alcohol, se realiza el contraste parcial mltiple de las dos variables indicadoras del hbito
tabquico H0: 3 = 4 = 0. Para ello, se compara la variabilidad explicada SSR1 = 5,44 por el
Pastor-Barriuso R.

211

la variabilidad explicada SSR1 = 5,44 por el modelo completo de la Tabla 11.7


con
lamltiple
variabilidad
Regresin
lineal

explicada SSR0 = 4,58 por el modelo que excluye ambas

variables indicadoras en la misma muestra de 448 controles, obtenindose un test


modelo completo de la Tabla 11.7 con la variabilidad explicada SSR0 = 4,58 por el modelo
estadstico
que excluye ambas variables indicadoras en la misma muestra de 448 controles, obtenindose
un test estadstico
(5,44 4,58) / 2 0,43
=
F=
= 5,69,
33,42 / 443
0,075
que corresponde a un valor P = P(F2,443 5,69) = 0,004 bajo la distribucin F de Fisher
con
y 443 grados
libertad.
As,2,443
se detectan
5,69) =diferencias
0,004 bajosignificativas
la distribucinenFlas
de medias
que 2corresponde
a undevalor
P = P(F
ajustadas del colesterol HDL entre los nunca fumadores, ex fumadores y fumadores
actuales.
asociados
lassevariables
del hbito tabquico
Fisher conLos
2 y coeficientes
443 grados de
libertad. aAs,
detectan indicadoras
diferencias significativas
permiten cuantificar estas diferencias de acuerdo a la codificacin elegida. Por un lado,
una
vezmedias
controladas
las diferencias
en HDL
el ndice
masa
corporal
y la ingesta
en las
ajustadas
del colesterol
entredelos
nunca
fumadores,
ex de alcohol,
la media del colesterol HDL presenta una diferencia insignificante de b3 = 0,009 mmol/l
entre
los exy fumadores
fumadores actuales.
y los nunca
fumadores. Sin
embargo,
fumadores actuales
fumadores
Los coeficientes
asociados
a laslos
variables
presentan una disminucin significativa en el nivel medio de colesterol HDL de b4 = 0,085
mmol/l
en comparacin
con los nunca
fumadores,
incluso
despus
de ajustar
por el ndice
indicadoras
del hbito tabquico
permiten
cuantificar
estas
diferencias
de acuerdo
de masa corporal y el consumo de alcohol.
a la general,
codificacin
elegida. Por
un lado, una
vez tratarse
controladas
las diferencias
el
En
las variables
indicadoras
deben
conjuntamente
paraenpreservar
su
interpretacin. No obstante, en vista de que los niveles medios de colesterol HDL no
ndice deenmasa
corporal
y la ingesta
de alcohol,selapodra
mediaeliminar
del colesterol
HDL la variable
difieren
nunca
fumadores
y ex fumadores,
del modelo
indicadora de los ex fumadores. En tal caso, el coeficiente asociado a la variable indicadora
entrealos
ex fumadores
presenta
una diferencia
insignificante
deinterpretacin,
b3 = 0,009 mmol/l
de
los fumadores
actuales
cambiara de
pasando
representar
el cambio
medio en el colesterol HDL entre fumadores actuales y no fumadores actuales (nueva
y los nunca
Sin embargo,
los fumadores
presentan
una
categora
defumadores.
referencia donde
se englobaran
tanto losactuales
nunca como
los ex
fumadores).
El test de homogeneidad permite contrastar si el nivel medio de la respuesta31difiere
significativamente en al menos 2 de las k categoras de una variable explicativa politmica. En
el caso de que las categoras estn intrnsecamente ordenadas, como ocurre con las variables
Tabla 11.7 Resultados de la regresin lineal mltiple del colesterol HDL sobre el
ndice de masa corporal (IMC), el consumo de alcohol y las variables indicadoras
de ex fumadores y fumadores actuales en el grupo control del estudio EURAMIC.
Anlisis de la varianza*
Suma de
cuadrados
Regresin
Error
Total

Grados de
libertad

5,44
33,42
38,86

Razn de
varianzas

Varianza

4
443
447

1,36
0,075

18,03

* Coeficiente de determinacin R2 = 5,44/38,86 = 0,140.


Coeficientes de regresin
Test H0: j = 0
Constante
IMC
Alcohol
Ex fumador
Fumador actual
212

Pastor-Barriuso R.

Estimacin

Error estndar

IC al 95%

Valor P

1,61
0,021
0,0030
0,009
0,085

0,099
0,0036
0,0006
0,034
0,034

(1,42; 1,81)
(0,028; 0,014)
(0,0018; 0,0042)
(0,058; 0,075)
(0,151; 0,019)

16,31
5,79
5,03
0,26
2,53

< 0,001
< 0,001
< 0,001
0,80
0,012

Variables explicativas politmicas

ordinales y las variables continuas categorizadas, cabra preguntarse adems si los niveles
medios de la respuesta siguen algn patrn especfico a lo largo de las categoras. En particular,
sera relevante contar con un test de tendencia que permitiera detectar la existencia de una
componente lineal creciente o decreciente entre las respuestas medias de las sucesivas categoras.
Para ello, la variable explicativa politmica X debe tomar valores que preserven el orden de las
categoras. En el caso de variables ordinales, suelen asignarse los valores xi = 1, 2, ..., k segn
el sujeto pertenezca a la primera, segunda o sucesivas categoras. En el caso de variables
continuas categorizadas, es preferible utilizar valores xi que representen alguna medida de
tendencia central de cada categora (media o mediana) para preservar no slo el orden de las
categoras, sino tambin la distancia entre las mismas. La variable politmica as codificada se
incluye directamente en el modelo de regresin, de tal forma que el contraste de su coeficiente
determina la existencia de una tendencia lineal creciente o decreciente en el valor medio de la
respuesta al aumentar la categora de exposicin. Conviene resaltar que este test de tendencia
no permite evaluar la idoneidad de la relacin lineal, sino nicamente la existencia de una
componente lineal significativa a travs de las categoras, independientemente de cul sea la
relacin subyacente.
Ejemplo 11.10 Dado que en el ejemplo anterior los niveles medios de colesterol HDL
no diferan significativamente en nunca fumadores y ex fumadores, ambas categoras se
colapsaron en una nica categora de no fumadores actuales. Adems, como se dispone de
informacin sobre el nmero de cigarrillos al da en 154 de los 172 fumadores actuales, se
construy una nueva variable politmica que clasificaba a los sujetos en no fumadores
actuales (276 sujetos), fumadores actuales de 1-10 (50 sujetos), 11-20 (67 sujetos) y > 20
cigarrillos/da (37 sujetos). La Tabla 11.8 muestra los resultados obtenidos en los controles
del estudio EURAMIC al ajustar una regresin lineal mltiple del colesterol HDL sobre
el ndice de masa corporal, el consumo de alcohol y esta nueva variable explicativa
politmica, donde los no fumadores actuales constituyen la categora de referencia.
Tabla 11.8 Resultados de la regresin lineal mltiple del colesterol HDL sobre
el ndice de masa corporal (IMC), la ingesta de alcohol y las variables
indicadoras de fumadores actuales de 1-10, 11-20 y > 20 cigarrillos/da en los
controles del estudio EURAMIC.
Anlisis de la varianza*

Regresin
Error
Total

Suma de
cuadrados
4,70
31,59
36,29

Grados de
libertad
5
424
429

Razn de
varianzas
12,62

Varianza
0,94
0,075

* Coeficiente de determinacin R2 = 4,70/36,29 = 0,130.


Coeficientes de regresin
Test H0: j = 0
Constante
IMC
Alcohol
Fumador 1-10
Fumador 11-20
Fumador > 20

Estimacin
1,59
0,020
0,0028
0,086
0,120
0,055

Error estndar
0,10
0,0037
0,0006
0,042
0,038
0,048

IC al 95%
(1,40; 1,79)
(0,027; 0,013)
(0,0017; 0,0040)
(0,168; 0,003)
(0,193; 0,046)
(0,149; 0,040)

t
15,90
5,36
4,70
2,04
3,19
1,14

Valor P
< 0,001
< 0,001
< 0,001
0,042
0,002
0,26

Pastor-Barriuso R.

213

Regresin lineal mltiple

Diferencia en la media del colesterol HDL (mmol/l)

0,2

0,1

-0,1

-0,2

-0,3
0

10

20

30

40

Nmero de cigarrillos/da
Figura11-20
11.4
Figura 11.4 Diferencia en la media ajustada del colesterol HDL de los fumadores actuales de 1-10,
y > 20 cigarrillos/da respecto a los no fumadores actuales del grupo control del estudio EURAMIC. Las
barras verticales representan los intervalos de confianza al 95% para estas diferencias.

cigarrillos/da, ya que la comparacin de la variabilidad explicada SSR1 = 4,70

porcontraste
el modelo
completo
de lade
Tabla
11.8variables
y la variabilidad
explicada
El
parcial
mltiple
las tres
indicadoras
H0: 3 SSR
= 4 0==3,76
5 = 0 revela
que existen diferencias significativas en las medias ajustadas del colesterol HDL entre los
porfumadores
el modelo actuales
que excluye
tres variables
indicadoras
muestra de
no
y loslasfumadores
de 1-10,
11-20 yen> la20misma
cigarrillos/da,
ya que la
comparacin de la variabilidad explicada SSR1 = 4,70 por el modelo completo de la Tabla
430 controles
resulta explicada
en un test SSR
estadstico
11.8
y la variabilidad
0 = 3,76 por el modelo que excluye las tres variables
indicadoras en la misma muestra de 430 controles resulta en un test estadstico
F=

(4,70 3,76) / 3 0,31


=
= 4,22,
31,59 / 424
0,075

que corresponde a un valor P = P(F3,424 4,22) = 0,006. En comparacin con los no


fumadores
actuales
de valor
igual ndice
de3,424
masa
corporal
y consumo
de alcohol, con
los fumadores
4,22)
= 0,006.
En comparacin
los
que corresponde
a un
P = P(F
de 1-10, 11-20 y > 20 cigarrillos/da presentan una disminucin en el nivel medio de
0,086,
y b5corporal
= 0,055
mmol/l, respectivamente.
colesterol
HDLactuales
de b3 = de
no fumadores
igual bndice
de masa
y consumo
de alcohol, los Esta
4 = 0,120
tendencia decreciente en la media ajustada del colesterol HDL se representa en la
Figura11.4,
eje horizontal
corresponde presentan
al nmerouna
medio
de cigarrillos
fumadores dedonde
110,el1120
y > 20 cigarrillos/da
disminucin
en eldiarios
para cada categora (0 en el caso de no fumadores actuales).
= -0,120
y b5 = -0,055
mmol/l,
nivel contrastar
medio de colesterol
HDL de bdecreciente
3 = -0,086, b4es
Para
si esta tendencia
significativa,
se crea
una variable
politmica con valores xi = 0, 7,1, 18,3 y 34,3 correspondientes al nmero medio de
respectivamente.
tendencia
en la ymedia
ajustadadedel1-10,
colesterol
cigarrillos
diariosEsta
de los
sujetosdecreciente
no fumadores
fumadores
11-20 y > 20
cigarrillos/da, respectivamente. Esta variable politmica se incluye directamente en un
HDL sede
representa
la Figura
11.4,
el eje
corresponde
al de alcohol.
modelo
regresinen
mltiple
junto
condonde
el ndice
dehorizontal
masa corporal
y la ingesta
El coeficiente asociado a la variable politmica y su error estndar se estiman en b3 =
nmero medio
diariossepara
cadauncategora
(0 ten
caso de no
0,0030
y SE(b3de
) = cigarrillos
0,0012, de donde
obtiene
estadstico
= bel
3/SE(b3) = 0,0030/0,0012
= 2,46 y un valor P = 2P(t426 2,46) 2F(2,46) = 0,014 bajo la distribucin t de
fumadores actuales).
214

Pastor-Barriuso R.

Para contrastar si esta tendencia decreciente es significativa, se crea una variable


politmica con valores xi = 0, 7,1, 18,3 y 34,3 correspondientes al nmero medio

[Tabla 11.8 aproximadamente aqu]


[Figura 11.4 aproximadamente aqu]

Regresin polinomial

Student con n p 1 = 430 3 1 = 426 grados de libertad. As, puede concluirse que la
11.6
REGRESIN
media
ajustada delPOLINOMIAL
colesterol HDL no slo difiere entre las categoras (P de homogeneidad
= 0,006), sino que tiende a decrecer significativamente conforme aumenta la categora de
(P demltiple
tendencia
= 0,014).
No obstante,
la Figura
11.4 entre
muestra
que la relacin
La exposicin
regresin lineal
permite
explorar
relaciones
no lineales
las variables
subyacente podra no ser estrictamente lineal al presentar un leve repunte en la categora
de fumadores
de ms de
20 cigarrillos/da.
explicativas
y la variable
respuesta.
El modelo ms habitual para acomodar un efecto no

lineal
de una variable
explicativa continua X es la regresin polinomial de orden k, que
11.6
REGRESIN
POLINOMIAL
polinomios de orden superior al cuadrtico tienden adems a producir curvas con puntos
k
La incorpora
regresinenlineal
mltiple
permite polinomiales
explorar relaciones
lineales
variables
adems
del entre
propiolas
trmino
el modelo
los trminos
X2, , Xno
de
inflexin
y
otras
formas
extraas
de
difcil
interpretacin
en
trminos
explicativas y la variable respuesta. El modelo ms habitual para acomodar un efecto no lineal
de lineal
una variable
explicativa continua X es la regresin polinomial de orden k, que incorpora en
X,
modelos
polinomiales
de superior al cuadrtic
epidemiolgicos.
Porpolinomiales
ello, esta presentacin
se limitadel
a los
polinomios
X2, , Xk adems
propio
trmino
linealde
X, orden
el modelo los trminos

2
+
+ k xklineal
+ , X ydeotro
Y = ,que
0 + incluyen
1 x + 2 x un
inflexin
y otras
formas extraas de d
trmino
cuadrtico
X2 de
segundo orden o cuadrticos
donde sin prdida de generalidad se omiten otras posibles variables explicativas. Estos modelos
epidemiolgicos.
Porcuyas
ello, esta presentac
la variable
explicativa.
La tendencia
resultante
deposibles
estos de
modelos
cuadrticos
ser Estos
una
donde
sin prdida
de generalidad
se omiten
otras
variables
explicativas.
polinomiales
pueden
considerarse
como
casos particulares
la regresin
lineal mltiple
variables explicativas son distintas potencias de una misma variable bsica y, en consecuencia,
parbola
que, aunque
no
se amolda
a cualquier
dede
la la
relacin,
segundo
ordenso cuadrticos
, que inclu
polinomiales
pueden
considerarse
como
casossubyacente
particulares
regresin
losmodelos
procedimientos
de estimacin
e inferencia
son forma
idnticos
a los descritos
anteriormente
para
el modelo general de regresin.
permite
capturar
las desviaciones
ms frecuentes
del modelo
lineal,
ladeincluyendo
variable
explicativa. La tendencia resu
lineal
mltiple
cuyas
variables explicativas
son distintas
potencias
una misma
En teora, los modelos polinomiales de orden k elevado permiten aproximar cualquier tipo
1.2
MEDIDAS
DE TENDENCIA
1.2 MEDIDAS
DENo
TENDENCIA
de tendencias
relacin
curvilnea.
obstante,
si elCENTRAL
nmero
requerido
deCENTRAL
trminos
polinomiales
es muy
montonas
cuya
pendiente
o disminuye
progresivamente,
como
parbola
que,as
aunque
variable bsica
y, en consecuencia,
losaumenta
procedimientos
de estimacin
e inferencia
son no se amolda a cua
1.2 MEDIDAS
DE TENDENCIA
elevado, la regresin polinomial
puede ocasionar
problemas deCENTRAL
sobreajuste y dar lugar a
1.2
MEDIDAS
DE
TENDENCIA
1.2
MEDIDAS
DE
TENDENCIA
CENTRAL
estimaciones
inestables
losUmedidas
coeficientes
deun
regresin.
Los
polinomios
de
orden
alCENTRAL
decon
tendencia
central
informan
acerca
de
culsuperior
eslaseldesviaciones
valor
ms represent
Las
medidas
dedetendencia
central
informan
dede
cul
esde
el regresin.
valor
ms
representativo
curvas
en aforma
Ude
oLas
de
invertida
cambio
direccin.
permite
capturar
ms fre
idnticos
los descritos
anteriormente
para
elacerca
modelo
general
cuadrtico tienden adems a producir
curvas
con
puntos
de
inflexin
y
otras
formas
extraas
de
Las medidas de tendencia central informan acerca de cul es el valor ms repre
difcil
interpretacin
en trminos
epidemiolgicos.
Por
ello,
presentacin
sedelimita
a cuya
los
de
una
determinada
variable
o,
dicho
de
forma
equivalente,
estos
estimadores
indic
Las
medidas
de
tendencia
central
informan
acerca
una
determinada
variable
o,
dicho
de acerca
forma
estos
estimadores
indican
Aunque
los
modelos
cuadrticos
se ajustan
mediante
los
mtodos
estndar
tendencias
montonas
pendiente
aud
Lasde
medidas
de
tendencia
central
informan
de
cul
esesta
el
valor
ms
representativo
En teora, los modelos polinomiales
orden
kequivalente,
elevado
permiten
aproximar
modelos polinomiales de segundo
orden
o
cuadrticos,
que
incluyen
un
trmino
lineal
X
y
de una determinada variable o, dicho de forma equivalente, estos estimadores i
2
2
X
de
lavariables
variable
explicativa.
La
tendencia
resultante
detendencia
estos
modelos
otro
cuadrtico
alrededor
qu
valor
se
agrupan
los
datos
observados.
Lasde
medidas
deinvertida
tendencia
una
determinada
o,
forma
equi
alrededor
de
qu
valor
se
agrupan
los
datos
Las
medidas
deen
estn
aobservados.
menudo
muy
correlacionadas
regresin
mltiple,
las
Xde
y de
XNo
curvas
forma
Udicho
o de de
U
co
decualquier
una
determinada
variable
o,
dicho
forma
equivalente,
estos
estimadores
indican
tipo de relacin curvilnea.
obstante,
si el de
nmero
requerido
devariable
trminos
cuadrticos ser una parbola alrededor
que, aunque
no
se
amolda
a
cualquier
forma
subyacente
demedidas
la
de qu valor se agrupan los datos observados. Las
de tenden
relacin,
s de
permite
capturar
las tanto
desviaciones
ms
frecuentes
del
modelo
lineal,
central
deregresin
la para
muestra
sirven
tanto
para
resumir
los
resultados
como
alrededor
qu
valor
se incluyendo
agrupan
los
datos
observa
central
de qu
laes
resumir
los
resultados
observados
como
para
Aunque
los
modelos
cuadrticos
separa
aj
alrededor
valor
sesirven
agrupan
los
datos
observados.
Las
medidas
de
tendencia
rmuestra
> 0,95),
provocando
estimaciones
inestables
dedesus
coeficientes
deobservados
(tpicamente,
polinomiales
muy
elevado,
la
polinomial
puede
ocasionar
problemas
de
xx 2
tendencias montonas
cuya pendiente
aumenta
o
disminuye
progresivamente,
as
como curvas
central de la muestra sirven tanto para resumir los resultados
observados como
encentral
forma
de la
U
o de U invertida
coninferencias
unparmetros
cambio
delos
direccin.
acerca
delos
los
parmetros
poblacionales
correspondientes.
central
decentrar
la
muestra
sirven
tanto
para resumir
realizar
inferencias
acerca
de
los
poblacionales
correspondientes.
AlaLos
regresin
mltiple,
las variables
X yAlos
X2 ere
de
muestra
sirven
tanto
para
resumir
resultados
observados
como
para
sobreajuste
y darmitigar
lugar
arealizar
estimaciones
inestables
de
coeficientes
de
regresin.
regresin.
Para
este
problema
de
colinealidad,
conviene
primero
realizarseinferencias
acerca delos
losmtodos
parmetros
poblacionales
correspondientes. A
Aunque los modelos cuadrticos
ajustan mediante
estndar
de regresin
2
se describen
los
principales
estimadores
lade
tendencia
centralpoblac
de una
realizar
inferencias
acerca
parmetros
continuacin
seXdescriben
los principales
estimadores
decorrespondientes.
laytendencia
central
una
realizar
inferencias
acerca
parmetros
poblacionales
Xdeestn
a menudo
muy correlacionadas
(tpicamente,
>>los
0,95),
mltiple,
las
variables
ycontinuacin
rmodelo
0,95),
provocando
es
(tpicamente,
variable
original
eXincluir
despus
dicha
variable
centrada
su
cuadrado
enAde
elde
xx 2
continuacin
se
describen
los
principales
estimadores
de
la
tendencia
central
d
35
provocando estimaciones inestables de sus coeficientes de regresin. Para mitigar este problema
variable.
se
describen
losvariable
principales
estimador
describen
los principales
decontinuacin
la X
tendencia
central
de
una
decontinuacin
colinealidad,
centrar
primero laestimadores
variable original
e incluir
despus
dicha
devariable.
regresin,seconviene
regresin.
Para
mitigar
este problema
de
variable.
centrada y su cuadrado en el modelo de regresin,
variable. variable original X e incluir despus dich
variable.
1.2.1 Media aritmtica
1.2.1 Media aritmtica
Y = 0 + 1 (x x ) + 2 (x x )2 + .
1.2.1 Media aritmtica
decada
regresin,
La
media
aritmtica,
denotada
x )Media
,2 se
define
como
la los
suma de cada uno de los
Las
desviaciones
respecto
de
la
media
x x y, se
susdefine
cuadrados
(x
estarn
menos
LaMedia
media aritmtica
aritmtica, denotada por
comopor
la suma
de
unocorrelacionadas
de
1.2.1
aritmtica
1.2.1
2
2
2
xde
- las
x ydesviaciones
susdenotada
cuadrados
) define
estarn
menos
deLa
lamedia
mediaaritmtica,
por
como
la suma
ya que los
cuadrados
(x (x x-),xse
sern
elevados
tanto
parade cada uno de l
queLas
los desviaciones
valores x y x ,respecto
positivas)
como
para
valores
bajos
(desviaciones
x
valores
altos
de
X
(desviaciones
x

media
aritmtica,
por x , seSidefine
com
valorespor
muestrales
dividida
por
el nmero
de observaciones
realizadas.
denotam
muestralesdenotada
dividida
el
de observaciones
denotamos
La valores
media aritmtica,
x ,nmero
se define
la La
suma
derealizadas.
cada
uno Si
dedenotada
los
Y = 0 + 1 (x 2
x y xmuestrales
, ya que los
cuadrados
denmero
desviaciones
(x - modelo
x )2 realizadas.
correlacionadas
que los
negativas).
El centrado
devalores
la valores
variable
explicativa
X
no afecta
allasajuste
del
dividida
por el
deglobal
observaciones
Si deno
cuadrtico
ni tamao
a la tendencia
parablica
resultante,
se ytrata
dei-simo,
una
reparametrizacin
por
ny el
muestral
por nicamente
xvalores
valor
observado
para
el por
sujeto
i-simo,dei =observ
1, ...
muestrales
dividida
el nmero
por nmuestrales
el
muestral
por
xi el
valor
para
el sujeto
i = 1,
...,
n,
valores
dividida
por
eltamao
nmero
deobservado
observaciones
Si denotamos
i el realizadas.
Las observado
desviaciones
respecto
la mediai x= (desviaciones
positivas)
como
para
elevados
tanto para
valores
de Xelmuestral
delsern
modelo
que reduce
la correlacin
entre
trminoylineal
produciendo
as dei-simo,
por n altos
el tamao
porxx-i yelxcuadrtico,
valor
para
el sujeto
estimaciones
ms
estables
de
sus xcoeficientes
y contrastes
ms
interpretables.
media
vendra
dada
por parapor
n fcilmente
el tamao
muestral
y por
vendra
dadala
valor observado
el sujeto
i-simo,
i = 1, ...,
n, xi el valor observado
porlan media
el tamao
muestral
ypor
por
i el
correlacionadas
los valores x y x2, ya
x -media
x negativas).
El centrado
de la variable
explicativaque
X no
valores bajos (desviaciones la
vendra
dada
por
Una vez ajustado el modelo cuadrtico, el primer paso es contrastar si el coeficiente 2
la media
vendra dada por del valor
la mediaalvendra
por
n
asociado
trminodada
cuadrtico
es 0. Si1 este
coeficiente
x1 + x 2 + ... + x n
... difiere
+
x1 + x 2 +no
1 xnn significativamente
tanto
afecta al ajuste global del modelo
ni
a
la
tendencia
parablica
resultante,
se para valores altos de
=
=
x
x
.
=
x =cuadrtico
x
n sern elevados

i
i
x1 +n x 2 + ... +. x n
n nx i==1 1
n i =1
.
xi =
Pastor-Barriuso1R. n 215 x1 + x 2 +
x + x 2 + ... + x n
1 n
n i =1 valores
- x negativ
bajosn (desviaciones
trata nicamente de una reparametrizacin
que. reduce
la correlacin
entre
x =el xxi =
x = x i = 1del modelo
n
n i =1
n i =1
n
es la central
medidams
de tendencia
ms
utilizada y de ms fcil
La media es la medidaLademedia
tendencia
utilizada ycentral
de ms
fcil
trmino lineal y cuadrtico, produciendo
aslaestimaciones
ms estables
de
afecta
al sus
ajusteutilizada
global del
cuadr
La media es
medida de tendencia
central
ms
y demodelo
ms fcil

alrededor de qu valor se agrupan los datos observados. Las medi


alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia
central de la muestra sirven tanto para resumir los resultados obse
Regresin lineal mltiple
central de la muestra sirven tanto para resumir los resultados observados como para
realizar inferencias acerca de los parmetros poblacionales corres
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
nulo, la inclusin del trmino cuadrtico no mejorar significativamente la capacidad predictiva
continuacin
se describen
los principales
de la tenden
del modelo, de tal forma que podr eliminarse
dicho trmino
cuadrtico
y volver alestimadores
modelo
continuacin se describen los principales estimadores de la tendencia central de una
lineal en la variable explicativa
X. Por el
si el coeficiente
del trmino cuadrtico
1.2 MEDIDAS
DEcontrario,
TENDENCIA
CENTRAL
resulta significativo, el modelo cuadrtico variable.
presentar un mejor ajuste que el modelo lineal,
variable.
debiendo mantener ambos trminos lineal y cuadrtico en el modelo. La interpretacin del
tendencia
central
informan
acerca
es el valor
modelo cuadrtico no esLas
tanmedidas
sencillade
como
la del
modelo
lineal, ya
que de
la cul
pendiente
de lams representat
1.2.1
Media
aritmtica
1.2.1vara
Media
relacin
a loaritmtica
largo del rango de la variable explicativa. En un modelo cuadrtico con la
de una determinada
variable
o,
dichopor
de denotada
forma
equivalente,
indican
esestos
decir,estimadores
1 la suma
variable X centrada, la pendiente
de la relacin
viene
dada
1 + 2
La
media
aritmtica,
por x );, se
define
como
de
2(x
La mediaa aritmtica,
por x ,de
seladefine
como
la suma de
cada
uno de los
variable
explicativa
y 2
corresponde
la pendientedenotada
en la media
2 representa el cambio
alrededor dedequ
se agrupan
los obstante,
datos
observados.
Las
de tendencia
de pendiente por cada incremento
unavalor
unidad
en X. No
el inters
no medidas
es
valores
muestrales
dividida
por
el nmero
de tanto
observaciones
realiz
valoreslos
muestrales
dividida
por el nmero
observaciones
realizadas.laSitendencia
denotamos
interpretar
coeficientes
individuales,
sino de
representar
grficamente
global
central de la muestra
tanto para
resumir
los xresultados
observados
como
para
resultante del modelo cuadrtico.
porsirven
n el tamao
muestral
y por
el
valor
observado
para
el sujeto
i
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
inferencias
devendra
los parmetros
correspondientes.
A
media
dada
porpoblacionales
Ejemplo 11.11 Enrealizar
la Figura
10.10(b)laacerca
del
tema
anterior,
el anlisis
de los residuos
de la
laregresin
media vendra
por del colesterol HDL sobre el ndice de masa corporal en los
linealdada
simple
continuacin
describen
los principales
estimadores
de la tendencia
central de una
controles del estudio EURAMICse
mostr
indicios
de una posible
relacin1 cuadrtica
entre
n
x1 +
x 2 + ... + x n
.
=
=
n
ambas variables. Para contrastar
se xajust
unx imodelo
de
+ ... tendencia,
+ xn
x1 + x 2esta
1 formalmente
variable.
n
n
=
i
1
.
=
=
x
x
regresin mltiple para el colesterol
que inclua un trmino lineal y otro cuadrtico
HDL
i
n i =1
n
del ndice de masa corporal, adems
del consumo de alcohol y de la variable indicadora
cuadrado
de los fumadores actuales
(Tablaaritmtica
11.9). Como
el ndice
masa corporal
X1 y su
1.2.1 Media
La media
es lademedida
de tendencia
central
ms utilizada y de
2
presentaban
una
correlacin
lineal
casi
perfecta
de
0,995,
esta
variable
fue
X La
media es la medida de tendencia central ms utilizada y de ms fcil
1
2
previamente centrada
alrededor
de su interpretacin.
media
muestral
kg/m
antes
de
en uno
La media
aritmtica,
denotada
por Corresponde
x 1, =se26,2
define
como
la suma
de cada
al
centro
deincluir
gravedad
de de
loslos
datos
2

26,2
y
cuadrtico
(X

26,2)
,
cuya
correlacin
era
el
modelo
los
trminos
lineal
X
interpretacin. Corresponde al centro
de gravedad de los1 datos de la muestra. Su
1
nicamente de 0,297.
valores muestrales principal
dividida por
el nmero
de observaciones
realizadas.
denotamos
limitacin
es que
est muy influenciada
porSilos
valores
principal
limitacin
que est
influenciada
por los
valores extremos
en este
El contraste
para laesnulidad
delmuy
coeficiente
asociado
al trmino
cuadrticoy,del
ndice de
por
n
el
tamao
muestral
y
por
x
valor
observado
para
el
sujeto
i-simo,
1, dist
..., n
i elser
caso,
puede
no
un
fiel
reflejo
de
la
tendencia
central ide= la
masa corporal resulta en un valor P = 0,021, lo que indica que el modelo cuadrtico
mejora
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
la media vendra dada por
Ejemplodel
1.4colesterol
En este y en
los sobre
sucesivos
Tabla 11.9 Resultados de la regresin mltiple
HDL
los ejemplos sobre estim
Ejemplo
1.4yEn
este y en del
los ndice
sucesivos
ejemplos
sobre (IMC),
estimadores
muestrales,
trminos
lineal
cuadrtico
de masa
corporal
el consumo
de se
x1 + x 2 + ... + x n
1 n
utilizarn
losxvalores
del
colesterol
HDL
obtenidos en los 1
alcohol y la variable indicadora de fumadores
en
el
grupo
control
del
.
=
=
x actuales
i
n
n
=
i
1
utilizarn
los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
estudio
EURAMIC.
estudio European Study on Antioxidants, Myocardial Infar
Anlisis de la varianza*
estudio European
onesAntioxidants,
Infarction
Cancer
of
LaStudy
media
la Grados
medidadedeMyocardial
tendencia central
ms and
utilizada
Suma
de
Razn
de y de ms fcil
the
Breast
(EURAMIC),
un
estudio
multicntrico
de casos
cuadrados
libertad
Varianza
varianzas
the Breast (EURAMIC),
un Corresponde
estudio multicntrico
dede
casos y controleslosrealizado
interpretacin.
al centro
Regresin
5,84
4
1,46 gravedad de
19,57 datos de la muestra. Su
entre 1991 y 1992 en ocho pases Europeos e Israel para eva
Error
33,02
443
0,075
entre 1991 y 1992
en ocho
pases Europeos
e Israel
para evaluarpor
el efecto
de losextremos y, en este
principal
limitacin
es que est
muy influenciada
los valores
Total

38,86

447

* Coeficiente de determinacin R = 5,84/38,86 = 0,150.


2

caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.


5

Coeficientes de regresin

Test H0: j = 0

Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales

Constante
IMC 26,2
(IMC 26,2)2
Alcohol
Fumador actual

216

Pastor-Barriuso R.

Estimacin Error estndar


IC al 95%
t
Valor P
1,05
0,020
(1,01; 1,09)
52,62
< 0,001
utilizarn los valores del colesterol HDL obtenidos
en los 10 primeros sujetos d
0,024
0,0038
(0,031; 0,016)
6,25
< 0,001
0,0016estudio 0,0007
0,0029)
2,32 Myocardial
0,021Infarction and Cancer o
European (0,0002;
Study on
Antioxidants,
0,0030
0,0006
(0,0018; 0,0042)
5,00
< 0,001
0,098 the Breast
0,027(EURAMIC),
(0,150; un
0,045)
3,63
< 0,001
estudio multicntrico
de casos y controles realiza

entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de lo

Regresin polinomial

2,25

alrededor de su media muestral x1 = 26,2 kg/m2 antes de incluir en el modelo los


2

Colesterol HDL (mmol/l)

trminos lineal X1 - 26,2 y cuadrtico (X1 - 26,2)2, cuya correlacin era


nicamente
de 0,297.
1,5
El contraste para la nulidad del coeficiente asociado al trmino cuadrtico del
1.2 MEDIDAS DE TENDENCIA CENTRAL
ndice de1 masa corporal resulta en un valor P = 0,021, lo que indica que el modelo

Laselmedidas
de tendencia
central
acerca de cul es el valor m
cuadrtico mejora significativamente
ajuste del
modelo lineal.
Eninforman
consecuencia,

una determinada
o, masa
dichocorporal
de forma equivalente, estos estim
la pendiente
de la relacin entre elde
colesterol
HDL y elvariable
ndice de
0,5

alrededor
valor
se agrupan de
losladatos observados. Las medidas d
= qu
-0,024
la estimacin
vara segn
nivel de exposicin,
siendo b1de
0,25 CENTRAL
EDIDAS DE 1.2
TENDENCIA
MEDIDAS
DEelTENDENCIA
CENTRAL

central
de2ladel
muestra
tanto
para resumir
= 26,2
kg/m
ndice sirven
de masa
corporal
y 2b2 = los resultados observad
pendiente en el20nivel medio x1 24
28
32
edidas de tendencia
Las medidas
centralde
informan
tendencia
acerca
central
de informan
cul es el acerca
valor ms
de cul
representativo
es el valor ms
representativo36
realizar
inferencias
acerca
poblacionales correspond
Indice de
masa corporal
(kg/m)de los parmetros
2
en el
0,0032
cambio
por
cada indican
incremento
de 1 kg/m
a determinada de
variable
una 20,0016
determinada
o, dicho= de
variable
formaelequivalente,
o, dichodedependiente
estos
formaestimadores
equivalente,
estos estimadores
indican
Figura 11.5
Figura 11.5 Relacin lineal (lnea fina) y cuadrtica (curva gruesa) entre el ndice de masa corporal
y el
continuacin
se
describen
los
principales
estimadores
de la tendencia
colesterol
HDL
obtenidas
de
modelos
de
regresin
mltiple
ajustados
por
consumo
de
alcohol
y
hbito
tabndice
delosmasa
corporal.
Nolos
obstante,
es ms
informativo
representar
la tendencia
dor de qu valor
alrededor
se
agrupan
de
qu
valor
datos
se
observados.
agrupan
Las
datos
medidas
observados.
de
tendencia
Las
medidas
de
tendencia
quico actual en el grupo control del estudio EURAMIC.
variable.
estimada
a partir
delpara
modelo
cuadrtico.
Para ello,
se calculan
los para
valores
l de la muestracentral
sirvenglobal
de
tanto
la muestra
para resumir
sirven
los
tanto
resultados
resumir
observados
los resultados
como
para
observados
como

significativamente
el ajuste
del modelo
lineal.
En
consecuencia,
la pendiente
de la relacin
1.2.1por
Media
aritmtica
del colesterol
predichos
el modelo
para
losAdistintos
ar inferencias realizar
acerca medios
de
inferencias
loselparmetros
acercapoblacionales
deHDL
losy parmetros
correspondientes.
Acuadrtico
correspondientes.
entre
colesterol
HDL
el ndice
depoblacionales
masa corporal
vara segn el nivel
de exposicin,
2
estimacin
de
la pendiente
en
eldenotada
nivel medio
della suma de cada
siendo bobservados
La
media
aritmtica,
por x 1, =se26,2
define
como
1 = 0,024xla
ndice
de
masa
corporal,
manteniendo
constantes
el kg/m
valores
1 del
uacin se describen
continuacin
los
principales
se
describen
estimadores
los
principales
de
la
tendencia
estimadores
central
de
la
de
tendencia
una
central
de
una
ndice de masa corporal y 2b2 = 20,0016 = 0,0032 el cambio de pendiente por cada
2
el ndice
de masa
Noactuales
obstante,
essus
ms de
informativo
incremento
1 kg/m
valores
muestrales
dividida
por elen
nmero
observaciones realizadas
consumo
de de
alcohol
y la en
variable
indicadora
decorporal.
fumadores
le.
variable.
representar la tendencia global estimada a partir del modelo cuadrtico. Para ello, se
calculan losmedias
valoresxmedios
del colesterol
HDL predichos
el xmodelo
cuadrtico
por n el tamao
muestral por
y por
observadopara
para el sujeto i-s
i el valor
respectivas
2 = 16,5 g/da y x 3 = 172/448 = 0,38 (proporcin de
del
ndice
de
masa
corporal,
manteniendo
constantes
los
distintos
valores
observados
x
Media aritmtica
1.2.1 Media aritmtica
1
el consumo de alcohol y la variable
indicadora
de fumadores
la media
vendra
dada por actuales en sus respectivas
fumadores actuales),
=
16,5
g/da
y
=
172/448
=
0,38
(proporcin
de fumadores
actuales),
medias
dia aritmtica,Ladenotada
media aritmtica,
por x 2, se denotada
define como
por lax 3suma
, se define
de cada
como
unoladesuma
los
de cada uno
de los

x + x 2 + ... + x n
1 n 2
de
(x1 ; de
y dividida
16,5;
0,38)
= 1,05realizadas.
0,024(
x1
+realizadas.
0,0016(xx1
s muestrales dividida
valores muestrales
por el nmero
observaciones
por
el nmero
observaciones
Si26,2)
denotamos
Si26,2)
denotamos
.
=
xi = 1

n i =1
n
+ 0,003016,5 0,0980,38
el tamao muestral
por n yelpor
tamao
xi el valor
muestral
observado
y por xipara
el valor
el sujeto
observado
i-simo,
para
i =el1,sujeto
..., n, i-simo, i = 1, ..., n,
2
x
26,2)
+
0,0016(
= 1,06 0,024(

1
1 26,2) . central ms utilizada y de ms
La media es la medida
de xtendencia
dia vendra dada
la media
por vendra dada por
Notar que la eleccin de los valores
fijos de las otras
variablesalexplicativas
es arbitraria,
interpretacin.
Corresponde
centro de gravedad
de los datos de la
ya que slo
afectan
a
la
constante
de
la
relacin
cuadrtica.
En
la
prctica,
es
habitual
fijar
n
n
+los
...
...muestrales
+otras
x + xde
x n en sus
xfijos
xde
x n variables
1 la eleccin
1 +valores
Notar
que
explicativas
es absolutos
2 de
1 +medias
2 +las
lasx restantes
para
obtener
valores
. es que
= x i variables
= 1
x = ajuste
x i. =principal

limitacin
est
muy influenciada
por los valores extre
n i =1 respuestanrepresentativos
n i =1
de la variable
de lan poblacin a estudio. La tendencia cuadrtica
arbitraria,
queelslo
afectan
la constante
deylaelrelacin
cuadrtica.
la
estimada ya
entre
ndice
de amasa
corporal
HDLdeseEn
en la de la distribuc
caso,
puede no
sercolesterol
un fiel reflejo
la representa
tendencia central
Figura
11.5,
junto
con
la
relacin
lineal
obtenida
del
mismo
modelo
de
la
Tabla
11.9
media es la medida
La media
de
tendencia
es la
medida
centralde
ms
tendencia
utilizada
central
y devariables
ms
msfcil
utilizada
y deenms
fcil
prctica,
es
habitual
fijar
las
restantes
de
ajuste
sus
medias
muestrales
excluyendo el trmino cuadrtico del ndice de masa corporal. En comparacin con la
tendencia
lineal,
el modelo
estima
mssucesivos
pronunciada
de lasobre estimado
Ejemplo
1.4
En
este
los
ejemplos
retacin. Corresponde
interpretacin.
al centro
Corresponde
de
gravedad
al centro
de cuadrtico
los
datos
de
la muestra.
deuna
los disminucin
datos
Surepresentativos
deylaenmuestra.
para
obtener
valores
absolutos
dede
lagravedad
variable
respuesta
deSu
la

utilizarn
del colesterol
HDL obtenidos en los 10 pri
pal limitacinprincipal
es que est
limitacin
muy influenciada
es que estpor
muy
losinfluenciada
valores extremos
por los
y,los
valores
en valores
este extremos
y, en este
Pastor-Barriuso R. 217
38
estudio
European
Study
on
Antioxidants,
Myocardial Infarction
puede no ser un
caso,
fielpuede
reflejono
deser
la tendencia
un fiel reflejo
central
de la
detendencia
la distribucin.
central de la distribucin.

Regresin lineal mltiple

media del colesterol HDL dentro del rango de normopeso (< 25 kg/m2), que se atena
progresivamente al aumentar los niveles del ndice de masa corporal.
Aunque los modelos cuadrticos permiten detectar efectos no lineales de las variables
explicativas, la tendencia global resultante de estos modelos puede estar fuertemente influenciada
por una o muy pocas observaciones con valores extremos de la variable explicativa. En este
sentido, resulta especialmente importante evaluar los cambios que se producen en la tendencia
cuadrtica, o incluso la propia idoneidad del modelo cuadrtico, al excluir del anlisis las
observaciones ms influyentes (vase apartado de anlisis diagnstico).
11.7 CONFUSIN E INTERACCIN EN REGRESIN LINEAL
La regresin lineal mltiple puede utilizarse con dos propsitos claramente diferenciados. Por
un lado, los modelos de regresin pueden emplearse para predecir el valor de la variable
respuesta en funcin de los valores de las variables explicativas. En tal caso, el inters se centra
en identificar e incluir todas aquellas variables explicativas que se asocien de forma significativa
e independiente con la variable respuesta, de tal forma que el modelo resultante se ajuste bien a
los datos observados (elevado coeficiente de determinacin) y prediga con cierta precisin la
respuesta en nuevos sujetos. Los contrastes parciales descritos en el Apartado 11.4.2 son
particularmente tiles para este propsito, ya que permiten seleccionar las variables explicativas
que mejoran significativamente la capacidad predictiva del modelo. Por otro lado, los modelos
de regresin pueden utilizarse para estudiar la relacin de una o varias variables explicativas de
inters con la variable respuesta, controlando por otras variables explicativas o covariables que
pudieran afectar a dicha relacin. En este caso, no es necesario que el modelo incluya todos los
determinantes de la variable respuesta, sino nicamente aquellos que influyan en la asociacin
objeto de estudio; es decir, aquellas covariables cuya inclusin afecte a las estimaciones de los
coeficientes de regresin asociados a las variables explicativas de inters.
La confusin y la interaccin son dos conceptos epidemiolgicos estrechamente relacionados
con este segundo propsito. A continuacin se presenta una descripcin general de ambos
conceptos y su tratamiento dentro de los modelos de regresin lineal mltiple.
11.7.1 Control de la confusin en regresin lineal
La confusin se define como una distorsin en el efecto estimado de una variable explicativa sobre
la variable respuesta debido a la interposicin de otra covariable, denominada factor de confusin
o simplemente confusor, cuyo efecto se confunde o se mezcla con el verdadero efecto de la variable
explicativa de inters. La distorsin inducida por el factor de confusin puede ser grande y dar lugar
tanto a una sobreestimacin como a una infraestimacin del efecto subyacente, dependiendo de la
direccin de las asociaciones del factor de confusin con las variables explicativa y respuesta. El
factor de confusin puede producir incluso un cambio en la direccin del efecto observado.
Para que una covariable X2 pueda confundir la asociacin entre la variable explicativa de
inters X1 y la variable respuesta Y en un modelo de regresin lineal debe cumplir tres condiciones
necesarias:
yy El factor de confusin X2 debe estar linealmente relacionado con la variable explicativa X1.
Si las variables X1 y X2 estn incorrelacionadas, sus efectos sobre la variable respuesta Y
no podrn confundirse o mezclarse, de tal forma que la estimacin del coeficiente asociado
a la variable explicativa de inters X1 no se ver afectada por la inclusin de la covariable
218

Pastor-Barriuso R.

El factor de confusin X2 debe estar asociado con la variable respuesta Y


el efecto estimado de la variable
variables X1 y X2 estn correlacionadas,

Confusin e interaccin en regresin lineal

independientemente de su asociacin con la variable explicativa X1. Aunque las


explicativa X1 slo podr estar confundido por la covariable X2 cuando sta tenga
variables X1 y X2 estn correlacionadas, el efecto estimado de la variable
efecto independiente sobre
la variable respuesta Y. Si la covariable X2 se
Xun
2 en el modelo. Este requisito ya se comprob formalmente en el Apartado 11.3.1 y se
ilustr grficamente
en la X
Figura
slo11.1(a).
podr estar confundido por la covariable X2 cuando sta tenga
explicativa
relaciona con la respuesta Y1 nicamente a travs de su asociacin con la variable
yy El factor de confusin X2 debe estar asociado con la variable respuesta Y independientemente
Y. Si la covariable
X2 se
un efecto
sobre la variable
respuesta
las variables
X y X2 estn
de su asociacin
con laindependiente
variable explicativa
X . Aunque
explicativa X1, puede probarse que ryx2 = ryx1 rx1x2 ,1 de donde se deriva que las1
correlacionadas,
el efecto estimado de la variable explicativa X1 slo podr estar confundido
nicamente
a travs sobre
de su la
asociacin
con la variable
relaciona
con sta
la respuesta
tenga unYefecto
independiente
variable respuesta
por la covariable
X2 cuando
X1
de los
mltiple
asociadosaatravs
las variables
se relacionade
conregresin
la respuesta
Y nicamente
de su asociacin
Y.estimaciones
Si la covariable
X2coeficientes
puede probarse
probarse que
que ryx2 = ryx1 rx1x2,,de
con la variableexplicativa
explicativaXX11,,puede
dedonde
dondese
sederiva
derivaque
quelas
las
a. coeficientes de regresin mltiple
y X2 se reducen
estimaciones
de los
asociados a las variables X1 y X2 se
reducen a
estimaciones de los coeficientes de regresin mltiple asociados a las variables X

ryx1 ryx2 rx1x2 s y ryx1 (1 rx21 x2 ) s y


sy
b
=
=
=
,
r
1
yx
1
y X2 se reducen
1 rx21a.
s x1
1 rx21 x2 s x1
s x1
x2
b2 =

ryx2 ryx1 rx1 x2 s y ryx1 rx1x2 ryx1 rx1x2 s y 2


ryx1 = ryx2 rx1x2 s2y ryx1 (1 =
rx 0.
sy
x ) sy
= sx 2 1 2
= ryx1
,
1 rx21xb2 1 = s x2
2 1 rx1 x2
1 rx1x2
s x1
1 2 rx1 x2 s x1
s x1

As, la covariable X2 no se relacionar con la respuesta al controlar por X1, mientras que el
efecto estimado para la variable explicativa
ryx2 ryxX1 r1x1permanecer
ryx1 rx1xinalterable
ryx1 rx1x2 saly ajustar por X2,
x2 s y
2
X
no
se
relacionar
con
la
respuesta
al
controlar
por X1, =entre
As,
la
covariable
b
=
0. X e Y.
=
2
2
para
con lo que la covariable X2 no ser un factor
1
1 r 2de confusin
s
1 rla2 asociacin
s
x1 x2

x2

x1 x2

x2

yy El
factor de
X2 no debe
serlaun
paso intermedio
relacin de la variable
X1 la
permanecer
mientras
queconfusin
el efecto estimado
para
variable
explicativa en
explicativa X1 con la variable respuesta Y. A diferencia de las dos condiciones anteriores,
relacionar con
al controlar
por X1,
As, la covariable
2 no secomprobarse
este requisito epidemiolgico
noXpuede
con la
losrespuesta
datos disponibles
y 41
requiere
de informacin externa o juicio experto sobre los mecanismos subyacentes que relacionan
X1 permanecer
mientras con
que la
el efecto
estimado
para la variable
la variable explicativa
respuesta.
Por ejemplo,
el ndiceexplicativa
de masa corporal
podra
considerarse a simple vista un potencial factor de confusin para la asociacin entre la
actividad fsica y el colesterol HDL, ya que se relaciona de forma independiente con
ambas variables. Sin embargo, el ndice de masa corporal no es un factor extrao que
distorsiona dicha asociacin, sino ms bien un factor intermedio, ya que la actividad fsica
reduce el ndice de masa corporal, que a su vez provoca un aumento del colesterol HDL.
En general, los modelos de regresin no deben incluir factores intermedios para la
asociacin objeto de estudio, a no ser que se pretenda estimar el efecto que no est mediado
por dichos factores.
La seleccin de los potenciales factores de confusin debe limitarse, por tanto, a las covariables
que satisfagan estas tres condiciones necesarias, a saber, aquellas covariables que se asocien de
forma independiente con las variables explicativa y respuesta y que no constituyan un paso
intermedio en la relacin entre ambas variables. No obstante, es posible que una covariable
cumpla los tres requisitos y no sea un factor de confusin, en el sentido de no introducir un sesgo
en la asociacin a estudio. Esto puede ocurrir, por ejemplo, cuando existen varios factores cuyos
potenciales sesgos de confusin se compensan al actuar en direcciones opuestas.
En la prctica, para determinar si una o varias covariables son en realidad factores de
confusin, se compara la estimacin cruda de la asociacin objeto de estudio con la estimacin
ajustada por los potenciales factores de confusin. Como se vio en el Apartado 11.2, estas
estimaciones ajustadas pueden obtenerse directamente a partir de modelos de regresin mltiple
que incorporen los potenciales factores de confusin adems de la variable explicativa de
inters. As, los factores de confusin vendrn determinados por aquellas covariables cuya
inclusin en el modelo produzca un cambio substancial en la estimacin del coeficiente de
regresin asociado a la variable explicativa de inters. La comparacin entre los coeficientes
Pastor-Barriuso R.

219

41

asociaran tambin con el ndice de masa corporal, verificaran los tres requisitos

Regresin lineal mltiple

para ser potenciales factores de confusin.


La Tabla
muestra
estimaciones
coeficiente
asociadono
al ndice
de mediante
estimados
con y11.10
sin ajuste
porlaslos
potencialesdel
factores
de confusin
se realiza
pruebas estadsticas, ya que la significacin estadstica no depende nicamente de la magnitud
masa corporal
en distintos
modelos
de regresin
lineal, a saber,
primerelmodelo
del cambio,
sino tambin
del tamao
muestral
(vase Apartado
5.4.2).un
Aunque
criterio vara
segn el mbito de aplicacin, en general se considera necesario controlar la confusin cuando
sin covariables
de ajuste,
segundo
la estimacin
cruda difiere
de laun
ajustada
enmodelo
ms delajustado
10%. por el consumo de alcohol,
asociaran tambin con el ndice de masa corporal, verificaran los tres requisitos
un tercer 11.12
modelo En
ajustado
por el hbito
tabquico
y un ltimo
Ejemplo
los ejemplos
anteriores
se hanactual
considerado
otrosmodelo
determinantes del
para
ser potenciales
factores
de confusin.
colesterol HDL distintos del ndice de masa corporal, pero no se ha prestado especial
ajustado apor
covariables.
Todos
los modelos
se obtuvieron
a partir de la el ndice
atencin
la ambas
confusin
podran
inducir
factores
en la asociacin
La
Tabla 11.10
muestraque
las estimaciones
delestos
coeficiente
asociado
al ndiceentre
de
de masa corporal y el colesterol HDL. La edad y el estatus socioeconmico no mostraron
misma
muestra
de 448 controles
estudio
con informacin
un
efecto
independiente
sobre
losdel
niveles
deEURAMIC
colesterol
(Tabla
11.4),modelo
por lo que no
masa
corporal
en distintos
modelos
de regresin
lineal, aHDL
saber,
un primer
cumplen una de las condiciones necesarias para ser factores de confusin. Sin embargo,
completa
dede
todas
las variables.
Tomando
como referencia
el modelo
por
el
consumo
alcohol
y elunhbito
tabquico
s sepor
asociaron
conajustado
el
sin
covariables
de ajuste,
segundo
modeloactual
ajustado
el consumo
decolesterol
alcohol, HDL
independientemente del ndice de masa corporal (Tablas 11.7, 11.8 y 11.9). Adems, el
ambas covariables,
el cambio
relativo queque
se no
produce
en el la
coeficientedel
estimado
alcohol
el tabacoajustado
son
factores
median
ndice de masa
un
tercery modelo
por elexternos
hbito tabquico
actualen
y un relacin
ltimo modelo
corporal con el colesterol HDL. Si ambas covariables se asociaran tambin con el ndice
del masa
ndice corporal,
de masa corporal
al excluir
el consumo
de alcoholser
es potenciales factores de
de
verificaran
los tres
ajustado
por ambas covariables.
Todos
los requisitos
modelos separa
obtuvieron
a partir de la
confusin.
b1|3del estudio
0,0225
misma
muestra
448 controles
EURAMIC
conasociado
informacin
La Tabla
11.10demuestra
las estimaciones
del
coeficiente
al ndice de masa
=
= 1,08;
corporal en distintos modelos de
regresin
lineal,
a
saber,
un
primer
modelo
sin covariables
b1|2,3 0,0209
completa
las variables.
Tomandopor
como
referenciade
el modelo
de ajuste,de
untodas
segundo
modelo ajustado
el consumo
alcohol,ajustado
un tercerpormodelo
ajustado por el hbito tabquico actual y un ltimo modelo ajustado por ambas covariables.
es decir,
una
vez tenido
en cuenta
el hbito
actual,
las448
diferencias
endel
elestudio
ambas
covariables,
elobtuvieron
cambio
relativo
que
produce
en
el coeficiente
estimado
Todos
los
modelos
se
a partir
dese
latabquico
misma muestra
de
controles
EURAMIC con informacin completa de todas las variables. Tomando como referencia
consumo
alcohol
provocan
una
sobreestimacin
100(1,08
1) = se
8%produce
en la en el
del
ndicede
de
masa corporal
al excluir
el consumo
dedel
alcohol
es - que
el
modelo
ajustado
por ambas
covariables,
el cambio
relativo
coeficiente estimado del ndice de masa corporal al excluir el consumo de alcohol es
asociacin inversa del ndice de masa corporal con el colesterol HDL. Como se
b1|3
0,0225
= 1,08;
=

0
,
0209
b1|2,es
apunt en el Ejemplo 11.2, esto
debido
a
que
una pequea parte de la reduccin
3
es
una vez
tenido
enlos
cuenta
el hbito
tabquico
actual,
las diferencias
el consumo
deldecir,
colesterol
HDL
entre
sujetos
con mayor
ndice
de masa
corporal seendebe
de decir,
alcohol
provocan
unaen
sobreestimacin
deltabquico
100(1,08actual,
1) = 8%
en la asociacin
es
una
vez tenido
cuenta el hbito
las diferencias
en el inversa
del
ndice dea su
masa
corporal
con el
HDL.
en ellaEjemplo 11.2,
en realidad
menor
consumo
decolesterol
alcohol. Por
otraComo
parte,se
si apunt
se excluye
consumo
de alcohol
una sobreestimacin
del 100(1,08
- 1) = 8%HDL
en laentre los
esto es debido
a queprovocan
una pequea
parte de la reduccin
del colesterol
sujetos
mayor ndice
masa corporal
se debe
en realidad
su menor consumo de
variablecon
indicadora
de los de
fumadores
actuales,
el cambio
relativoa es
asociacin
del ndice
de masalacorporal
el colesterol
HDL.
Como se
alcohol. Porinversa
otra parte,
si se excluye
variablecon
indicadora
de los
fumadores
actuales, el
cambio relativo es
el
hbitoentabquico
no11.2,
se asocia
el
de una
masa
corporal
en eldegrupo
control
b1|es
0ndice
,0206
apunt
el Ejemplo
esto
debido
a que
pequea
parte
la reduccin
2con
= 0,99;
=
b1|2,3 0,0209
2
en los
del
EURAMIC
media
delcon
ndice
de masa
26,3 kg/m
del estudio
colesterol
HDL entre(lalos
sujetos
mayor
ndicecorporal
de masaescorporal
se debe
esto es, una vez controladas las diferencias en la ingesta de alcohol, el hbito tabquico
2
en
actuales).
ltimo,
sielse
excluyen
no
fumadores
y 26,1
kg/m
estorealidad
es,no
unaintroduce
controladas
laslos
diferencias
la otra
ingesta
deasociacin
alcohol,
hbito
actual
virtualmente
ningn en
sesgo
enparte,
laPor
objeto
en
avez
su
menor
consumo
defumadores
alcohol.
Por
si
se excluye
la de estudio
(infraestimacin del 100(0,99 1) = 1%). Esto es consecuencia de que el hbito tabquico
simultneamente
ambas
covariables
del
modelo,
el
cambio
en el EURAMIC
tabquico
actual
no
introduce
virtualmente
ningn
sesgo
enrelativo
la del
asociacin
objeto
no
se asocia
con el
ndice
de
masa
corporal
en
elelgrupo
control
estudio
(la
variable
indicadora
de
los
fumadores
actuales,
cambio
relativo
es
media del ndice de masa corporal es 26,3 kg/m2 en los no fumadores y 26,1 kg/m2 en los
coeficiente
estimado del
desimasa
corporal
es Esto es consecuencia
de estudio (infraestimacin
del 100(0,99
- 1) = -1%).
de que del
fumadores
actuales).
Porndice
ltimo,
se excluyen
simultneamente
ambas covariables
b
0,0206
modelo, el cambio relativo en el1|2coeficiente
estimado
del
ndice
de
masa
corporal
es
=
= 0,99;
44
b1|2,3 0,0209
b1
0,0222
=
= 1,06.
b1|2,3 0,0209
esto es, una vez controladas las diferencias en la ingesta de alcohol, el hbito
220

Pastor-Barriuso R.

Notar
que actual
esta sobreestimacin
del 6% es resultado
de la en
combinacin
de objeto
los
tabquico
no introduce virtualmente
ningn sesgo
la asociacin
sesgos
inducidos
de forma independiente
consumo
y el hbito
de estudio
(infraestimacin
del 100(0,99 -por
1) =el-1%).
Estode
esalcohol
consecuencia
de que

Confusin e interaccin en regresin lineal

Tabla 11.10 Estimacin de la relacin del ndice de masa


corporal (IMC) con el colesterol HDL a partir de diferentes
modelos de regresin lineal mltiple ajustados por distintas
combinaciones del consumo de alcohol y el hbito tabquico
actual en el grupo control del estudio EURAMIC.
Coeficiente asociado al IMC
Covariable de ajuste
Ninguna
Alcohol
Fumador actual
Alcohol, fumador actual

Estimacin

Error estndar

IC al 95%

0,0222
0,0206
0,0225
0,0209

0,0037
0,0036
0,0037
0,0036

(0,0295; 0,0149)
(0,0278; 0,0135)
(0,0297; 0,0152)
(0,0279; 0,0138)

Notar que esta sobreestimacin del 6% es resultado de la combinacin de los sesgos


inducidos de forma independiente por el consumo de alcohol y el hbito tabquico. Si se
adoptara el criterio estndar del 10%, se concluira que el consumo de alcohol y el hbito
tabquico no son factores de confusin importantes para la asociacin entre el ndice de
masa corporal y el colesterol HDL en los controles del estudio EURAMIC. No obstante,
a pesar de no cumplir este criterio cuantitativo, se podra decidir ajustar por ambas
covariables por razones de credibilidad, ya que el alcohol y el tabaco son determinantes
conocidos del colesterol HDL y cualquier estudio sobre este tpico generara desconfianza
si no incluyera estas variables en el anlisis.
La confusin es un sesgo introducido por un factor externo en la asociacin objeto de estudio
que debe prevenirse en el diseo o controlarse en el anlisis de los datos. En este sentido, la
regresin lineal mltiple es una herramienta til para controlar la confusin en el anlisis, ya
que facilita estimaciones ajustadas por las restantes variables explicativas incluidas en el
modelo. No obstante, la capacidad de ajuste de los modelos de regresin est condicionada por
los siguientes factores:
yy La disponibilidad de informacin sobre los potenciales factores de confusin. Obviamente,
no se podr controlar en el anlisis ningn factor de confusin que no se haya medido
previamente.
yy El efecto conjunto de la variable explicativa de inters y de los factores de confusin. La
regresin lineal mltiple asume que los efectos conjuntos son aditivos, de tal forma que si
esta asuncin no se cumple, la estimacin del coeficiente de regresin asociado a la
variable explicativa de inters puede estar sesgada.
yy Los errores de medida y la especificacin de los factores de confusin. Si los factores de
confusin estn medidos con un error considerable, o si su efecto sobre la variable respuesta
se modela de forma inadecuada (por ejemplo, usando trminos lineales para relaciones
subyacentes curvilneas), el ajuste no ser completo, pudiendo quedar una apreciable
confusin residual.
11.7.2 Evaluacin de la interaccin en regresin lineal
La interaccin o modificacin de efecto se refiere al cambio en la magnitud de la asociacin
entre la variable explicativa de inters y la variable respuesta a diferentes niveles de otra
variable, que se denomina modificador de efecto. A diferencia de la confusin, que es un sesgo
Pastor-Barriuso R.

221

la covariable y, en consecuencia, deben obtenerse estimaciones especficas para cada

Regresin lineal mltiple

nivel, que estn libres de confusin al referirse a sujetos con idntico valor de la
covariable.
Porestimacin
el contrario,
interaccin,
el efecto
se asumeinherente
igual en de la
a corregir
en la
delcuando
efecto,nolaexiste
interaccin
es una
caracterstica
asociacin a estudio, que debe describirse mediante estimaciones especficas del efecto de la
todosexplicativa
los niveles de
de inters
la covariable
basta entonces
conmodificador
obtener una de
nica
estimacin
variable
en los ydistintos
niveles del
efecto.
La confusin y la interaccin son fenmenos diferentes que pueden o no ocurrir
para todos los sujetos, que s podra estar confundida por diferencias en la distribucin
simultneamente. No obstante, cuando existe evidencia de interaccin con una determinada
covariable, la valoracin de la confusin inducida por dicha covariable es irrelevante. En
de la covariable. Por ello, en la prctica slo tiene sentido controlar la confusin cuando
presencia de interaccin, la magnitud del efecto vara segn el nivel de la covariable y, en
consecuencia, deben obtenerse estimaciones especficas para cada nivel, que estn libres de
se ha descartado previamente la presencia de interaccin.
confusin al referirse a sujetos con idntico valor de la covariable. Por el contrario, cuando no
existe interaccin, el efecto se asume igual en todos los niveles de la covariable y basta entonces
Los efectos independientes de una variable explicativa de inters X y otra covariable
con obtener una nica estimacin para todos los sujetos, que s podra 1estar confundida por
diferencias en la distribucin de la covariable. Por ello, en la prctica slo tiene sentido controlar
X2 sobre la variable respuesta Y se obtienen a partir del modelo de regresin lineal
la confusin
cuando se ha descartado previamente la presencia de interaccin.
Los
efectos independientes de una variable explicativa de inters X1 y otra covariable X2
mltiple
sobre la variable respuesta Y se obtienen a partir del modelo de regresin lineal mltiple

Y = 0 + 1 x1 + 2 x2 + ,
que incluye distintos trminos para cada variable explicativa. Bajo este modelo, la relacin entre
incluye
distintos trminos
para
cada
variable explicativa.
Bajopor
este
modelo,
la
X1 eque
Y para
un determinado
valor fijo
c2 de
la covariable
X2 viene dada
E(Y|x
1, c2) = (0 + 2c2)
+ 1x1. As, este modelo asume que no existe interaccin entre X1 y X2 ya que el cambio esperado
un unidad
determinado
valor
fijo cigual
X2 viene dada
X1 e Y para
2 de la
siempre
a covariable
en Yrelacin
por cadaentre
incremento
de una
en X1 es
1, independientemente del nivel
de X2. De hecho, los cambios en el valor de la covariable X2 slo afectan a la constante de la recta
, c2Y) =sobre
(0 +X1,2cpero
1xa1. su
As,
este modelo
quede
nointeraccin
existe interaccin
por E(Y|x1de
2) + no
pendiente.
Estaasume
ausencia
se representa
de regresin
grficamente en la Figura 11.6(a), donde las rectas de regresin de Y sobre X1 son lneas paralelas
quelos
el cambio
en Y pory cada
incremento
de una unidad
en X1 X2.
entre pendiente
X1 y X2 yapara
de igual
distintosesperado
valores (puntos
crculos)
de una covariable
dicotmica
En regresin lineal mltiple, la forma ms sencilla de modelar la interaccin entre la variable
es siempre igual a , independientemente del nivel de X2. De hecho, los cambios en el
al modelo un nuevo trmino con
explicativa de inters X11 y la covariable X2 consiste en aadir
el producto de ambas variables,
valor de la covariable X2 slo afectan a la constante de la recta de regresin de Y sobre
Y = 0 + 1 x1 + 2 x2 + 3 x1 x2 + .
X1, pero no a su pendiente. Esta ausencia de interaccin se representa grficamente en la

Notar que el modelo ha de incluir el trmino producto X1X2 adems de los trminos
Figura 11.6(a), donde las rectas de regresin de Y sobre X1 son lneas paralelas de igual
principales para las variables X1 y X2. Bajo este modelo extendido con el trmino
pendiente para los distintos valores (puntos y crculos) de una covariable dicotmica X2.
producto,
la recta de regresin de Y sobre X1 para un determinado valor fijo c2 de la
y
[Figura 11.6 aproximadamente aqu]
covariable X2 viene dada por E(Y|x1, c2) = (0 + 2c2) + (1 + 3c2)x1. As, el nuevo
X2 ya que
el cambio esperado
modelo
contempla
la posibilidad
interaccin
entre Xde
1 ymodelar
En regresin
lineal
mltiple, ladeforma
ms sencilla
la interaccin
entre la
igual
a 1 +en
3aadir
c2, que
depende
en
Y por explicativa
cada incremento
una
en X1 es X
variable
de inters
X1 unidad
y la covariable
modelodel
un
2 consiste
xde
x1 al
1
(b)
nuevodetrmino
con elque
producto
de ambas
variables,
el(a)coeficiente
3 del
trmino producto sea distinto
de 0. La
nivel
X2 siempre

Figura 11.6 Rectas de regresin de la variable respuesta Y sobre la variable explicativa X1 para distintos
47
presencia
interaccin
se covariable
ilustra en dicotmica
la Figura 11.6(b),
las rectas
regresin de
valores
(puntosde
y crculos)
de una
X2 que nodonde
interacciona
con Xde
1 (panel a) y que interacciona con X1 (panel b).

una11.6
Y sobre X1 presentan distintas pendientes para los dos valores (puntos y crculos) deFigura

222

covariableR. dicotmica
Pastor-Barriuso

X2.

A diferencia de la confusin, la interaccin s se evala estadsticamente mediante el

Confusin e interaccin en regresin lineal

Notar que el modelo ha de incluir el trmino producto X1X2 adems de los trminos principales
, de tal forma
cambio
el nivel
medio decon
Y por
incremento
delauna
+ b3clas
X2. elBajo
este en
modelo
extendido
el cada
trmino
producto,
recta de
para
X1 yque
2)x1variables
regresin de Y sobre X1 para un determinado valor fijo c2 de la covariable X2 viene dada por
Estaelcombinacin
constituye
un estimador
unidad
c2) X=1 se
(0estima
+ 2c2mediante
) + (1 +b1 3+c2b)x3c1.2.As,
nuevo modelo
contempla
la posibilidad de
E(Y|x
1, en
interaccin entre X1 y X2 ya que el cambio esperado en Y por cada incremento de una unidad en
insesgado
a la1 pendiente
+ 3c2, queespecfica
depende subyacente,
del nivel de X2 siempre que el coeficiente 3 del trmino
X
1 es igualde
producto sea distinto de 0. La presencia de interaccin se ilustra en la Figura 11.6(b), donde las
rectas de regresin de Y sobre X1 presentan distintas pendientes para los dos valores (puntos y
E(b + b3 c2 ) = E(b1 ) + E(b3 )c2 = 1 + 3 c2 ,
crculos) de una covariable1dicotmica
X2.
c
)x
,
de
tal
forma
que
el
cambio
en elsnivel
medioestadsticamente
de Y por cada incremento
una
+
b
3 2 1
A diferencia
de la confusin, la interaccin
se evala
mediante elde
contraste
cuya varianza viene dada por (vase Apartado 3.4)
parcial del coeficiente 3 asociado al trmino producto. Si este coeficiente no difiere
mediante
b1 +
b3c2. de
EstaX combinacin
constituye
un estimador
unidad en X1 se estima
sobre la variable
respuesta
Y no variar
significativamente
del valor
nulo, el
efecto
1

. En ausencia
de interaccin,
ha de eliminarse el
significativamentevar(b
en los
niveles
decX22 2var(b
b3 c2 ) = var(b
1 +distintos
1) +
3 ) + 2c2 cov(b
1 , b3 )
insesgado
de
la
pendiente
especfica
subyacente,
trmino producto y volver al modelo con los trminos principales de ambas variables, que
2 por X . Por el contrario, si el coeficiente del
permite estimar el efecto global =de X2 (v
1 ajustado
3
11 + c 2 v33 + 2c22 v13 ),
diferir
significativamente
segn el nivel
trmino producto resulta significativo,
efecto
X13 )c
= E(b
E(b
3 c2 ,
E(b1 + b3 c2 ) el
1 ) +de
2 = 1 +
se tendr una interaccin significativa entre ambas variables. Aunque
de X+2 by, cen)xconsecuencia,
3 2 1, de tal forma que el cambio en el nivel medio de Y por cada incremento de una
b3 ymodelo
tambincon
de el
sutrmino
covarianza
ya que,nocomo
seen general
queestimaciones
depende de las
de b1 ydel
las
de varianzas
los coeficientes
producto
tienen
cuya varianza viene dada por (vase Apartado 3.4)
una+unidad
interpretacin
directa,
pueden
combinarse
para
obtener
estimaciones
especificas
de la
,
de
tal
forma
que
el
cambio
en
el
nivel
medio
de
Y
por
cada
incremento
de una
b3c2)xen
1 X se estima mediante b + b c . Esta combinacin constituye un estimador
1
1
3 2
muestra en
de esterespuesta
tema, las Yestimaciones
de los
coeficientes
de regresin
con la variable
en los distintos
niveles
de X2. Para
un determinado
relacin
de el
X1Apndice
2
de
la
covariable
X
,
la
ecuacin
de
regresin
estimada
es
(x
,
c
)
=
(b0 + b2c2) + (b1
valor
fijo
c
se
estima
mediante
b
+
b
c
.
Esta
combinacin
constituye
un
estimador
unidad
en
X
var(b1 + bespecfica
1 la pendiente
1 subyacente,
31 ) 2+ c 2 var(b3 ) + 2c2 cov(b1 , b31) 2
2
23 c2 ) = var(b
insesgado
de
de talcorrelacionadas.
forma que el cambio
enintervalo
el nivel medio
de Y poralcada
incremento
+
b3c2)x1,estn
mltiple
As, el
de confianza
100(1
- )% paradelauna unidad
2 subyacente,
2
se
estima
mediante
b
+
b
c
.
Esta
combinacin
constituye
un
estimador
insesgado de la
en X
insesgado
de
la
pendiente
especfica
1
1
3 2 = (v11 + c v33 + 2c2 v13 ),
2
+
b
c
)
=
E(b
)
+
E(b
)c
=

c
,
E(b
3 2relacin1 entre X3 e2Y en1 el valor
3 2 c de la covariable
pendiente especfica
1 + 3c12 de la
subyacentesubyacente,
1
2

E(b1 + b3 c2 ) = E(b1 ) + E(b3 )c2 = 1 + 3 c2 ,


b3 y tambin
depende
deviene
las varianzas
b1 y Apartado
se
calcula
como
X2 que
cuya
varianza
dada porde
(vase
3.4)de su covarianza ya que, como se
cuya varianza viene dada por (vase Apartado 3.4)
cuya varianza
viene dadadepor
3.4)
muestra
en el Apndice
este(vase
tema,Apartado
las estimaciones
de los coeficientes de regresin
2
2
var(b
var(b
)
+
var(b
b1 + 1b+3 cb2 3c2t)n -=p-1,1v11c +
c
v
+
22c
c 2 v2 cov(b
3
1 , b3 )
/2 s1 ) +
2
2 33
13 .
2
2
mltiple estn correlacionadas. As,
el(vintervalo
c 2 v33de+ confianza
2c2 v13 ), al 100(1 - )% para la
11) +
var(b1 + b3c2) == var(b
1 + c22 var(b3) + 2c2cov(b1, b3)
quependiente
depende de
las varianzas+de
y bla
tambin
de suXcovarianza
ya que,
como
se muestra en
3cb21 una
de
entre
c2 ndice
de la covariable
1 e Y en el valor
3posible
2yrelacin
2
Ejemplosubyacente
11.13 Para1evaluar
modificacin
del
efecto del
de

(v
+
c
v
+
2c
v
),
=
11
33
2
13
2
el Apndice de este tema, las estimaciones de los coeficientes de regresin mltiple estn
desu)%
covarianza
ya que, como
se
de
laselvarianzas
1 y b3 y tambin
correlacionadas.
As,
intervalo de
de bconfianza
al 100(1
para la pendiente
subyacente
1
sedepende
calcula
como
Xque
2 masa
corporal
sobre el colesterol HDL en los estratos de fumadores actuales y no
la relacin
entre
X1 e Y de
en bel1 valor
ctambin
X2 se calcula
como
+ que
3c2 de
2 de la covariable
depende
las
varianzas
y blas
de sudecovarianza
ya que,
se
3 y estimaciones
muestra
en eldeApndice
de este tema,
los coeficientes
decomo
regresin
fumadores actuales,bse+ ajust
de regresin
lineal mltiple en los
2
b3 c2 un
tnpmodelo
1,1 /2 s v11 + c 2 v 33 + 2c 2 v13 .
1
muestra
en
el
Apndice
de
este
tema,
las
estimaciones
de
los coeficientes
)%regresin
para la
mltiple estn correlacionadas. As, el intervalo de confianza
al 100(1 - de
controles del estudio EURAMIC que inclua los trminos principales del ndice de
Ejemplo
11.13
Para evaluar
unael posible
efecto- del
)%ndice
para lade masa
mltiple
estn
correlacionadas.
As,
intervalomodificacin
de confianzadel
al 100(1
pendiente subyacente 1 + 3c2 de la relacin entre X1 e Y en el valor c2 de la covariable
corporal
sobre
el
colesterol
HDL
en
los
estratos
de
fumadores
actuales
y
no fumadores
consumo
alcohol
X2modificacin
y la variable indicadora
X3 de
los
masa
corporal
X1, el
Ejemplo
11.13
Para
evaluardeuna
posible
del efecto del
ndice
de
actuales,subyacente
se ajust
un1 +modelo
de
regresin
lineal
mltiple
en
los
controles
del
estudio

c
de
la
relacin
entre
X
e
Y
en
el
valor
c
de
la
covariable
pendiente
3 2
1
2
se calcula como
X2 EURAMIC
,
el
consumo
que
inclua
los
trminos
principales
del
ndice
de
masa
corporal
X
fumadores
actuales,
as el
como
un trmino
con elde
producto
entre
el 1ndice
masa corporal
sobre
colesterol
HDLadicional
en los estratos
fumadores
actuales
y no
y
la
variable
indicadora
X
de
los
fumadores
actuales,
as
como
un
trmino
de
alcohol
X
2
3
X2 se calcula como
2
adicional
con
el
producto
entre
el
ndice
de
masa
corporal
y
la
variable
indicadora
de los
de fumadores
masa corporal
y la
losregresin
fumadores
actuales,
actuales,
un modelo
lineal
mltiple en los
b1 variable
+seb3ajust
c2 indicadora
tn-p-1,1vde
/2 s de
11 + c 2 v 33 + 2c 2 v13 .
fumadores actuales,
2
b1 + bEURAMIC
v + clos
+ 2c 2 v13principales
.
3c2 tn-p-1,1-que
/2 sinclua
controles del estudio
trminos
del ndice de
2 v 33
3 x3 + 4 x1 x3 + .
Y = 0 + 1 x1 + 2 x2 + 11
Ejemplo
11.13XPara
evaluar una posible modificacin del efecto del ndice de
masa
corporal
1, el consumo de alcohol X2 y la variable indicadora X3 de los
Ejemplo
11.13 sobre
Para evaluar
una posible
modificacin
del efecto del actuales
ndice dey no
masa corporal
el colesterol
HDL en
los estratos
fumadores
actuales, as
como un trmino
adicional
condeelfumadores
producto entre el ndice
Pastor-Barriuso R.

masa
corporal
sobre el
colesterol
HDL ende
los estratos de
fumadores
fumadores
actuales,
ajust un
modelo
lineal
mltipleactuales
en los y49no
de
masa corporal
y lasevariable
indicadora
de regresin
los fumadores
actuales,

fumadores
actuales,
ajust un modelo
de regresin
linealprincipales
mltiple en
controles del
estudioseEURAMIC
que inclua
los trminos
dellosndice de

223

entre el ndice de masa corporal y el hbito tabquico actual en los controles del
especficos del ndice de masa corporal sobre el colesterol HDL dentro de cada
estudio
EURAMIC. No obstante, este contraste podra tener escasa potencia
Regresin lineal mltiple
estrato, ya que el estudio cuenta nicamente con 276 no fumadores actuales y 172
estadstica para detectar cambios relevantes en la magnitud de los efectos
fumadores actuales. En este sentido, es aconsejable utilizar los resultados del
La Tabla 11.11 muestra las estimaciones de los coeficientes de este modelo y las
especficos del ndice de masa corporal sobre el colesterol HDL dentro de cada
correlaciones
los distintos
de coeficientes,
queespecficos
forman parte
de los la
resultados
modelo con elentre
trmino
producto pares
para estimar
los efectos
y valorar
facilitados por los programas estadsticos convencionales. El contraste para la nulidad
estrato, ya que el estudio cuenta nicamente con 276 no fumadores actuales y 172
del
coeficiente
4 asociado al trmino producto arroja un valor P = 0,16, lo que indica
relevancia
del cambio.
que no existe una interaccin estadsticamente significativa entre el ndice de masa
fumadores actuales. En este sentido, es aconsejable utilizar los resultados del
corporal
y el en
hbito
tabquico
actual
en los controles
del la
estudio
EURAMIC.
Por un lado,
el estrato
de los
no fumadores
actuales,
variable
indicadoraNo
X3obstante,
1.2 MEDIDAS DE TENDENCIA
CENTRAL
este contraste podra tener escasa potencia estadstica para detectar cambios relevantes
modelo con el trmino producto para estimar los efectos especficos y valorar la
en
la magnitud
deecuacin
los efectos
del ndice
de masaa corporal sobre el colesterol
toma
valor 0 y la
de especficos
regresin estimada
se reduce
Las medidas de tendencia
central
informan
acerca
de
cul
es
el
valor
ms
HDL dentro de cada estrato, ya que el estudio cuentarepresentativo
nicamente con 276 no fumadores
relevancia del cambio.
actuales y 172 fumadores actuales. En este sentido, es aconsejable utilizar los resultados
b0 +estimar
b1 x1 + blos
y (x
1 , x2 , 0) =
2 x2 .efectos
de una determinada variable
o, dicho
equivalente,
estos
estimadores
indicanespecficos y valorar la
del modelo
con de
el forma
trmino
producto
para
Por un lado, en el estrato de los no fumadores actuales, la variable indicadora X3
relevancia del cambio.
y (x1 ; 16,5; 0) = 1,49 - 0,016x1 + 0,002916,5 = 1,54 - 0,016x1 .
alrededor de qu valorAs,
se agrupan
los datos observados.
Las medidas
de tendencia
una
vez0 controladas
en el consumo
de la
alcohol,
cada
Por un
lado,
estratolas
de
los
no fumadores
actuales,
indicadora X3 toma
toma
valor
yenlaelecuacin
dediferencias
regresin
estimada
se reduce
avariable
valor 0 y la ecuacin de regresin estimada se reduce a
central de la muestraPor
sirven
para
como
otrotanto
lado,
en
elresumir
estrato
de resultados
losndice
fumadores
actuales,
la variable
incremento
de
3,50
kg/m2los
en
el
deobservados
masa
corporal
depara
los noindicadora
fumadoresX3
y (x1 , x2 , 0) = b0 + b1 x1 + b2 x2 .
realizar inferencias acerca
de los
poblacionales
A por
toma
valor
1parmetros
ycontroladas
la ecuacin
de
regresincorrespondientes.
estimada
viene
dada
actuales
se
con 0)
una
disminucin
media
en
el colesterol
HDL
de
3,50b
As,
una
vez
las
diferencias
en
el
consumo
de1,54
alcohol,
cada
incremento
de
1=
asocia
;
16,5;
=
1,49
0,016x
+
0,002916,5
=
- 0,016x
y
(x
1
1
1.
2
3,50 una
kg/m
el ndice delasmasa
corporalendeellos
no fumadores
actuales
As,
vezencontroladas
diferencias
consumo
de alcohol,
cadase asocia con una
continuacin se describen
los principales
estimadores
deun
la IC
tendencia
central
de unaentre
3,50(-0,016)
= -0,057
con
al
95%
comprendido
=
3,50(0,016)
= 0,057 mmol/l, con
disminucin
media
en
el1 , colesterol
HDL
de
3,50b
y (xmmol/l,
x2 , 1) = (b0 + b3 ) + (b1 +1b4 )x1 + b2 x2 .
2 de los fumadores actuales, la variable indicadora X
Por
otro
lado,
en
el
estrato
un IC al 95%
incremento
decomprendido
3,50 kg/m enentre
el ndice de masa corporal de los no fumadores 3
variable.
0,023).
SE(b
)} = 3,50(de
0,016
1,970,0049)
= ( 0,090;
3,50{b1 det443;0,975
1la
As,
por disminucin
alcohol,
incrementos
de de
3,50
kg/m=2 en
tomadespus
valor
1 y laajustar
ecuacin
deingesta
regresin media
estimada
viene
dada por
actuales
se asocia
con una
en los
el
colesterol
HDL
3,50b
1
La Figura y11.7
muestra
en
trazo
fino
la
recta
de
regresin
estimada
del
colesterol
HDL
1.2.1 Media aritmtica
0) = de
1,49
- fumadores
0,016x1 + 0,002916,5
= 1,54 -con
0,016x
(x1 ; 16,5;
1.
el
ndice
de
masa
corporal
los
actuales
se
asocian
una
La
Figura
11.7
muestra
en
trazo
fino
la
recta
de
regresin
estimada
del
colesterol
sobre
el
ndice
de
masa
corporal
entre
los
no
fumadores
actuales
con
un
consumo
medio
3,50(-0,016) = -0,057y (x
mmol/l,
con un IC al 95% comprendido entre
1 , x2 , 1) = (b0 + b3 ) + (b1 + b4 )x1 + b2 x2 .
g/da,
de alcoholpor
de x 2, =se16,5
La media aritmtica, denotada
define
como la suma de cada uno de los
+ bla4)variable
= 3,50(-0,016
- 0,010)
disminucin
colesterol
HDL
de 3,50(b
HDLotro
sobre
elmedia
ndice
deelmasa
entre
los
no1fumadores
actuales
con
unX3 =
Por
lado,
en
el en
estrato
de corporal
los fumadores
actuales,
indicadora
0,016x-0,023).
; 16,5; SE(b
0) = 11,49
0,016x1 + 0,002916,5
= 1,54
y1 (x
3,50(-0,016
1t443;0,975
1.

)}
=

1,970,0049)
=
(-0,090;
3,50{b
As, despus
de ajustar
la ingesta derealizadas.
alcohol, los
valores muestrales dividida
por el nmero
depor
observaciones
Si incrementos
denotamos de 3,50 kg/m2 en
-0,092
mmol/l.
Para
obtenerde
una
por intervalo
del por
efecto
especfico
en valor
x 2estimacin
= 16,5estimada
g/da,
consumo
medio
de
alcohol
de
Por
otro
lado,
el
estrato
los
fumadores
actuales,
la variable
indicadora
X3 toma
toma
valor
1 yen
la
ecuacin
de
regresin
viene
dada
1elyndice
la
ecuacin
deelcorporal
regresin
por se
de
deestimada
los
fumadores
actuales
unacolesterol
por n el tamao muestral
y por
x11.7
el en
valor
observado
para
ellaviene
sujeto
i-simo,
ila=asocian
1,
..., n,con
La
Figura
muestra
en trazo
fino
rectadada
de
regresin
estimada
del
Por
otro
lado,
estrato
actuales,
variable
indicadora
X3
i masa
este estrato, se calcula en primer lugar la varianza muestral de b1 + b4
50
y (x1 , x2 , 1) = (b0 + b3 ) + (b1 + b4 )x1 + b2 x2 .
+ b4dada
) = 3,50(-0,016
- 0,010)
disminucin
en
colesterol
HDL
de los
3,50(b
la media vendra dadaHDL
por valor
sobre 1elmedia
deelmasa
entre
noviene
actuales con
un =
toma
yndice
la ecuacin
de corporal
regresin
estimada
por
1fumadores
As, var(b
despus
de ajustar por la ingesta de alcohol, los incrementos de 3,50 kg/m2 en el
1 + b4 ) = var(b1 ) + var(b4 ) + 2cov(b1 , b4 )
-0,092
mmol/l.
Para
obtener
estimacin
por intervalo
del con
efecto
ndice
de
masa
de los
fumadores
actuales
se incrementos
asocian
una
disminucin
As,
despus
decorporal
ajustar
por
launa
ingesta
de alcohol,
los
de especfico
3,50
kg/m2en
enmedia
g/da,
consumo
medio
de
2 +=
1 n de alcohol
1)x...=
(bx216,5
y x(x
0n + b3) + (b1 + b4)x1 + b2x2.
1 1+, 2x22, +
+
b
)
=
3,50(0,016

0,010)
=
0,092
mmol/l.
Para
en el colesterol
HDL
de
3,50(b
= 1 ) + SE(b
x = x=i SE(b
1 4) +
4. 2SE(b1 )SE(b4 ) rb b
1 4
n
n
i =1calcula
buna
este
estrato,
se
enpor
primer
la varianza
muestral
de beste
obtener
una
estimacin
del
efecto
especfico
en
se calcula en
el
ndice
de masa
corporal
deintervalo
los lugar
fumadores
actuales
se asocian
con
1 + estrato,
4
50
+
b
primer
lugar
la
varianza
muestral
de
b
As, despus de ajustar por2 la ingesta2 de
los incrementos de 3,50 kg/m2 en
1 alcohol,
4
+ 0,0072HDL
+ 20,00490,0072(-0,679)
= 0,000028,
= 0,0049
disminucin
media
en
el colesterol
1 + b4) = 3,50(-0,016 - 0,010) =
La media es la medida
de
tendencia
central
utilizada
y de
de 3,50(b
ms
var(b
) + var(b
var(b
1 + b4 ) =
1ms
4 ) + 2cov(b
1 , bfcil
4)
el ndice de masa corporal 2de los fumadores
actuales se asocian con una
2
SE(b
SE(b
)
+
2SE(b
=
-0,092
mmol/l.
Para
obtener
estimacin
por
en
1 )b1+una
4
4 ) rb1b4 del
y
b
se
obtiene
de
laintervalo
segunda
parte
de laespecfico
Tabla 11.11.
donde
la
correlacin
entre
4 los datos de1 )SE(b
interpretacin. Corresponde al centro de gravedad de
la
muestra.
Su efecto
disminucin media en el colesterol
HDL de 3,50(b1 + b4) = 3,50(-0,016 - 0,010) =
= 0,00492 + 0,00722 + 20,00490,0072(
0,679) = 0,000028,
este
estrato,
se
calcula
en
primer
lugar
la varianza
de b1 +enb4los
El
IC
al
95%
para
el
efecto
especfico
del
ndice
demuestral
masa
corporal
principal limitacin es que est muy influenciada por los valores
extremos
y, en
este
donde la
correlacin
entre b1una
y b4estimacin
se obtiene por
de laintervalo
segundadel
parte
de la
Tabla 11.11.
-0,092
mmol/l.
Para obtener
efecto
especfico
en El IC
al
95%
para
el
efecto
especfico
del
ndice
de
masa
corporal
en
los
fumadores
actuales
se
fumadores
actuales
se
calcula
entonces
como
caso, puede no ser undonde
fiel reflejo
debla
distribucin.
= var(b
) obtiene
+la2cov(b
b4)segunda parte de la Tabla 11.11.
var(b
1+
4) tendencia
4de
1, la
y b4 se
de
la correlacin
entre1) b+central
1 var(b
calcula
entonces
como en primer lugar la varianza muestral de b1 + b4
este
estrato,
se calcula
2

SE(b4)1 ++ b2SE(b
3,50{b1 +=bSE(b
1) + SE(b
1)SE(b4) rb1b4
4 t443;0,975
4 )}
Ejemplo 1.4 EnEleste
yalen
los
sucesivos
ejemplos
sobre
estimadores
muestrales,
se en los
ICvar(b
95%
para
el
efecto
especfico
del
ndice
de masa
corporal
+
b
)
=
var(b
)
+
var(b
)
+
2cov(b
1
4
1
4
1, b4)
= 3,50( 0,0162 0,010 21,97 0,000028 ) = (0,129; 0,056).
+ 0,00722en+los
20,00490,0072(-0,679)
= 0,0049
utilizarn los valores
del colesterol
HDL
obtenidos
10 primeros sujetos del= 0,000028,
2
fumadores
actuales
se
calcula
entonces como
= SE(b
1) + SE(b4) + 2SE(b1)SE(b4) r
b1b4

estudio European
on11.7
Antioxidants,
Infarction
and Cancer
b4 se
obtiene
de la
la recta
segunda
parteofde laestimada
Tabla 11.11.
donde
la correlacin
entre b2Myocardial
1 y en
En
laStudy
Figura
se
representa
trazo
de regresin
2 grueso
SE(b
3,50{b
1+
4 t443;0,975
1 ++b20,00490,0072(-0,679)
4)}
+ 0,0072
= 0,000028,del
= b0,0049
224 Pastor-Barriuso R.
the Breast (EURAMIC),
unpara
estudio
multicntrico
dedel
casos
y controles
El IC al 95%
el efecto
especfico
ndice
de masa
corporal
en actuales
los
colesterol
HDL
sobre
el
ndice
de masa
corporal
entre
losrealizado
fumadores
con
0
,
000028
) = (-0,129;
=
3,50(-0,016
0,010

1,97
parte de -0,056).
la Tabla 11.11.
donde la correlacin entre b1 y b4 se obtiene de la segunda
entre 1991 y 1992
en
ochoactuales
pases de
Europeos
Israel
evaluar
fumadores
sealcohol
calculaede
entonces
como
x =para
16,5
g/da, el efecto de los
una
ingesta
media

= 3,50(-0,016 - 0,010 1,97 0,000028 ) = (-0,129; -0,056).

continuacin se describen los principales estimadores de la tendencia central de una


Confusin e interaccin
en del
regresin lineal
En la Figura 11.7 se representa en trazo grueso la recta de regresin
estimada
variable.
colesterol HDL sobre el ndice de masa corporal entre los fumadores actuales con
En la Figura 11.7 se representa en trazo grueso la recta de regresin estimada del colesterol
1.2.1 Media aritmtica
una
ingesta
media
dede
alcohol
de x 2 = 16,5
HDL
sobre el
ndice
masa corporal
entreg/da,
los fumadores actuales con una ingesta media
g/da,
de alcoholpor
de x 2, =se16,5
La media aritmtica, denotada
define
como la suma de cada uno de los

y (x1 ; 16,5; 1) = (1,49 + 0,18) (0,016 + 0,010)x1 + 0,0029 16,5


valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
= 1,72 0,026x1 .
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
En conclusin, a partir del modelo con la interaccin se tiene que un mismo incremento
de 3,50 kg/m2 en el ndice de masa corporal se asocia con distintas disminuciones en el
la media vendra dada por
nivel medio de colesterol HDL de 0,057 mmol/l en los no fumadores y 0,09251mmol/l
en los fumadores actuales. El cambio en la magnitud del efecto es notable pero, debido
n
+ x 2 + ...de
+ xambos
xmuestral
al limitado1 tamao
estratos, las estimaciones especficas son
n
.
x = xi = 1
relativamente
imprecisas
y
el
test
de
interaccin
no alcanza la significacin estadstica.
n i =1
n
Por tanto, los resultados de este estudio no son concluyentes respecto a la posible accin
sinrgica del ndice de masa corporal y el tabaco en los niveles de colesterol HDL, y se
La media es la medida
de tendencia
de ms
fcil un cambio subyacente de dicha
requerira
de un central
estudioms
msutilizada
potente ypara
detectar
magnitud en los efectos especficos del ndice de masa corporal en fumadores y no
interpretacin. Corresponde
al centro
de gravedad de los datos de la muestra. Su
fumadores
actuales.

principal limitacin es que est muy influenciada por los valores extremos y, en este

Tabla 11.11 Resultados de la regresin lineal mltiple del colesterol HDL


caso, puede no ser unsobre
fiel reflejo
de la de
tendencia
central de(IMC),
la distribucin.
el ndice
masa corporal
el consumo de alcohol, la variable
indicadora de fumadores actuales y el producto entre IMC y fumador actual
en el grupo control del estudio EURAMIC.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
Coeficientes de regresin

utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
Test H0: j = 0
Estimacin Error estndar
IC al 95%
t
Constante
1,49
0,13
(1,24; 1,75)
11,47
IMC
0,016
0,0049
(0,026; 0,007)
3,30
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
Alcohol
0,0029
0,0006
(0,0018; 0,0041)
4,88
Fumador
0,18
0,19para evaluar
(0,20;
0,55) de los0,91
entre 1991 y 1992
en ocho pases Europeos
e Israel
el efecto
IMCFumador
0,010
0,0072
(0,024; 0,004)
1,40

estudio European Study on Antioxidants, Myocardial Infarction and Cancer of

Matriz de correlaciones de las estimaciones


Constante
IMC
Alcohol
Fumador

IMC
0,990

Alcohol
0,052
0,016

Valor P
< 0,001
0,001
< 0,001
0,36
0,16

Fumador
0,670
0,674
0,134

IMCFumador
0,664
0,679
0,120
0,990

Pastor-Barriuso R.

225

Regresin lineal mltiple

2,25

Colesterol HDL (mmol/l)

1,5

0,5
0,25
20

24

28

32

36

Indice de masa corporal (kg/m)


Figura 11.7

Figura 11.7 Rectas de regresin del colesterol HDL sobre el ndice de masa corporal en fumadores actuales
(puntos y lnea gruesa) y no fumadores actuales (crculos y lnea fina) obtenidas de un modelo con interaccin entre el ndice de masa corporal y el hbito tabquico actual en el grupo control del estudio EURAMIC.

En regresin lineal, la ausencia de interaccin entre dos variables explicativas X1 y X2 implica


que sus efectos sobre la variable respuesta son aditivos; es decir, el efecto conjunto de ambas
E(Y|x1 + 1, x2 + 1) - E(Y|x1 , x2 )
variables es la suma de sus efectos independientes. La presencia de interaccin puede
interpretarse, por tanto, como una desviacin de la aditividad, que puede deberse tanto a
= + 1 (x1 + 1) + 2 (x2 + 1) + 3 (x1 + 1)(x2 + 1)
efectos subaditivosE(Y|x
como1 a+0 efectos
supraaditivos.
1, x2 + 1)
- E(Y|x1 , x2 ) Ms concretamente, en un modelo de regresin
lineal con el trmino producto entre X1 y X2, el cambio esperado en Y al aumentar simultneamente
+ 1 x1 + 2 x2 + 3 x1 x2 ) = 1 + 2 + 3 (x1 + x2 + 1).
- ( 0 explicativas
una unidad ambas variables
+ 2 (x2 + 1) + 3 (x1 + 1)(x2 + 1)
= 0 + 1 (x1 + 1) es

E(Y|x1 + 1, x2 + 1) E(Y|x1 , x2 )
En el mismo modelo, los
esperados
2 x2 + 3 xen
) =alaumentar
(x1 +separado
x2 + 1). una unidad
- (cambios
0 + 1 x1 +
1 x2Y
1 + 2 + 3por
= 0 + 1 (x1 + 1) + 2 (x2 + 1) + 3 (x1 + 1)(x2 + 1)
cada variable explicativa
( 0los
+son
cambios
x2 + 3 x1 xen
+ 2 + 3por
(x1 +separado
x2 + 1).una unidad
En el mismo modelo,
Y al1 aumentar
1 x1 + 2esperados
2) =
En el mismo
modelo,
losx2cambios
cada variable
son 1esperados
+ 1,
) - E(Y|x
, x2 ) = 0 +en 1Y(x1al+aumentar
1) + 2 x2 por
+ 3separado
(x1 + 1)x2una unidad cada
E(Y|x
1 explicativa
variable explicativa son
En el mismo modelo, los cambios esperados en Y al aumentar por separado una unidad
2 x+2 +2 x23+
x1x23)(x=1 + 11)x
+ 2 3 x2
- (00 ++11(xx11 + 1)
E(Y|x1 + 1, x2 ) E(Y|x1 , x2 ) =
y

cada variable explicativa son


y
y

( 0 + 1 x1 + 2 x2 + 3 x1 x2 ) = 1 + 3 x2

E(Y|x1 + 1, x2) - E(Y|x1, x2) = 0 + 1(x1 + 1) + 2x2 + 3(x1 + 1)x2


E(Y|x1 , x2 + 1) E(Y |x1 , x2 ) = 0 + 1 x1 + 2 (x2 + 1) + 3 x1 (x2 + 1)
-((0 ++1xx1 ++2xx2 ++3xx1xx2))==1 ++3xx2 .
2 2
3 1 2
2
3 1
E(Y|x1, x2 + 1) - E(Y|x1, x2) = 00+ 1x1 1 1+ 2(x
2 + 1) + 3x1(x2 + 1)

y
- ( 0 + 1 x1 + 2 x2 + 3 x1 x2 ) = 2 + 3 x1 .
As, si existe interaccin entre X1 y X2, el coeficiente 3 asociado al trmino producto
226

x2 + 1) - E(Y|x
) =X2, 0el+coeficiente
1x1 + 2(x23 +asociado
1) + 3x1(xtrmino
1,Xx12y
2 + 1)
si existe
serAs,
distinto
de 0interaccin
y el efectoentre
conjunto
de ambas variables
diferir al
de la sumaproducto
de sus

Pastor-Barriuso R.
E(Y|x1,

+ 1x1variables
+ 2x2 +diferir
3x1x2)de
= la
2suma
+ 3xde
(0ambas
1. sus
ser distinto de 0 y el efecto conjunto- de
efectos
independientes,

ser distinto de 0 y el efecto conjunto de ambas


1 x1 + 2diferir
x2 + 3 xde
2 + de
- ( 0 +variables
1 x2 )la=suma
3 xsus
1.
efectos independientes,
Confusin e interaccin en regresin lineal
As, si existe interaccin entre X1 y X2, el coeficiente 3 asociado al trmino producto
1) - E(Y|x
E(Y |xde
1 +01,
1 , x2 )de ambas variables diferir de la suma de sus
ser distinto
y xel2 +
efecto
conjunto
As, si existe interaccin entre X1 y X2, el coeficiente 3 asociado al trmino producto ser
+ 1, x2 ) - de
E(Y|x
E(Y|x1 , xdiferir
x2 )} de sus efectos
1 , x2 ) +
2 + 1) - E(Y
distinto
deindependientes,
0 y el- {E(Y|x
efecto 1 conjunto
ambas
variables
de |x
la1 , suma
efectos
independientes,
+ 2 +20;
3 (x0)1 +
- ( 1 + 3 x2++0,002920
2 + 3 x1 )==1,091,
3.
= y1 (28,5;
2 + 1)
= x1,49
- 0,01628,5
E(Y |x1 + 1, x2 + 1) E(Y|x1 , x2 )
y(28,5;
- 0,01628,5
+ 0,002920
{E(Y|x20;
1, =x21,49
) E(Y|x
E(Y |x1 , x2 )}
1,091,
1 + 0)
1 , x2 ) + E(Y|x
1 , x2 + 1)=
el de los fumadores actuales con un ndice de masa corporal de 25 kg/m2 y un
Ejemplo 11.14=A 1partir
delas
modelo con el trmino producto
+ 2 +
(x estimaciones
+ x + 1) (del
1 + 3 x2 + 2 + 3 x1 ) = 3 .
y (28,5; 20;
0)3 = 11,492 - 0,01628,5
+ 0,002920 = 1,091,
el de los fumadores
cones
un ndice de masa corporal de 25 kg/m2 y un
consumo
de alcohol actuales
de 20 g/da
de la Tabla 11.11, el nivel medio de colesterol HDL de los no fumadores con un
Ejemplo 11.14 A partir de las estimaciones del modelo con el trmino
producto de la
2
consumo
de alcohol
de
20 g/da
es
el
de los
fumadores
actuales
con
un
de
masa
corporal
de
25
kg/m
y
un de masa
2ndice
Tabla
11.11,
el
nivel
medio
de
colesterol
HDL
de
los
no
fumadores
con
un
ndice
y (25,
20,corporal
1) = 1,49
0,01625
0,002920
0,18
- 0,01025
1,070
consumo+de
alcohol
de 20=g/da
es
ndice de
masa
de -25
kg/m y+un
2
y20;
un0)
consumo
alcohol del
de
g/da con
es= 1,091,
corporal
de 25
Ejemplo
11.14
A partir
de= las
estimaciones
modelo
el trmino producto
y kg/m
(28,5;
1,49
-de
0,01628,5
+ 20
0,002920
consumo
de
alcohol
de
20
g/da
es
y (25, 20, 1) = 1,49 - 0,01625 + 0,002920 + 0,18 - 0,01025 = 1,070
0,016
y (25, el
20,nivel
0) =medio
1,49
25 +ndice
0,002920
= 1,148,
y elde
delalos
fumadores
actuales
con un
de de
masa
corporal
de 28,5
Tabla
11.11,
deelevado
colesterol
HDL
los
no fumadores
con un
2
el de los fumadores
actuales
con
un
ndice
de
masa
corporal
de
25
kg/m
y
un
2
y (28,5;
20;
=elevado
1,49 - 0,01628,5
++
0,002920
=
(25,
20,
1) = 1,49
- 0,01625
+2 0,002920
0,18 - 0,01025
1,070
el de 2losy no
fumadores
con0)
un
ndice
de masa
corporal
de1,091,
28,5=kg/m
y un consumo
y elndice
deylos
fumadores
actuales
con
un
ndice dedemasa
corporal
deg/da
28,5
unde
consumo
de
alcohol
dekg/m
20 elevado
g/da
esconsumo
kg/m
y
un
alcohol
de
20
masa
corporal
de
25
2 es
de
alcohol
de
20
g/da
es
y un
el
de
los
no
fumadores
con
un
elevado
ndice
de
masa
corporal
de
28,5
kg/m
consumo de alcohol de 20 g/da es
2los fumadores actuales con un ndice de masa corporal de 25 kg/m2 y un
200,01628,5
y (28,5; de
20;
0) = 1,49
+ 0,002920
1,091, de 28,5
ylos
unfumadores
consumo
alcohol
de un
g/da es ndice
kg/m
yel
eldede
actuales
con
elevado
de masa=corporal
y (28,5;
1) =y de
1,49
- g/da
0,01628,5
0,002920+ +0,002920
0,18 - 0,01028,5
consumo
de 20;
alcohol
2020,
(25,
0) =es1,49 +- 0,01625
= 1,148, = 0,978.
y (25,
20, 1) = 1,49 - 0,01625
+ 0,002920
+ 0,18
- 0,01025
= 1,070
2
el de 2los
fumadores
conde
de
masa
corporal
de 25 kg/m
y un consumo
consumo
deconsumo
alcohol actuales
de
20
g/da
esun20ndice
y
un
de
alcohol
g/da
es
kg/m
2

y
(28,5;
20;
1)
=
1,49
0,01628,5
+
0,002920
+
0,18
0,01028,5
=
0,978.
el
los fumadores
actuales
con un ndice de masa corporal de 25 kg/m y un 2
dede
alcohol
de 20 g/da
es
Tomando
como
referencia con
a losunsujetos
nondice
fumadores
concorporal
un ndicedede28,5
masa
y un
el de los
no fumadores
elevado
de masa
kg/m 53
y el de los
fumadores
actuales
con
un
elevado
ndice
de
masa
corporal
de
28,5

y (25,
20,1)1)==2de
1,49
0,016
25 = 1,070
0,01628,5
y (28,5;
1,49
0,002920++0,18
0,18-0,010
0,01028,5
= 0,978.
consumo
de 20;
alcohol
20-g/da
es25 ++0,002920
Tomando
referencia
a los
sujetos
no
un ndice
de masa
, los
no
fumadores
confumadores
un elevadocon
ndice
de masa
corporal
corporal
decomo
25
kg/m
consumo
de
alcohol
de
20
g/da
es
2
y el de
actuales
ylos
unfumadores
consumo de
alcoholcon
de un
20elevado
g/da esndice de masa corporal de 28,5 kg/m2 y un
kg/m
2
consumo
de
alcohol
20
g/da
es un +elevado
ycorporal
el28,5
de ylos
fumadores
actuales
con
de
masa
corporal
de
28,5
kg/m
(25,
20,
1) =2de
0,002920
+ 0,18
-colesterol
0,01025
= 1,070
, 1,49
los
no
fumadores
con
un
elevado
de masa
corporal
de
25
kg/m
presentan
una
disminucin
en
landice
media
delndice
HDL
de
de
Tomando
como
referencia
a- 0,01625
los
sujetos
no
fumadores
con
un
ndice
de
masa
53
y 2(28,5; 20;
1) = 21,49 0,01628,5 + 0,002920 + 0,18 0,01028,5 = 0,978.
2
kg/m
un
de
alcohol
de 20 g/da
una fumadores
disminucin
enesla elevado
media del
colesterol
HDL
de
de 28,5y kg/m
los
con
ndice
de masa
corporal
corporal
de consumo
25ypresentan
kg/m
(28,5;, actuales
20; no
0) - con
y (25,
20,
0) =un1,091
- de
1,148
= corporal
-0,057,
yTomando
el de loscomo
fumadores
un
elevado
ndice
masa
de
28,5
referencia a los sujetos no fumadores con un ndice de masa corporal de
2
2 no fumadores con un elevado ndice de masa corporal de 28,5 kg/m2
25
kg/m
,
los
Tomando
como
referencia
a0,01628,5
los
sujetos+no
fumadores
con
un
ndice de =
masa
una
disminucin
en
media
del colesterol
de 28,5
kg/m20;ypresentan
y2(28,5;
1) = 1,49
-0)
0,002920
+- 0,18
- 0,01028,5
0,978.
(28,5;
20;
- yde
(25,
20,
0)
=la1,091
1,148
= -0,057,HDL
y
un
consumo
de
alcohol
20
g/da
es
kg/m
presentan
una disminucin
la media
del colesterol
HDL de de 25 kg/m2 de
los
fumadores
actuales con en
el mismo
ndice
de masa corporal
corporal de 25 kg/m2, los no fumadores con un elevado ndice de masa corporal
y (28,5; 20; 0) y (25, 20, 0) = 1,091 1,148 = 0,057,
2
Tomando
como
referencia
sujetos
fumadores
con -un
ndice
de masa
de
los fumadores
con
ellos
mismo
ndice
de masa corporal
de 25 kg/m
y (28,5;
20;actuales
= 1,49
- a0,01628,5
+no
0,002920
0,18
1)(25,
20, 1)
- y (25, 20,
0)
= 1,070 +- 1,148
=0,01028,5
-0,078 = 0,978.
2 y
unaeldisminucin
en de
la media
del colesterol
de
kg/m presentan
los28,5
fumadores
actuales con
mismo ndice
masa corporal
de 25 HDL
kg/m2de
de
2
noelfumadores
con de
un masa
elevado
ndicede
de25
masa
corporal
corporal
de 25 actuales
kg/m2, los
de
los
fumadores
con
mismo
ndice
corporal
kg/m

y
(25,
20,
1)
y
(25,
20,
0)
=
1,070
1,148
=
0,078

Tomando
como
referencia
a
los
sujetos
no
fumadores
con
un
ndice
de
masa
y los fumadores
actuales
de masa
corporal
de 28,5 kg/m2 de
(28,5;
20;con
0) -uny elevado
(25, 20, ndice
0) = 1,091
- 1,148
= -0,057,
2y
una
en la media
delcorporal
colesterol
de 2 de
de
28,5
kg/m presentan
y los
fumadores
actuales
condisminucin
un
elevado ndice
de masa
de HDL
28,5 kg/m
2 20, 1) - y

y
(25,
(25,
20,
0)
=
1,070
1,148
=
-0,078
, los con
no fumadores
un elevado
de de
masa
corporal
corporal
de 25 kg/m
y los fumadores
actuales
un elevadocon
ndice
de masandice
corporal
28,5
kg/m2 de
y (28,5; 20; 1) y (25, 20, 0) = 0,978 1,148 = 0,170.
2
los fumadores2 yactuales
con0)el-mismo
masa-corporal
25 kg/m de
(28,5; 20;
y (25, ndice
20, 0)
=de
1,091
1,148
= de
-0,057,
presentan
una
disminucin
en
la
media
del
colesterol
de 2 de
de
28,5
kg/m
yAs,
loslafumadores
actuales
ndice
masa
corporal
de HDL
28,5conjuntamente
kg/m
disminucin
media
del-un
colesterol
dede0,170
mmol/l
debida
a
y (28,5;
20;con
1)
y elevado
(25, 20, HDL
0) = 0,978
- 1,148
= -0,170.
As,
la ydisminucin
HDL
-0,170
mmol/l
debida que la suma de
fumar
aumentar
elmedia
ndice
de
masa
corporal
esdemayor
en
valor
absoluto
y (25,
20, 1)del
- ycolesterol
(25, 20,
0)
= 1,070
- 1,148
= -0,078
2
los
conel0,078
mismo
ndice =de
masa corporal
decada
25 kg/m
yyactuales
(28,5;
20;
20,
1,091
1,148
las fumadores
disminuciones
0,057
= 0,135
factor de
por separado.
(28,5;
20; 0)
1) -- yy (25,
(25,
20, 0)
0) =mmol/l
0,978 -- debidas
1,148 =
= a-0,057,
-0,170.
As,
la disminucin
del estudio
colesterol
HDL
-0,170
mmol/l
conjuntamente
a fumar
y aumentar
el EURAMIC
ndice
dede
masa
corporal
es debida
mayor
en valor
En otras
palabras,
losmedia
datos
del
apuntan
a un posible
efecto
supraaditivo
2
deHDL.
yo los
fumadores
actuales
con
un
elevado
ndice
de
masa
corporal
de
28,5
kg/m

2
sinrgico
del
ndice
de
masa
corporal
y
el
tabaco
sobre
los
niveles
de
colesterol
y
(25,
20,
1)
y
(25,
20,
0)
=
1,070
1,148
=
-0,078
de
los
fumadores
actuales
con
el
mismo
ndice
de
masa
corporal
de
25
kg/m
conjuntamente
fumar
aumentar
el ndice
dedemasa
corporal
esdebida
mayor
en debidas
valor
absoluto
que la asuma
deylas
disminuciones
-0,057
- 0,078
= -0,135
mmol/l
As,
la disminucin
media
del
colesterol
HDL
-0,170
mmol/l
y (28,5; 20; 1) - y (25, 20, 0) = 0,978 - 1,148 = -0,170.
2
los fumadores
actuales
con
elevado
ndice
dedatos
corporal
deEURAMIC
28,5enkg/m
que por
la aysuma
de
disminuciones
-0,057
-masa
==
-0,135
mmol/l
debidas
ayabsoluto
cada
factor
separado.
los
del
estudio
conjuntamente
fumar
ylas
aumentar
elpalabras,
ndice
de
masa
corporal
es mayor
valorde
(25,
20,
1)En
- un
yotras
(25,
20,
0)
=
1,070
-0,078
1,148
-0,078
As,
la factor
disminucin
media
del
colesterol
de -0,170
mmol/l
a cada
por
separado.
En
otras
los
datos
del
EURAMIC
apuntan
aque
un la
posible
efecto
supraaditivo
o0)sinrgico
ndice
dedebida
masa
corporal
y
absoluto
de
disminuciones
-0,057
- 0,078
=estudio
-0,135
mmol/l
debidas
y suma
(28,5;
20;las
1)
-un
y elevado
(25,palabras,
20, HDL
= 0,978
-del
1,148
=
-0,170.
y los fumadores
actuales
con
ndice
de masa
corporal
de 28,5 kg/m2 de
conjuntamente
alos
fumar
y aumentar
ndice
delos
masa
corporal
esdemayor
en valor y
apuntan
asobre
un por
posible
efecto
supraaditivo
o sinrgico
del
ndice
masa
corporal
tabaco
niveles
de
colesterol
HDL.
ael
cada
factor
separado.
En
otraselpalabras,
datos
del
estudio
EURAMIC
As, la disminucin
media
del
colesterol
HDL
de
-0,170
mmol/l
debida
y (28,5; 20; 1) - y (25, 20, 0) = 0,978 - 1,148 = -0,170.
absoluto
suma
de lasde
disminuciones
-0,057 - 0,078
= -0,135
mmol/l
debidas
el tabacoaque
sobre
los niveles
colesterol HDL.
Pastor-Barriuso
R.
apuntan
un la
posible
efecto
supraaditivo
o sinrgico
del ndice
de masa
corporal
y
conjuntamente a fumar y aumentar el ndice de masa corporal es mayor en valor
la factor
disminucin
media del
colesterol
HDLlos
de datos
-0,170del
mmol/l
debida
aAs,
porlos
separado.
Encolesterol
otras palabras,
estudio
EURAMIC
elcada
tabaco
sobre
niveles
de
HDL.
54
absoluto que la suma de las disminuciones -0,057 - 0,078 = -0,135 mmol/l debidas

227

MLTIPLE
Segn la estructura de la regresin
lineal mltiple presentada en el Apartado 11.2, cada
media 0 y varianza constante 2. Estas n ecuaciones lineales pueden reescribirse en
11.8
APNDICE:
FORMULACIN
MATRICIAL
LAenREGRESIN
LINEAL
xDE
relacin11.2,
lineal
una
de
las
n observaciones
independientes
(yi, xi1, ,
Segn
la
estructura
de la regresin
lineal
mltiple
presentada
el la
Apartado
cada
Regresin
lineal
mltiple
ip) presenta
forma matricial como
MLTIPLE
una de las n observaciones independientes (yi, xi1, , xip) presenta la relacin lineal
i = 1, , n,
yi = 0 + 1 xi1 + + p xip + i,

1
x
x
y

REGRESIN
1
11.8 APNDICE: FORMULACIN
MATRICIAL
DE LA
LINEAL
11
1p
1

0
Segn
la
estructura
de
la
regresin
lineal
mltiple
presentada
el n,
Apartado 11.2, cada

,
MLTIPLE yi = 0 + 1 xi1 + + p xip + i, i = 1,en
independientes y estn
donde los errores aleatorios
distribuidos
normalmente con

i son
1 +

=
la relacin
una la
deestructura
las n observaciones
independientes
(yi, xpresentada
Segn
de la regresin
lineal mltiple
en el Apartado
11.2,lineal
cada una de
i1, ,
xip) presenta
yestn

son
2
donde
los
errores
aleatorios
independientes
distribuidos
normalmente
n
ecuaciones
lineales
pueden
reescribirse
en con
0 y varianza
constante
i .(yEstas
,
x
,
,
x
)
presenta
la
relacin
lineal
las media
n observaciones
independientes

ip


i i1
p
x n1+
x i =1,n , n,
yi = 0 y+n 1 x2i11+
p xip +np i,
media
0 y varianza
constante . Estas n ecuaciones lineales pueden reescribirse en
forma matricial
como
donde los errores aleatorios i son independientes y estn distribuidos normalmente con media
los constante
errorescomo
aleatorios
independientes
y estn
distribuidos
normalmente
con
ecuaciones
lineales
pueden
reescribirse
en forma matricial
0 ydonde
2. Estasi nson
forma
matricial
o,varianza
abreviadamente,
1
y1 1 x11 x1 p
como
0
2
pueden

.
Estas
n
ecuaciones
reescribirse en
media 0 y varianza constante
X +x1p , lineales
1

y1 1 x11y =
1
0 +
=

forma matricial como
1 respuesta,

donde y es un vector n 1 con


de lavariable
X es una matriz de
valores

=los
y n 1 x n1 x np p + n
1
1 x11sonlos xvalores
y1 columnas
1p
dimensin n (p + 1) cuyas
de cada variable explicativa ms
y n 1 x n1 x np 0p n



o, abreviadamente,
un vector (p+1) 1 1 con
coeficientes de
=es
una primera columna de unos,
+ los
o, abreviadamente,

o, abreviadamente,

y = X + ,
los
errores aleatorios.
de errores aleatorios
regresin y es un vector n 1 con
p El

nvector
y n 1 x n1 x np
donde y es un vector n 1 con los valores de
y =laXvariable
+ , respuesta, X es una matriz de dimensin
es uncolumnas
vector
son
1 con
losnormal
valores
de la
variable
respuesta,
una
matriz
de
(psigue
entonces
una ndistribucin
multivariante
con
mediams
0Xy es
matriz
diagonal
n donde
+ 1)ycuyas
los valores
de cada
variable
explicativa
una
primera
columna
de unos,
es un vector (p + 1) 1 con los coeficientes de regresin y es un vector n 1 con
o,
abreviadamente,
asuncin
de homogeneidad 2de la varianza, todas las varianzas de la diagonal de la
y aleatorios.
es nun vector
1con
valores
de
variable
X esexplicativa
una matrizms
de
los donde
errores
de
errores
aleatorios
sigue
entonces
una
distribucin
normal
dimensin
(p + El
1)nvector
cuyas
son
loslavalores
derespuesta,
cada
variable
Icolumnas
, los
de
varianzas-covarianzas
2
multivariante con media 0 y matriz diagonal de varianzas-covarianzas
I,
2 ,y que, por tratarse de observaciones
matriz de varianzas-covarianzas son iguales
y = Xa +
dimensin
n

(p
+
1)
cuyas
columnas
son
los
valores
de
cada
variable
explicativa
de ms
una primera columna de unos, es un vector (p 2+ 1) 1 con los coeficientes
~ N(0, I),
independientes, las covarianzas de fuera de la diagonal son iguales a cero.
donde
y esy un
ndenulo
unos,
1ncon
valores
de sus
laaleatorios.
variable
Xdeeserrores
de la
donde
denota
el
vector
1escon
todos
iguales
a una
ceromatriz
ealeatorios
I denota
un
(p
+componentes
1) 1 respuesta,
con
coeficientes
de
una 0primera
columna
esvector
un vector
n 1los
con
losvector
errores
El los
vector
regresin
donde
0 denota
nuloenn matricial
1diagonal
con todos
sus componentes
amltiple,
cero
I denota
matriz
elnvector
con unos
la
ceros
fuera
de ella.iguales
Notar
pore la
asuncin
Aidentidad
partir
denesta
formulacin
dely modelo
de regresin
linealque,
resulta
de homogeneidad
de
lasson
varianzas
de ladecon
diagonal
de0 de
matriz
de
varianzasdimensin
+lavector
1)varianza,
cuyas
los valores
cada
variable
explicativa
ms
un
n columnas
1todas
con
los
errores
aleatorios.
Elmedia
vector
errores
aleatorios
regresin
ynes(p
sigue entonces
una
distribucin
normal
multivariante
ylamatriz
diagonal
2
y
que,
por
tratarse
de
observaciones
independientes,
las
covarianzas
covarianzas
son
iguales
a

la
matriz
identidad
n

n
con
unos
en
la
diagonal
y
ceros
fuera
de
ella.
Notar
que,
por
sencillo calcular las estimaciones de los coeficientes de regresin por el mtodo de la
de fuera
deentonces
la diagonal
un vector
(p + 1) 1con
conmedia
los coeficientes
una
primera
columna
de iguales
unos,
sigue
unason
distribucin
normal
multivariante
0 y matriz de
diagonal
2I, aescero.
de
varianzas-covarianzas
55
mnimos
En el Apartado
se comprob
quelineal
estas mltiple,
estimaciones
vienen
A
partir decuadrados.
esta formulacin
matricial11.3.1,
del modelo
de regresin
resulta
sencillo
2
aleatorios.
Elmtodo
vector de errores
aleatorios
regresin
y es un vector
n Icoeficientes
,1 con los errores
de varianzas-covarianzas
calcular
las estimaciones
de los
de regresin
por el
mnimos
cuadrados.
~ N(
0, 2I),
por la solucin
sistema de que
p + 1estas
ecuaciones
lineales
En dadas
el Apartado
11.3.1, seal comprob
estimaciones
vienen dadas por la solucin al
sigue
una distribucin
con media 0 y matriz diagonal
sistema
de entonces
p + 1 ecuaciones
lineales normal multivariante
2
~ N(0, I),
donde 0 denota el vectorn nulo n 1 con ntodos sus componentes
iguales a cero e I denota
n
2
y i I=, nb0 + b1 xi1 + ... + b p xip ,
de varianzas-covarianzas

=
=todos
1
1
i
i =1 fuera de
donde
0 denota
el vector
nulounos
n 1nencon
susycomponentes
iguales
a ceroque,
e I denota
la
matriz
identidad
n n n con
la i diagonal
ceros
ella. Notar
por la
n
n
2
b10
xi1 y i = b0 1 xlai1 ~+diagonal
N(
, x2i1I),+ ... + b p x i1 x ip ,
55
la matriz identidad n i=1 n con unosi =en
y ceros fuera
i =1 de ella. Notar que, por la
i =1

n
n
n
n
55
2
donde 0 denota el vector
1 con todos sus componentes iguales
a cero e I denota
y i =nb
xipnulo
0 x ip + b1 x i1 x ip + ... + b p x ip ,
i =1

i =1

i =1

i =1

la matriz identidad n n con unos en la diagonal y ceros fuera de ella. Notar que, por la
que puede representarse matricialmente como

228

1
x
Pastor-Barriuso
11R.

x1 p

y
1 1 1
x n1 x11
=

x np x1 p
y

55
1 x11 x1 p
1
b0

b
x n1

1

b
x np

1 x
x p

i =1
n

i =1
n

i =1
n

i =1
n

y i = b0 x ip + b1 x i1 x ip + ... + b p x ip2 ,
i =1
i =1 Apndice: formulacin
i =1matricial de la regresin lineal mltiple
i =1 matricialmente
que puede representarse
como
ip

ecuacin anterior por la matriz inversa (XX)-1, se obtienen las estimaciones de los
que puede representarse matricialmente
como
1 x11 x1 p
y1

1
1
1
1

b0

quecoeficientes
puede representarse
matricialmente como
de regresin

x
b

x n1 x11
x n1
11

x
x
1
11
y
1
1p

1 1 = 1
1

1
-1
b0
b = (XX) Xy.

bb

x111p
xx np
xx111p
xx np
n1
1p
n1
-1

de los

=
ninversa
ecuacin anterior por la matriz
(XX) , se obtienen 1las estimaciones

x
x
y
1
n
np

b
Deesta formula matricial
que los estimadores
se desprende
de mnimos cuadrados
b
x
-1

x
x

inversa
las estimaciones de los
coeficientes
de regresin
np
np
1 p anterior
ecuacin
por la matriz
1 p(XX) , se obtienen
x p
n
y los
1 x n1 y,
o,
cuyosnpcoeficientes
sonabreviadamente,
combinaciones lineales de
valores de la variable respuesta
o, abreviadamente,
coeficientes de regresin
b = (XX)-1 Xy.
dependen
de
los
valores
de
las
variables
o, abreviadamente,
Xyexplicativas
= XXb, X que se asumen constantes. En
-1

=es(suficientemente
Xel
Xvector
) los
Xyestimadores
.(p + 1)
donde
X' esta
es laformula
matriz
dedesprende
X yb
1de
con
las estimaciones
De
matricialmuestral
se
que
mnimos
cuadrados
b los
consecuencia,
si el traspuesta
tamao
nbes
grande,
puede
aplicarse
unade
y es
=X
Xb
, (pasume
donde X es
la matriz
traspuesta
de X X
y blineal
elmltiple
vector
+ 1) que
1 con
estimaciones
coeficientes.
Como
el modelo
de regresin
las las
variables
explicativas
sonecuacin
linealmente
independientes
quevalores
el lmite
dedemostrar
observaciones
es
superior
yn, estimadores
cuyos
coeficientes
son
combinaciones
lineales
de
de
la,los
variable
respuesta
XX
)-1para
se
obtienen
las
estimaciones
de los
la matriz
inversa
(nmero
bo igual
generalizacin
delpor
teorema
central
del
que
los
b al
De
estaanterior
formula
matricial
seylos
desprende
que
estimadores
de
mnimos
cuadrados
nmero
de
coeficientes
p
+
1,
la
matriz
X
tiene
rango
p
+
1
y,
en
consecuencia,
la
matriz
de los coeficientes.
Como
el modelo
lineal
las
donde
X es la matriz
traspuesta
de Xde
y bregresin
es el vector
(p mltiple
+ 1) 1 asume
con lasque
estimaciones
cuadrada
X'X
es
no
singular.
Multiplicando
ambos
lados
de
la
ecuacin
anterior
por la
X
que
se
asumen
constantes.
Enmatriz
dependen
de
los
valores
de
las
variables
explicativas
siguen
aproximadamente
una
normal
multivariante
con
coeficientes
de regresin
y, media
cuyos coeficientes
son
combinaciones
lineales
dedistribucin
los valores de
la variable
respuesta
1
variables
explicativas
sonlas
linealmente
que eldenmero
observaciones
, se obtienen
de los coeficientes
regresin
inversa
de
los(X'X)
coeficientes.
Como
el estimaciones
modelo deindependientes
regresin
linealy mltiple
asumede
que
las
consecuencia,
si
el
tamao
muestral
n
es
suficientemente
grande,
puede
aplicarse
-1
-1 que se asumen constantes.una
1
X
dependen de los valores
de
las
variables
explicativas
bnmero
) = E{(de
XX
)b X
} =
X
(X +Xtiene
)} rango p + 1 En
E(
= (yX
X)E{(
X+
y1,
.X)la X
y, en
n
es
superior
o
igual
al
coeficientes
p
matriz
variables explicativas son linealmente independientes y que el nmero de observaciones
b
generalizacin
del
teorema
central
del
lmite
para
demostrar
que
los
estimadores
De
esta formula
matricial
desprende
los estimadores
de mnimos
cuadrados
consecuencia,
si el
tamao=se
muestral
n)-1esXque
suficientemente
grande,
puede aplicarse
una b son
+ (XXX
E(
singular.
) los
= estimadores

X
es
no
Multiplicando
ambos
lados
de
consecuencia,
la
matriz
cuadrada
b
De
esta
formula
matricial
se
desprende
que
de
mnimos
cuadrados
combinaciones
lineales
de
los
valores
de
la
variable
respuesta
y,
cuyos
coeficientes
dependen
n es superior o igual al nmero de coeficientes p + 1, la matriz X tiene rango p + 1 y,laen
siguen
aproximadamente
una
distribucin
normal
multivariante
con
media
de los
valores de las
X quepara
se asumen
constantes.
En consecuencia,
si el
b
generalizacin
delvariables
teorema explicativas
central del lmite
demostrar
que los estimadores
y
,
cuyos
coeficientes
son
combinaciones
lineales
de
los
valores
de
la
variable
respuesta
tamao
muestral
n
es
suficientemente
grande,
puede
aplicarse
una
generalizacin
del
teorema
y
matriz
de
varianzas-covarianzas
consecuencia, la matriz cuadrada XX es no singular. Multiplicando ambos lados de la
central
del aproximadamente
lmite para demostrar
que
una distribucin
-1
siguen
distribucin
multivariante
56
= E{(
Xlos
X)estimadores
Xy}normal
= E{(bXsiguen
X)-1 Xaproximadamente
(X + con
)} media
E(b) una
constantes.
En
dependen
de los valores
de las variables explicativas-1 X que se asumen
normal
multivariante
con media
var(b) = E{(b - )(b - )} = E{(XX) X X(XX)-1 }
-1
+X
(X
X
E(
= XX)1 X(X + )}
E{(
XX
)n)1X
ysuficientemente
} = )E{(
E(b) =muestral
consecuencia, si el tamao
es
puede aplicarse
una 56
-1
-1 grande,
2
-1
(
X

X
)
=
(
X

X
)
X
(

I
)
X
(
X

X
)
= (XX)-1 XE( )X
= + (XX) 1 XE( ) =
generalizacin
del teorema
central del lmite para demostrar que los estimadores b
y matriz de varianzas-covarianzas
= 2 (XX)-1 ,
y matriz de varianzas-covarianzas
siguen
una distribucin normal multivariante con media
y matrizaproximadamente
de varianzas-covarianzas
var(b) = E{(b )(b 2)} = E{(XX)1 X X(XX)1 }
) = I por las asunciones
de linealidad,
aditividad,
ya que E() = 0 y E() = var(
2
1
= (XX)1 XE(-1)X(XX)1 = (X
X
(XX)1
-1) X( I)X
-1
-1
b) =b E{(
XbX-))}
Xy=} E{(
= E{(
X)XX
)
X(X
X(X+X))}}
= E{(
- )(
XX
var(b) E(
1
homogeneidad de la varianza
Cada estimador de mnimos cuadrados bj
= 2 (XXe)independencia.
,

(X
X))-1XX(E(
))-1= = (XX)-1X( 2I)X(XX)-1
X)-1+
X2E(
XX
= (X=
ya que
E()
=
0
y
E(')
=
var()
=

I
por
las
asunciones
de linealidad,
aditividad,
homogeneidad
j y
es entonces un estimador insesgado de su correspondiente
coeficiente
de regresin
es
entonces
un
de la varianza e independencia.
Cada
estimador
de
mnimos
cuadrados
b
2
j
2= var(-1
por las asunciones de linealidad, aditividad,
E(
correspondiente
(XX) ),= I coeficiente
= )
ysigue
y
sigue
aproximadamente
estimador
insesgado
de
regresin

) varianzas-covarianzas
= 0 y de su
yamatriz
queaproximadamente
E(de
la distribucin normal
j
la distribucin normal
homogeneidad
la)
Cada-1 estimador
de-1mnimos
cuadrados bj
0de
yb
E(
)
= bvar(
)b=-2)}
I por las asunciones
de(Xlinealidad,
aditividad,
ya
que E() = var(
~e)(independencia.
=varianza
E{(
,
X
bj -
N( j, 2 v=jj ),E{(XjX=) 0,X1,
p,X) }
1 -1 coeficiente
es entonces
un estimador
de)-1regresin
homogeneidad
de la =varianza
Cada
mnimos
cuadrados
donde
vjj es el elemento
(j,
matriz
los
bjyj ybbkj de
insesgado
X)-1eXindependencia.
E(de
de
)laXsu
(Xcorrespondiente
X)-1(X'X)
= (Xestimador
X.-1)Adems,
X( 2Ide
)X
(Xestimadores
X
(Xj)-simo
dondecoeficientes
vjj es el elemento
(j, j)-simo
la matriz (XX)con
. Adems,
los estimadores
distintos
de regresin
estnde
correlacionados
una covarianza
cov(bj, bkb) j=y 2vjk.
sigue
aproximadamente
normal
Cabe
destacar
que
estas=distribuciones
no requierencoeficiente
de la asuncin
de normalidad
j y y
es
entonces
un estimador
de su
correspondiente
de regresin
2la(insesgado
Xdistribucin
X)-1, muestrales
de distintos
coeficientes
de regresin
estn correlacionados
conrespuesta,
una covarianza
sonbkvlidas
para cualquier
distribucin
subyacente
de la variable
siempre que el
~
2
tamao
muestral
sea
suficientemente
grande.
sigue aproximadamente labdistribucin
normal j = 0, 1, , p,
j N(j,2 vjj),
) =destacar
var(
) =que
Iestas
por las
asunciones muestrales
de linealidad,
ya
quej, E(
bk))==02vyjkE(
. Cabe
distribuciones
no aditividad,
requieren de la
cov(b
~ N( , 2v ),
-1 , p,
j(X
=X
0,estimador
j
jde la matriz
jj
homogeneidad
de la varianza
e independencia.
Cada
de mnimos
cuadrados
bj
donde vjj es el elemento
(j,bj)-simo
)1,
. Adems,
los estimadores
bj y57

es
estimador(j,insesgado
de
correspondiente
coeficiente
de
regresin bj jyy
de distintos
coeficientes
de regresin
correlacionados
con los
unaestimadores
covarianza
bk entonces
donde
vjj es un
el elemento
j)-simo
de su
laestn
matriz
(XX)-1. Adems,
Pastor-Barriuso R.
2
sigue
aproximadamente
distribucin
normal
vjk. Cabeladestacar
que estas
distribuciones
muestrales
requieren de la
j, bk) = coeficientes
de regresin
estn
correlacionados
con unanocovarianza
bcov(b
k de distintos

229

E( y 0 ) = x0 E(b) = x0
+ + bpel
x0pvalor
= x0 esperado
b
y 0 = b0 + bde
1 x01regresin,
Una vez estimados los coeficientes
de la variable

Regresin lineal mltiple

y varianzaY dados unos valores fijos x0 = (1, x01, , x0p) de las variables explicativas
respuesta
que, al ser una combinacin lineal de b, tambin se distribuye de forma
2
puede
estimarse
como
Una vez
estimados
regresin,
demedia
la2hvariable
respuesta Y
0 E{(
0 ) coeficientes
b - de)(b
- )}x0 =elvalor
x0grandes,
XX)-1xcon
ylos
= xen
(esperado
var(
0=
0;
aproximadamente
normal
muestras
suficientemente
dados unos valores fijos x0 = (1, x01, , x0p)' de las variables explicativas puede estimarse como

b+) =
bpxx0p
y 0 = bE(
0+
0 = x0 b
y 0b)1x=01x+0 E(
es decir,
que, al ser una combinacin lineal de b, tambin se distribuye de forma aproximadamente
normal
enser
muestras
suficientemente
con media
que,
al
una combinacin
linealgrandes,
b~, tambin
se2 distribuye de forma
yde
0 N( x0 , h0 ),
y varianza

E(
== x00 E(b) = xx00 grandes, con media
E( yy00 ))suficientemente
aproximadamente normal en muestras
2
-1
0 E{(
x(X
bx-0es
)(buna
- medida
)}x0 =
x0 (XX)-1x0de= la
2desviacin
h0;
var(hy0 0=) =

donde
el
leverage
x

X
)
estandarizada
de x0
0
y varianza
) = bx-0 E(
E(xy00E{(
1
220
1 0 )
)(b0b)=-=x)}
+ var(
yE{(b
var(
0 ) =
0(XX)
0) )=y=0xx0-0E{(b
var(
y

)(b
xx0x0(XX)
xxEl
2h2h0;predicho

y
var(

)(b

)}x

00==
0;
0
y 0 es
respecto
valor
es decir, de las medias muestrales de las variables explicativas.
Regresin lineal mltiple

2
Regresin lineales
mltiple
{1 + respuesta
x0 (XX)-1 Y
x0 } = 2 (1 + h0 ).
ydecir,
varianza el valor esperado de la= variable
os coeficientes
de
regresin,
un
estimador insesgado no slo dela esperanza
o
media
~ N( x , 2 h ), poblacional de la variable
y0
0
estimarse
como0
s x0 = (1, x01, , x0p)' de las variables explicativas puede

)
=
x
b

)(
b
- de
)}xregresin,
0el
) valor
y
y
E{(
var(
0
0 + var(
0estimados 0los coeficientes
Una
esperado
de la variable respuesta
2
1
vez
0bperror
+ brespuesta
+xel
x,var(
b=lax0nueva
y 0 = b0 donde
el+leverage
hsino
=yx0tambin
x0 bla
esobservacin
una
estandarizada
de
-respuesta
)(bmedida
- )}
xse
2 x0de(Xun
X
)-1forma
xla0 =desviacin
normal
h0; y0 (asuncin
)(X'X)
E{(
de
individual
nuevo
sujeto
=dexx0 0respecto
+ 0
1x01
0p
0 =distribuye
Si
adems
de
0=
0 0de
=
(1,
x
,
,
x
)'
de
las
variables
explicativas
puede estimarse com
dados
unos
valores
fijos
x
Una vezdeestimados
los muestrales
coeficientesdedelas
regresin,
el0 explicativas.
valor esperado
la variable
respuesta
Y estimador
01
0pde
-1
es
un
las
medias
variables
El
valor
predicho

donde
el
leverage
h
=
x
X

X
)
x
es
de
la
desviacin
de
x
(
0
2 una medida estandarizada
-1
2
0
0
0
0
(1,lax01esperanza
, ,de
x0p)'forma
de=
las
variables
estimarse
dados
unos
valores
fijos
xse
nacin
lineal
de
b, tambin
aproximadamente
{1poblacional
+ xy0 (Xexplicativas
Xb)de
x0bla} xvariable
= puede
(1
++respuesta
hb0 ).x = xcomo
0 =distribuye

+
+

b
=
,
sino
tambin
insesgado
no
slo
de
o
media
0
1
01
p
0p
0
0

de que
normalidad),
la diferencia y 0 - y0 tambin seguir la distribucin normal
ya
ficientemente grandes,
con media
b1xnuevo
+ bpx0p
y 0 = b0de+ un
de es
la decir,
respuesta
individual
y == x0b + 0 ya que
01 + sujeto
respecto de lasque,
medias
muestrales
las bvariables
valor
predichodeyforma
) = xde0 E{(
- 0lineal
)(b - explicativas.
x0 tambin
+ var(El
y 0una
- y0combinacin
var(
al
ser
de)}b,
distribuye
aproximadamen
0 )se
0 es
c0 E(b)el= error
c
0 Si
E(
x
x
E
y
)
=
adems

de
la
nueva
observacin
se
distribuye
de
forma
normal
(asuncin
0
0
2 xgrandes,
normal
media
que, al ser una combinacin
lineal
tambin
distribuye
de
forma
aproximadamente
= E{
)N(0,
) E(
0 ) = 0.
E(
y 0 en
ymuestras

~se
de
x 0 }=
con
0 ) b,
(120+E(
hb
yx0y0suficientemente
0 ~ N(
0 )).
-(02by
0 , -1h0),
2
normal en muestras
suficientemente
grandes,
con
media
un estimador insesgado no slo =
dela{1
esperanza
la variable
+ x0 (XoXE(
)media
x0 } =poblacional
(1 + h=0 ).xde
c0 Ede esta diferencia es
Como
el valor predicho
0 no depende
nueva
observacin
yx0,c0laE(b)
varianza
tambin
seguiry 0la) =distribucin
normal
y 0 -de
y0 la
de normalidad),
la diferencia
1 y
E(
xc0; E(b) =dexc0laE nueva observacin y0, la varianza de esta
=2hdepende
2 predicho
000=)una
Como
el
c0 (XcX)
( y 0 ) = xc0 E{(b E)(b
E)c}x
xsino
En
elleverage
caso
nica
variable
todos
los
resultados
0valor
0x respuesta
x=0Vy,particular
tambin
un
nuevo
sujeto
y0 = x0de
+x00
respuesta
0 E{(
=
b
individual
)(explicativa,
b estandarizada
)}xde
var(
0de
) la
yde
no
donde
el
h0var(
= xyx0yde
V
X0 ) -1la
una
medida
desviacin
0 +
0(X
varianza
0xes
Si
adems
el
error

se
distribuye
de
forma
normal
(asuncin
0 de la nueva observacin
2
2
2
y varianza
X
(1 +1 xEh0)(b
y=0var(

- y{1
}0 )).
=simple
(1 0+(vase
0 ~+N(0,
E{(b)lineal
=hV0 ).2 xc0Apartados
(XcX) 1x0 = V 2h0;
y 0 )regresin
=xx0 c0(X
E)c}x
anteriores
se
reducen
a
los
obtenidos
en
diferencia
es
ya
que
~

2 medias muestrales de las variables


respecto
de
las
explicativas.
El valor predicho y 0 es
1
2
0 el
N( xvar(
, yerror
ySi
xc0 diferencia
E{(b
)(b y 0E)c}x
= V 2 xc0 (XcX)
x0 la
= Vdistribucin
h0de
; forma
Enueva
seguir
normal
y
de
normalidad),
la
0 tambin
0
0 )h=0 ),
0
adems
de
la
observacin
se
distribuye
normal (asuncin de
0
es
decir,
10.3.1,
10.3.3
yparticular
10.3.4). As,
setambin
tiene que

y
seguir
la
distribucin
normal
normalidad),
la
diferencia
En
el
caso
de
una
nica
variable
explicativa,
todos
los
resultados
1
0
0
x0'(X'X)
x0 es unaunmedida
estandarizada
~b poblacional
2
es decir,
estimador
insesgado
no
=desviacin
E{de
x0 la
- de
) -x00respecto
} =o media
xy00E(
-N(
)x-0 E(
=de
y0)laslo
(besperanza
E( y 0 -de
,0) h
),la variable
0 0.
Si
adems
el
error

de
la
nueva
observacin
se
distribuye
de
forma
normal
(asuncin58
2
0
es
un
estimador
les de las variables explicativas. El valor
predicho

~
2
(1 + h0 )).
y 0x0 0y,0 ~ N(0,
N(
h0 ),1
ylos
0
1
anteriores
se
reducen
a
obtenidos
en
regresin
lineal
simple
(vase
Apartados
,xsino
tambin
donde
elbleverage
h0 respuesta
= x'
x00'(X'X)
es yunade
medida
estandarizada
desviacin de x0 respect
esperanza o mediarespuesta
poblacional
de
la variable
respuesta
de nla
x0
x0
, sino
tambin
un nuevo
sujeto y0 =dexla

i individual
i
0
0 + 0 se
1
En
el
caso
particular
de
una
nica
variable
explicativa,
todos
los
resultados
anteriores

tambin
la
distribucin
ydepende
de normalidad),
b xdiferencia
=0medias
las
lasnueva
variables
explicativas.
valor predicho
ual dedonde
un nuevo
sujeto
de
+predicho
la
el leverage
hy0 el
= valor
xx'00'(X'X)
es una
medida
deobservacin
la
xEl
muestrales
seguir
desviacin
Como
lanormal
varianza
de esta 0 es un estimado
de2 la
y0,de
0 - y0estandarizada
que
y 0= no
0 ya
0 respecto
x i lineal
x isimple
x i y i Apartados
b1 de
10.3.1,
y las
10.3.4).
tiene
que

reducen
los
obtenidos
regresin
(vase
10.3.3respuesta
y 10.3.4).x' , sino tambi
en
As,
se
El valor
Enael10.3.3
caso
particular
una
nica
variable
explicativa,
todos
los10.3.1,
resultados
insesgado
no
slo
de
la esperanza
o media
poblacional
de
laestimador
variable
un
de las medias
muestrales
de
variables
explicativas.
predicho
0 es
0
ya
) de
0la
} esperanza
=que
x0de
b respuesta

)
E(

)
=
0.
(b slo
E(la
y 0 yinsesgado
As,
tiene
seque

2
0 ) = E{ x0 no
0
individual
de
un
nuevo
sujeto
y
=
x'
,

sino
+

ya
tambin
que
o
media
poblacional
de
la
variable
respuesta
x'

diferencia es

0xi 00xi y i ,0
N(0,
x2i (1
+yhi 0)).
y 0 1- yen
0 ~regresin
=obtenidos
1
anteriores
se de
reducen
a lossujeto
lineal
simple (vaseApartados
de
la
respuesta
individual
un
nuevo
y
=
x'

2+0 ya que
0
0
0 no depende de la nueva observacin y0,bla0 varianza
n
n
y i
n E(
y ib
x esta
0
x )xdiferencia
(de
xx0xes
) x i }= yxi E(
b ) E( 0 ) = 0.
0(i E(
x0 (i by
- y)2i0-)=0}E{
=
E(
b y= 0 - y0)==E{
b - ) -0 E(0) 0= 0.
xi0 } =
y 0 ) = 0.
=x0E{
xb01 (As,
b 0)se
xx0 E(
) xi E(
y 0 yy)}
0 )10.3.4).
var( y 0 y0 ) = x0 E{(
bEn
10.3.3
+ var(
10.3.1,
que
E(
) tiene

de
b
el)(bcaso
particular
una
nica
explicativa,
todos
los resultados
Como
el valor
predicho
0variable
noi depende
de ila nueva
observacin
y0, la varianza
58de esta diferencia es
2
2
1
2
donde
los
sumatorios
son
sobre
i
=
1,
,
n.
Por
tanto,
la
estimacin
de
la
{1
+ x0 todos
)
x
}
=

(1
+
h
).
(XX

x
y

x
x
y
0
0
Como el=
valor
predicho
no
depende
de
la
nueva
observacin
y
,
la
varianza
de
esta
diferencia
es
1 var(de
i 0,i la)}
i0 i
i varianza de esta
0
Como el valor
predicho y no depende
0la
x0 + var( 0 )
yregresin
ynueva
0 ) = xobservacin
0 E{(b )(by
,Apartados
anteriores se reducen a los0=obtenidos
en
lineal
simple
(vase
2 1

n
x
y

x
y
n
x
y
b
n
x

x
(
)

de la nueva observacin
se
distribuye
de
2
i 2 i 0 ) i i 1
(asuncin
=
i)}
var(
b normal
i)(b
var(
y 0 by=0 ) =de
E{(
0 x0forma
x0 +
pendiente
es
i {1
+ x0 (XX) x0 } = (1 + h0 ).
b normal
2= x
2
seguir
la
distribucin
cia 0 y0 tambindiferencia
1
2

y i+ h ).
es sumatorios

i tanto,
1As,
=
0i (iX=
10.3.1,
10.3.3
y 10.3.4).
se
{1
+ xtiene
que
X1,)x i,
x0 }n.=
x(1
0 la estimacin de la pendiente es
donde
todos
los
son
sobre
Por
Si adems el error 0 de la nueva2 observacin se distribuye de forma normal (asuncin d
2
y 0 y0 donde
~ N(0, (1 los
+ hsumatorios
son sobre
= 1,
,
n.de
Por
tanto,
estimacin
de lanormal
0 )).

yforma
xlai
1nse idistribuye
normal
i
i seguir
i y(asuncin
i
y xtambin
laxdistribucin
normalidad),
Si adems el error todos
nueva
observacin
de
0 de la
=la diferencia
,
( xi 20 x )(1 0y i y )

s y x 2 y i
tambin
la diferencia
y todos
x normal
y
ar denormalidad),
una nica variable
explicativa,
losnseguir
resultados
se
xdistribucin
)xanteriores
n( xii=1la
n

58
i
y 0 yi iyi=
(1 + h0 )).
pendiente es 0 b0= b0 = b
r N(0,i
0 ~
1=
n

s en regresin lineal simple (vase Apartados


10.3.1,
2 y 10.3.4).
210.3.3
s
xi
x
y b
N(0,
(1 x(+ixh 0)).x
i
1 y0 ~

) 2 x i yvariable

i
En el0 caso
particular
de una
nica
explicativa, todos los resultados anteriores s
2 Por tanto, la estimacin de la
n ii=1= 1, , n.
donde
todos
los
sumatorios
son
sobre

Apartados
a los
obtenidos
lineal
En el caso particular
dereducen
una nica
variable
explicativa,
se 10.3.1, 10.3.3 y 10.3.4
xtodos
x i (vase
x i yanteriores
1
1 en regresin

simple
i ylos
i resultados
i

x
x
y
y
(
)(
)
=

x i enyAs,

b0 reducen
n a losobtenidos
i
i

,y 10.3.4).
iregresin
2
se
tiene
que
lineal
simple
(vase
Apartados
10.3.1,
10.3.3
s
= =
nb= ( xi =i1 x ) n x i y=i r y x i y i
es

pendiente
1 es
y la
de
la
constante
xi
x i2 estimacin
x
y
que
n
1
tiene

i
i
b1 As,
se

xsix y i
b0(x x )n2

i=

x i2

x i xyii bn=
n x i
1 donde
b0los
1 yi
i=b
y i sumatorios
x i2 laestimacin
x i y i de la
todos
son
sobre
i
=
1,
,
n.x iPor
tanto,
n
n

=
,

b
=
=

bx y xx y y( xx 2 x
2( x x )( y y )
n ( x i x ) 2 n
y i ( xi i x )( y i sy )
ixxi
i ii

1 i i ii

i =)1
2
1 = r y x i y i x i x i y i
230 Pastor-Barriuso
R.
i =1 b =
i =1
1
es debla
ypendiente
la estimacin
constante
es
=
=

y
b x.
,

y=i n
xxi
xxi)sy2xi n x1 y x
orios son sobre i = 1, , n. Por tanto, 0la estimacin
de xnlai2n
pendiente
es
1
2 (

i i
i yi

x
x
(
)

=
,

i x)
( xi

2
n
n
x
y

x
y
n ( x i n x ) n i =
i i n. Por tanto, la estimacin de la pendiente es
1i =1 i n i
)
todos los sumatorios
son sobre i = 1, ,
( xi x )( y i ydonde
2

b1 =

=r

(x
i =1

x)

sx

Apndice: formulacin matricial de la regresin lineal mltiple

1
y la estimacin de la constante es
n
xi
cov(b0 , b1 )
var(b0 )

2
b) la
= constante es
=
var(de

y la estimacin
xi x i2 1
b0 n, b1 )
var(b1 ) n

cov(

n
x
cov(b , b1 )
var(b0 )
y ( xi x ) 2 0 x
(=xi 2 x)( y2i y
) 2i 2
var(b) =

xi
xi

x
cov(b , b )
var(b1 )i =1=
i b x .
x i
b0 = i0=1 1
=
y

,
1
n
n
n2 ( xi 2 x ) 2 x2i
xi
( xi x )
xi

=
,
i =1
1
2
n
) xi x i
(nxi x
cov(b0 , b1 ) n2
var(b0 )
estimadores2es
b) de
= que
=estos
var(
Adems,
la matriz
varianzas-covarianzas de
de donde
se sigue

cov(b0 , b1 )
var(b1 )
xi 1 es
i

xestimadores
Adems, la matriz de varianzas-covarianzas de estos
n 2 x i x 2 x
var(b0 )
cov(b0 , b1 )
de donde se sigue que
n
i
i ,
= 22
var(b) =
2 =
2
( x i b1x) ) + nx xi
2 x i
2
cov(b0 , b1 ) var(
n ( xi 2 x1)
x x i n
+

var(b0 ) = 2 i =n1 n

=
2
2
2
n (n x1)i2s 2 , x i

x
+
n
x
(
)
2
x

n i ( xi x=)
59
x 2x n ,
2 i =1
2 12

(
)
n
x

x
var(b
)
=

=
+

i =n1
de donde se sigue que 0
i n (n 1)is 2 ,
x

n ( x i x ) 2
de donde se sigue que
2
2
i =1

n
de donde se sigue que
var(b1)(=
2
2 =
x i n x ) + nx 2 (n 1) s 2 , 2

( xi 2 x ) = 2 12 +x x
2 i =1

var(b0 ) = var(b
n i =1
= n 2(n, 1) s 2 ,
n 1) =
n
2
x
n(
xxi )(2x x+
)nx)22 (n 1) s x
x i (

2
i

i =1
1
x
,
var(b0) = 2 i =1 n i =1 2 2 x = 2 2+2 x
= n (n2
. 1) s x2
cov(b0, b1) = n 2
( x i x ) 2 =2 (n 1)2s,x
var(b1)n=

n
( x x ) (n 1)s 2 x
i =1 i x2
x
=
= i =(n1x i x )
.
cov(b0, b1)
(n 1) s x2
2
i =1
(x x)

2 i2
2 2
=
i
1
=
var(b
)
=

x
x,

1
Por ltimo, para un valorcov(b
fijo x0, de
la nvariable explicativa,
del valor predicho
=(n 1) slax2 varianza
.
0 b1) = n
2
2

(
x
x
)
(i xi x ) 2 (n 1)s x
explicativa, la varianza del valor predicho
0 =ltimo,
x0 es un valor fijo x0 de lai =1variable
yPor
b0 + b1para
i =1

1.2 MEDIDAS
DE TENDENCIA
CENTRAL
Por ltimo,
2 explicativa,
x
2 la
x varianza del valor predicho
b1x0un
es valor fijo x0 de la variable
y 0 = b0 +para
.
cov(b0, b1) = n
1 =
0 = b0 + b1x0 es
n
xi 2 1(n 1) s x2

2
2x) de tendencia central informan acerca de cul es el val
( x i medidas
var( y ) = [1 x ] Las
la variable
la varianza del valor predicho
Por ltimo, para un0 valor fijo x00de
xii=1 xexplicativa,
1 x
n
xi i 10

2
2
var( y 0 ) = [1 2x 0 ]

determinada
variable
o, dicho de forma equivalente, estos e
2 x
x

i x xi 1
xidex una
y 0 = b0 + b1x0 es

i
0

=
[
1
]
del valor predicho
0 explicativa, la varianza
Por ltimo, para un valor fijo x0 de la2 variable
n x0
n ( xi 2 x )
dex2i qu valor
agrupan
alrededor
los datos observados. Las medid
1
xise
xi

n
=
[1 x 0 ] 1 2

2 2
y 0 = b0 + b1x0 es
n( x(ix x )x n) + n
x ) x1i n x 0 2
( x 0xi
central
de
sirven
( x 0 tanto
x ) para resumir los resultados obser
var( y 0 ) = 22 [1i =n1 x 0i]
la muestra
21
,
=
x i2 2x=0 +

n x2i

n (n 1) s x2 2
( xi x ) + n( x20 x1)

nn( xi realizar
x ) xi inferencias

poblacionales corresp
x ) parmetros
1x ( x10de los
2 i =1 2
2 acerca
x i2 1=

i
== 2 [1 x 0 ] i =n1 [1 x ]
var( y 0 ) =

2
n
0 x
1) s x
2i
2 (xxi continuacin

xix 0se describen


n (xnlos
n ( xi xn)
0 principales estimadores de la tenden
i x )

i =1
2
n 2
xi 1
donde se observa que el leverage
del valor
x0 x2i
2
=
x
[
1
]

x
x
n
x
x
(
)
(
)

0
2

0
donde se observa que el leverage
xvariable.
n (xx0 0 x ) 2
0
i xvalor
n
(1xi del
)
xi
2 i=
21
,
leverage del
= +
donde se observa que= el
valor x0
n
n
n (n 1) s x2
1 ( x2 0 x2) 2

2
n+x( x) 0Media
hx0 )(=xi+1.2.1
x ) aritmtica
( xi n

n
(n 1) s x2 2 2 1 ( x 0 x ) 2
1
i
=
2 i =1
,
=
1 ( x 0 x ) = +
2
nh =
+media
0
n denotada
(nmuestral
1) spor
2
La
aritmtica,
se la
define
como la suma de c
es una medida estandarizada de su desviacin
respecto
variable
2de la media
x x ,de
n ( xi n x ) (n 1) s x
donde
se
observa
que
el
leverage
del
valor
x
explicativa.
0
i =1
valores muestrales dividida por el nmero de observaciones realiz
60
1 x(0x 0 x ) 2
donde se observa que el leverage del valor
observado
para el sujeto
h0 = por
+ n el tamao muestral y por xi el valor
Pastor-Barriuso
60R. 231
n (n 1) s x2
dada por
( x vendra
x) 2
1la media
h0 = + 0
2
n (n 1) s

Regresin lineal mltiple

11.9REFERENCIAS
1. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, Fourth
Edition. Oxford: Blackwell Science, 2002.
2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
3. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury
Press, 2002.
4. Draper NR, Smith H. Applied Regression Analysis, Third Edition. New York: John Wiley
& Sons, 1998.
5. Kleinbaum DG, Kupper LL, Nizam A, Muller KE. Applied Regression Analysis and
Other Multivariable Methods, Fourth Edition. Belmont, CA: Duxbury Press, 2008.
6. McCullagh P, Nelder JA. Generalized Linear Models, Second Edition. London: Chapman
& Hall, 1989.
7. Pea D. Estadstica: Modelos y Mtodos, Volumen 2, Modelos Lineales y Series
Temporales. Madrid: Alianza Editorial, 1987.
8. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,
2006.
9. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.
10. Seber GAF, Lee AJ. Linear Regression Analysis, Second Edition. New York: John Wiley
& Sons, 2003.
11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
12. Stuart A, Ord JK, Arnold S. Kendalls Advanced Theory of Statistics, Volume 2A, Classical
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.
13. Weisberg S. Applied Linear Regression, Third Edition. New York: John Wiley & Sons,
2005.

232

Pastor-Barriuso R.

APNDICE
TABLAS ESTADSTICAS

Pastor-Barriuso R.

233

Tablas estadsticas

n
Tabla
1 1Probabilidades
distribucin
binomial
X con
para laladistribucin
binomial
X con
Tabla
Probabilidades P(X = k) = k (1 ) n k para
k
parmetros n = 2, 3, ..., 20 y = 0,05, 0,10, ..., 0,50.*
parmetros n = 2, 3, ..., 20 y = 0,05, 0,10, ..., 0,50.*

0
1
02

0,9025 0,8100 0,7225 0,6400 0,5625 0,4900 0,4225 0,3600 0,3025 0,2500
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000
0,0025
0,0225 0,6400
0,0400 0,5625
0,0625 0,4900
0,0900 0,4225
0,1225 0,3600
0,1600 0,3025
0,2025 0,2500
0,2500
0,9025 0,0100
0,8100 0,7225

1
2
0
13

0,8574
0,0025
0,1354
0,0071
0,8574
0,0001
0,1354

0,2430
0,0270
0,7290
0,0010
0,2430

0,3251 0,3840 0,4219 0,4410 0,4436 0,4320 0,4084 0,3750


0,0574
0,0960 0,4219
0,1406 0,3430
0,1890 0,2746
0,2389 0,2160
0,2880 0,1664
0,3341 0,1250
0,3750
0,6141 0,5120
0,0034 0,3840
0,0080 0,4219
0,0156 0,4410
0,0270 0,4436
0,0429 0,4320
0,0640 0,4084
0,0911 0,3750
0,1250
0,3251

1
2
0
13
24

0,8145
0,0001
0,1715
0,0135
0,8145
0,0005
0,1715
0,0135
0,0000

0,2916
0,0486
0,6561
0,0036
0,2916
0,0486
0,0001

0,3685 0,4096 0,4219 0,4116 0,3845 0,3456 0,2995 0,2500


0,0975
0,1536 0,3164
0,2109 0,2401
0,2646 0,1785
0,3105 0,1296
0,3456 0,0915
0,3675 0,0625
0,3750
0,5220 0,4096
0,0115 0,4096
0,0256 0,4219
0,0469 0,4116
0,0756 0,3845
0,1115 0,3456
0,1536 0,2995
0,2005 0,2500
0,2500
0,3685
0,0975
0,0005 0,1536
0,0016 0,2109
0,0039 0,2646
0,0081 0,3105
0,0150 0,3456
0,0256 0,3675
0,0410 0,3750
0,0625

02
13
24
3
5
4
50

0,7738
0,0000
0,2036
0,7738
0,0214
0,2036
0,0011
0,0214
0,0000
0,0011
0,0000

0,3281
0,5905
0,0729
0,3281
0,0081
0,0729
0,0005
0,0081
0,0000

0,4437
0,1382
0,3915
0,0244
0,1382
0,0022
0,0244
0,0001
0,0000 0,0005 0,0022
0,0000 0,5314
0,0000 0,0001
0,7351
0,3771

0,3915

0,2321
0,7351
0,0305
0,2321
0,0021
0,0305
0,0001
0,0021
0,0000
0,0001
0,0000
0,0000

0,3543
0,5314
0,0984
0,3543
0,0146
0,0984
0,0012
0,0146
0,0001
0,0012
0,0000
0,0001

0,3993

0
01
12
23
34
45
5
6
6
77

0,6983
0,2573
0,6983
0,0406
0,2573
0,0406
0,0036
0,0036
0,0002
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,4783
0,3720
0,4783
0,1240
0,3720
0,1240
0,0230
0,0230
0,0026
0,0026
0,0002
0,0002
0,0000
0,0000
0,0000
0,0000

0,3206
0,3960
0,3206
0,2097
0,3960
0,2097
0,0617
0,0617
0,0109
0,0109
0,0012
0,0012
0,0001
0,0001
0,0000
0,0000

0,6634
0,6634
0,2793
0,2793
0,0515
0,0515
0,0054
0,0054
0,0004
0,0004
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,4305
0,4305
0,3826
0,3826
0,1488
0,1488
0,0331
0,0331
0,0046
0,0046
0,0004
0,0004
0,0000
0,0000
0,0000
0,0000
0,0000

0,2725
0,2725
0,3847
0,3847
0,2376
0,2376
0,0839
0,0839
0,0185
0,0185
0,0026
0,0026
0,0002
0,0002
0,0000
0,0000
0,0000

n
2

3
4

1
0
2

2
30

3
40
1

0
2
1
3
2
34
45
56
6

0
1
1
22
33
4
5
66
77
8

234

0,25 0,30

Pastor-Barriuso R.

0,05

0,10

0,15

0,20

0,35

0,40

0,45

0,50

0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000
0,7290 0,6141 0,5120 0,4219 0,3430 0,2746 0,2160 0,1664 0,1250
0,0100 0,0225 0,0400 0,0625 0,0900 0,1225 0,1600 0,2025 0,2500

0,0071 0,0270 0,0574 0,0960 0,1406 0,1890 0,2389 0,2880 0,3341 0,3750
0,6561 0,5220 0,4096 0,3164 0,2401 0,1785 0,1296 0,0915 0,0625
0,0010 0,0034 0,0080 0,0156 0,0270 0,0429 0,0640 0,0911 0,1250

0,0005 0,0036 0,0115 0,0256 0,0469 0,0756 0,1115 0,1536 0,2005 0,2500
0,5905
0,4437 0,0016
0,3277 0,0039
0,2373 0,0081
0,1681 0,0150
0,1160 0,0256
0,0778 0,0410
0,0503 0,0625
0,0313
0,0001 0,0005

0,3771
0,1762
0,3993
0,0415
0,1762
0,0055
0,0415
0,0004
0,0055
0,0000
0,0004
0,0000 0,0000 0,0000

0,4096

0,3277
0,2048
0,4096
0,0512
0,2048
0,0064
0,0512
0,0003
0,0064
0,0003
0,2621
0,3932

0,2621
0,2458
0,3932
0,0819
0,2458
0,0154
0,0819
0,0015
0,0154
0,0001
0,0015
0,0001
0,2097
0,3670
0,2097
0,2753
0,3670
0,2753
0,1147
0,1147
0,0287
0,0287
0,0043
0,0043
0,0004
0,0004
0,0000
0,0000
0,1678

0,3955

0,2373
0,2637
0,3955
0,0879
0,2637
0,0146
0,0879
0,0010
0,0146
0,0010
0,1780
0,3560

0,1780
0,2966
0,3560
0,1318
0,2966
0,0330
0,1318
0,0044
0,0330
0,0002
0,0044
0,0002
0,1335
0,3115
0,1335
0,3115
0,3115
0,3115
0,1730
0,1730
0,0577
0,0577
0,0115
0,0115
0,0013
0,0013
0,0001
0,0001
0,1001

0,3602

0,1681
0,3087
0,3602
0,1323
0,3087
0,0284
0,1323
0,0024
0,0284
0,0024
0,1176
0,3025

0,1176
0,3241
0,3025
0,1852
0,3241
0,0595
0,1852
0,0102
0,0595
0,0007
0,0102
0,0007
0,0824
0,2471
0,0824
0,3177
0,2471
0,3177
0,2269
0,2269
0,0972
0,0972
0,0250
0,0250
0,0036
0,0036
0,0002
0,0002
0,0576

0,3124

0,1160
0,3364
0,3124
0,1811
0,3364
0,0488
0,1811
0,0053
0,0488
0,0053
0,0754
0,2437

0,0754
0,3280
0,2437
0,2355
0,3280
0,0951
0,2355
0,0205
0,0951
0,0018
0,0205
0,0018
0,0490
0,1848
0,0490
0,2985
0,1848
0,2985
0,2679
0,2679
0,1442
0,1442
0,0466
0,0466
0,0084
0,0084
0,0006
0,0006
0,0319

0,2592

0,0778
0,3456
0,2592
0,2304
0,3456
0,0768
0,2304
0,0102
0,0768
0,0102
0,0467
0,1866

0,0467
0,3110
0,1866
0,2765
0,3110
0,1382
0,2765
0,0369
0,1382
0,0041
0,0369
0,0041
0,0280
0,1306
0,0280
0,2613
0,1306
0,2613
0,2903
0,2903
0,1935
0,1935
0,0774
0,0774
0,0172
0,0172
0,0016
0,0016
0,0168

0,1678
0,3355
0,3355
0,2936
0,2936
0,1468
0,1468
0,0459
0,0459
0,0092
0,0092
0,0011
0,0011
0,0001
0,0001

0,1001
0,2670
0,2670
0,3115
0,3115
0,2076
0,2076
0,0865
0,0865
0,0231
0,0231
0,0038
0,0038
0,0004
0,0004

0,0576
0,1977
0,1977
0,2965
0,2965
0,2541
0,2541
0,1361
0,1361
0,0467
0,0467
0,0100
0,0100
0,0012
0,0012

0,0319
0,1373
0,1373
0,2587
0,2587
0,2786
0,2786
0,1875
0,1875
0,0808
0,0808
0,0217
0,0217
0,0033
0,0033

0,0168
0,0896
0,0896
0,2090
0,2090
0,2787
0,2787
0,2322
0,2322
0,1239
0,1239
0,0413
0,0413
0,0079
0,0079

0,0000

0,0000

0,0001

0,0002

0,0007

0,2059

0,1563

0,1359

0,0938

0,0503
0,3369 0,0313
0,3125
0,2059
0,1563
0,2757 0,3125
0,3369
0,1128 0,3125
0,1563
0,2757 0,3125
0,0185 0,0313
0,1128 0,1563
0,0185
0,0277 0,0313
0,0156

0,0277 0,0156
0,2780 0,2344
0,1359 0,0938
0,3032 0,3125
0,2780 0,2344
0,1861 0,3125
0,2344
0,3032
0,0609 0,2344
0,0938
0,1861
0,0083 0,0938
0,0156
0,0609
0,0083 0,0156
0,0152 0,0078
0,0872 0,0078
0,0547
0,0152
0,2140 0,0547
0,1641
0,0872
0,2140
0,2918 0,1641
0,2734
0,2918
0,2734
0,2388 0,2734
0,2388
0,1172 0,2734
0,1641
0,1172 0,1641
0,0320 0,0547
0,0320 0,0547
0,0037 0,0078
0,0078
0,0037
0,0084

0,0039

0,0017

0,0039

0,0084 0,0039
0,0548 0,0313
0,0548 0,0313
0,1569 0,1094
0,1569 0,1094
0,2568 0,2188
0,2188
0,2568
0,2627 0,2734
0,2734
0,2627
0,1719 0,2188
0,2188
0,1719
0,0703
0,0703 0,1094
0,1094
0,0164
0,0313
0,0164 0,0313

Tablas estadsticas

Tabla 1 (Continuacin)

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

0,50

0
1

0,6302
0,2985

0,3874
0,3874

0,2316
0,3679

0,1342
0,3020

0,0751
0,2253

0,0404
0,1556

0,0207
0,1004

0,0101
0,0605

0,0046
0,0339

0,0020
0,0176

0,0629

0,1722

0,2597

0,3020

0,3003

0,2668

0,2162

0,1612

0,1110

0,0703

10

11

12

0,0077

0,0446

0,1069

0,1762

0,2336

0,2668

0,2716

0,2508

0,2119

0,1641

0,0006

0,0074

0,0283

0,0661

0,1168

0,1715

0,2194

0,2508

0,2600

0,2461

0,0000

0,0008

0,0050

0,0165

0,0389

0,0735

0,1181

0,1672

0,2128

0,2461

0,0000

0,0001

0,0006

0,0028

0,0087

0,0210

0,0424

0,0743

0,1160

0,1641

0,0000

0,0000

0,0000

0,0003

0,0012

0,0039

0,0098

0,0212

0,0407

0,0703

0,0000

0,0000

0,0000

0,0000

0,0001

0,0004

0,0013

0,0035

0,0083

0,0176

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0001

0,0003

0,0008

0,0020

0,5987

0,3487

0,1969

0,1074

0,0563

0,0282

0,0135

0,0060

0,0025

0,0010

0,3151

0,3874

0,3474

0,2684

0,1877

0,1211

0,0725

0,0403

0,0207

0,0098

0,0746

0,1937

0,2759

0,3020

0,2816

0,2335

0,1757

0,1209

0,0763

0,0439

0,0105

0,0574

0,1298

0,2013

0,2503

0,2668

0,2522

0,2150

0,1665

0,1172

0,0010

0,0112

0,0401

0,0881

0,1460

0,2001

0,2377

0,2508

0,2384

0,2051

0,0001

0,0015

0,0085

0,0264

0,0584

0,1029

0,1536

0,2007

0,2340

0,2461
0,2051

0,0000

0,0001

0,0012

0,0055

0,0162

0,0368

0,0689

0,1115

0,1596

0,0000

0,0000

0,0001

0,0008

0,0031

0,0090

0,0212

0,0425

0,0746

0,1172

0,0000

0,0000

0,0000

0,0001

0,0004

0,0014

0,0043

0,0106

0,0229

0,0439

0,0000

0,0000

0,0000

0,0000

0,0000

0,0001

0,0005

0,0016

0,0042

0,0098

10

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0001

0,0003

0,0010

0,5688

0,3138

0,1673

0,0859

0,0422

0,0198

0,0088

0,0036

0,0014

0,0005

0,3293

0,3835

0,3248

0,2362

0,1549

0,0932

0,0518

0,0266

0,0125

0,0054

0,0867

0,2131

0,2866

0,2953

0,2581

0,1998

0,1395

0,0887

0,0513

0,0269
0,0806

0,0137

0,0710

0,1517

0,2215

0,2581

0,2568

0,2254

0,1774

0,1259

0,0014

0,0158

0,0536

0,1107

0,1721

0,2201

0,2428

0,2365

0,2060

0,1611

0,0001

0,0025

0,0132

0,0388

0,0803

0,1321

0,1830

0,2207

0,2360

0,2256

0,0000

0,0003

0,0023

0,0097

0,0268

0,0566

0,0985

0,1471

0,1931

0,2256

0,0000

0,0000

0,0003

0,0017

0,0064

0,0173

0,0379

0,0701

0,1128

0,1611

0,0000

0,0000

0,0000

0,0002

0,0011

0,0037

0,0102

0,0234

0,0462

0,0806

0,0000

0,0000

0,0000

0,0000

0,0001

0,0005

0,0018

0,0052

0,0126

0,0269

10

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0002

0,0007

0,0021

0,0054

11

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0002

0,0005

0,5404

0,2824

0,1422

0,0687

0,0317

0,0138

0,0057

0,0022

0,0008

0,0002

0,3413

0,3766

0,3012

0,2062

0,1267

0,0712

0,0368

0,0174

0,0075

0,0029

0,0988

0,2301

0,2924

0,2835

0,2323

0,1678

0,1088

0,0639

0,0339

0,0161

0,0173

0,0852

0,1720

0,2362

0,2581

0,2397

0,1954

0,1419

0,0923

0,0537

0,0021

0,0213

0,0683

0,1329

0,1936

0,2311

0,2367

0,2128

0,1700

0,1208

0,0002

0,0038

0,0193

0,0532

0,1032

0,1585

0,2039

0,2270

0,2225

0,1934

0,0000

0,0005

0,0040

0,0155

0,0401

0,0792

0,1281

0,1766

0,2124

0,2256

0,0000

0,0000

0,0006

0,0033

0,0115

0,0291

0,0591

0,1009

0,1489

0,1934

0,0000

0,0000

0,0001

0,0005

0,0024

0,0078

0,0199

0,0420

0,0762

0,1208

9
10
11
12

0,0000
0,0000
0,0000
0,0000

0,0000
0,0000
0,0000
0,0000

0,0000
0,0000
0,0000
0,0000

0,0001
0,0000
0,0000
0,0000

0,0004
0,0000
0,0000
0,0000

0,0015
0,0002
0,0000
0,0000

0,0048
0,0008
0,0001
0,0000

0,0125
0,0025
0,0003
0,0000

0,0277
0,0068
0,0010
0,0001

0,0537
0,0161
0,0029
0,0002

Pastor-Barriuso R.

235

Tablas estadsticas

Tabla 1 (Continuacin)

236

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

0,50

13

0
1
2
3
4
5
6
7
8
9
10
11
12
13

0,5133
0,3512
0,1109
0,0214
0,0028
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,2542
0,3672
0,2448
0,0997
0,0277
0,0055
0,0008
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,1209
0,2774
0,2937
0,1900
0,0838
0,0266
0,0063
0,0011
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000

0,0550
0,1787
0,2680
0,2457
0,1535
0,0691
0,0230
0,0058
0,0011
0,0001
0,0000
0,0000
0,0000
0,0000

0,0238
0,1029
0,2059
0,2517
0,2097
0,1258
0,0559
0,0186
0,0047
0,0009
0,0001
0,0000
0,0000
0,0000

0,0097
0,0540
0,1388
0,2181
0,2337
0,1803
0,1030
0,0442
0,0142
0,0034
0,0006
0,0001
0,0000
0,0000

0,0037
0,0259
0,0836
0,1651
0,2222
0,2154
0,1546
0,0833
0,0336
0,0101
0,0022
0,0003
0,0000
0,0000

0,0013
0,0113
0,0453
0,1107
0,1845
0,2214
0,1968
0,1312
0,0656
0,0243
0,0065
0,0012
0,0001
0,0000

0,0004
0,0045
0,0220
0,0660
0,1350
0,1989
0,2169
0,1775
0,1089
0,0495
0,0162
0,0036
0,0005
0,0000

0,0001
0,0016
0,0095
0,0349
0,0873
0,1571
0,2095
0,2095
0,1571
0,0873
0,0349
0,0095
0,0016
0,0001

14

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14

0,4877
0,3593
0,1229
0,0259
0,0037
0,0004
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,2288
0,3559
0,2570
0,1142
0,0349
0,0078
0,0013
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,1028
0,2539
0,2912
0,2056
0,0998
0,0352
0,0093
0,0019
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0440
0,1539
0,2501
0,2501
0,1720
0,0860
0,0322
0,0092
0,0020
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000

0,0178
0,0832
0,1802
0,2402
0,2202
0,1468
0,0734
0,0280
0,0082
0,0018
0,0003
0,0000
0,0000
0,0000
0,0000

0,0068
0,0407
0,1134
0,1943
0,2290
0,1963
0,1262
0,0618
0,0232
0,0066
0,0014
0,0002
0,0000
0,0000
0,0000

0,0024
0,0181
0,0634
0,1366
0,2022
0,2178
0,1759
0,1082
0,0510
0,0183
0,0049
0,0010
0,0001
0,0000
0,0000

0,0008
0,0073
0,0317
0,0845
0,1549
0,2066
0,2066
0,1574
0,0918
0,0408
0,0136
0,0033
0,0005
0,0001
0,0000

0,0002
0,0027
0,0141
0,0462
0,1040
0,1701
0,2088
0,1952
0,1398
0,0762
0,0312
0,0093
0,0019
0,0002
0,0000

0,0001
0,0009
0,0056
0,0222
0,0611
0,1222
0,1833
0,2095
0,1833
0,1222
0,0611
0,0222
0,0056
0,0009
0,0001

15

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

0,4633
0,3658
0,1348
0,0307
0,0049
0,0006
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,2059
0,3432
0,2669
0,1285
0,0428
0,0105
0,0019
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0874
0,2312
0,2856
0,2184
0,1156
0,0449
0,0132
0,0030
0,0005
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0352
0,1319
0,2309
0,2501
0,1876
0,1032
0,0430
0,0138
0,0035
0,0007
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000

0,0134
0,0668
0,1559
0,2252
0,2252
0,1651
0,0917
0,0393
0,0131
0,0034
0,0007
0,0001
0,0000
0,0000
0,0000
0,0000

0,0047
0,0305
0,0916
0,1700
0,2186
0,2061
0,1472
0,0811
0,0348
0,0116
0,0030
0,0006
0,0001
0,0000
0,0000
0,0000

0,0016
0,0126
0,0476
0,1110
0,1792
0,2123
0,1906
0,1319
0,0710
0,0298
0,0096
0,0024
0,0004
0,0001
0,0000
0,0000

0,0005
0,0047
0,0219
0,0634
0,1268
0,1859
0,2066
0,1771
0,1181
0,0612
0,0245
0,0074
0,0016
0,0003
0,0000
0,0000

0,0001
0,0016
0,0090
0,0318
0,0780
0,1404
0,1914
0,2013
0,1647
0,1048
0,0515
0,0191
0,0052
0,0010
0,0001
0,0000

0,0000
0,0005
0,0032
0,0139
0,0417
0,0916
0,1527
0,1964
0,1964
0,1527
0,0916
0,0417
0,0139
0,0032
0,0005
0,0000

16

0
1
2
3

0,4401
0,3706
0,1463
0,0359

0,1853
0,3294
0,2745
0,1423

0,0743
0,2097
0,2775
0,2285

0,0281
0,1126
0,2111
0,2463

0,0100
0,0535
0,1336
0,2079

0,0033
0,0228
0,0732
0,1465

0,0010
0,0087
0,0353
0,0888

0,0003
0,0030
0,0150
0,0468

0,0001
0,0009
0,0056
0,0215

0,0000
0,0002
0,0018
0,0085

Pastor-Barriuso R.

Tablas estadsticas

Tabla 1 (Continuacin)

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

0,50

4
5
6
7
8
9
10
11
12
13
14
15
16

0,0061
0,0008
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0514
0,0137
0,0028
0,0004
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,1311
0,0555
0,0180
0,0045
0,0009
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,2001
0,1201
0,0550
0,0197
0,0055
0,0012
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,2252
0,1802
0,1101
0,0524
0,0197
0,0058
0,0014
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000

0,2040
0,2099
0,1649
0,1010
0,0487
0,0185
0,0056
0,0013
0,0002
0,0000
0,0000
0,0000
0,0000

0,1553
0,2008
0,1982
0,1524
0,0923
0,0442
0,0167
0,0049
0,0011
0,0002
0,0000
0,0000
0,0000

0,1014
0,1623
0,1983
0,1889
0,1417
0,0840
0,0392
0,0142
0,0040
0,0008
0,0001
0,0000
0,0000

0,0572
0,1123
0,1684
0,1969
0,1812
0,1318
0,0755
0,0337
0,0115
0,0029
0,0005
0,0001
0,0000

0,0278
0,0667
0,1222
0,1746
0,1964
0,1746
0,1222
0,0667
0,0278
0,0085
0,0018
0,0002
0,0000

17

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

0,4181
0,3741
0,1575
0,0415
0,0076
0,0010
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,1668
0,3150
0,2800
0,1556
0,0605
0,0175
0,0039
0,0007
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0631
0,1893
0,2673
0,2359
0,1457
0,0668
0,0236
0,0065
0,0014
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0225
0,0957
0,1914
0,2393
0,2093
0,1361
0,0680
0,0267
0,0084
0,0021
0,0004
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0075
0,0426
0,1136
0,1893
0,2209
0,1914
0,1276
0,0668
0,0279
0,0093
0,0025
0,0005
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000

0,0023
0,0169
0,0581
0,1245
0,1868
0,2081
0,1784
0,1201
0,0644
0,0276
0,0095
0,0026
0,0006
0,0001
0,0000
0,0000
0,0000
0,0000

0,0007
0,0060
0,0260
0,0701
0,1320
0,1849
0,1991
0,1685
0,1134
0,0611
0,0263
0,0090
0,0024
0,0005
0,0001
0,0000
0,0000
0,0000

0,0002
0,0019
0,0102
0,0341
0,0796
0,1379
0,1839
0,1927
0,1606
0,1070
0,0571
0,0242
0,0081
0,0021
0,0004
0,0001
0,0000
0,0000

0,0000
0,0005
0,0035
0,0144
0,0411
0,0875
0,1432
0,1841
0,1883
0,1540
0,1008
0,0525
0,0215
0,0068
0,0016
0,0003
0,0000
0,0000

0,0000
0,0001
0,0010
0,0052
0,0182
0,0472
0,0944
0,1484
0,1855
0,1855
0,1484
0,0944
0,0472
0,0182
0,0052
0,0010
0,0001
0,0000

18

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

0,3972
0,3763
0,1683
0,0473
0,0093
0,0014
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,1501
0,3002
0,2835
0,1680
0,0700
0,0218
0,0052
0,0010
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0536
0,1704
0,2556
0,2406
0,1592
0,0787
0,0301
0,0091
0,0022
0,0004
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0180
0,0811
0,1723
0,2297
0,2153
0,1507
0,0816
0,0350
0,0120
0,0033
0,0008
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000

0,0056
0,0338
0,0958
0,1704
0,2130
0,1988
0,1436
0,0820
0,0376
0,0139
0,0042
0,0010
0,0002
0,0000
0,0000
0,0000
0,0000

0,0016
0,0126
0,0458
0,1046
0,1681
0,2017
0,1873
0,1376
0,0811
0,0386
0,0149
0,0046
0,0012
0,0002
0,0000
0,0000
0,0000

0,0004
0,0042
0,0190
0,0547
0,1104
0,1664
0,1941
0,1792
0,1327
0,0794
0,0385
0,0151
0,0047
0,0012
0,0002
0,0000
0,0000

0,0001
0,0012
0,0069
0,0246
0,0614
0,1146
0,1655
0,1892
0,1734
0,1284
0,0771
0,0374
0,0145
0,0045
0,0011
0,0002
0,0000

0,0000
0,0003
0,0022
0,0095
0,0291
0,0666
0,1181
0,1657
0,1864
0,1694
0,1248
0,0742
0,0354
0,0134
0,0039
0,0009
0,0001

0,0000
0,0001
0,0006
0,0031
0,0117
0,0327
0,0708
0,1214
0,1669
0,1855
0,1669
0,1214
0,0708
0,0327
0,0117
0,0031
0,0006

Pastor-Barriuso R.

237

Tablas estadsticas

Tabla 1 (Continuacin)

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

0,50

17
18

0,0000
0,0000

0,0000
0,0000

0,0000
0,0000

0,0000
0,0000

0,0000
0,0000

0,0000
0,0000

0,0000
0,0000

0,0000
0,0000

0,0000
0,0000

0,0001
0,0000

19

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

0,3774
0,3774
0,1787
0,0533
0,0112
0,0018
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,1351
0,2852
0,2852
0,1796
0,0798
0,0266
0,0069
0,0014
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0456
0,1529
0,2428
0,2428
0,1714
0,0907
0,0374
0,0122
0,0032
0,0007
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0144
0,0685
0,1540
0,2182
0,2182
0,1636
0,0955
0,0443
0,0166
0,0051
0,0013
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0042
0,0268
0,0803
0,1517
0,2023
0,2023
0,1574
0,0974
0,0487
0,0198
0,0066
0,0018
0,0004
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0011
0,0093
0,0358
0,0869
0,1491
0,1916
0,1916
0,1525
0,0981
0,0514
0,0220
0,0077
0,0022
0,0005
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000

0,0003
0,0029
0,0138
0,0422
0,0909
0,1468
0,1844
0,1844
0,1489
0,0980
0,0528
0,0233
0,0083
0,0024
0,0006
0,0001
0,0000
0,0000
0,0000
0,0000

0,0001
0,0008
0,0046
0,0175
0,0467
0,0933
0,1451
0,1797
0,1797
0,1464
0,0976
0,0532
0,0237
0,0085
0,0024
0,0005
0,0001
0,0000
0,0000
0,0000

0,0000
0,0002
0,0013
0,0062
0,0203
0,0497
0,0949
0,1443
0,1771
0,1771
0,1449
0,0970
0,0529
0,0233
0,0082
0,0022
0,0005
0,0001
0,0000
0,0000

0,0000
0,0000
0,0003
0,0018
0,0074
0,0222
0,0518
0,0961
0,1442
0,1762
0,1762
0,1442
0,0961
0,0518
0,0222
0,0074
0,0018
0,0003
0,0000
0,0000

20

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

0,3585
0,3774
0,1887
0,0596
0,0133
0,0022
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,1216
0,2702
0,2852
0,1901
0,0898
0,0319
0,0089
0,0020
0,0004
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0388
0,1368
0,2293
0,2428
0,1821
0,1028
0,0454
0,0160
0,0046
0,0011
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0115
0,0576
0,1369
0,2054
0,2182
0,1746
0,1091
0,0545
0,0222
0,0074
0,0020
0,0005
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0032
0,0211
0,0669
0,1339
0,1897
0,2023
0,1686
0,1124
0,0609
0,0271
0,0099
0,0030
0,0008
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0008
0,0068
0,0278
0,0716
0,1304
0,1789
0,1916
0,1643
0,1144
0,0654
0,0308
0,0120
0,0039
0,0010
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0002
0,0020
0,0100
0,0323
0,0738
0,1272
0,1712
0,1844
0,1614
0,1158
0,0686
0,0336
0,0136
0,0045
0,0012
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000

0,0000
0,0005
0,0031
0,0123
0,0350
0,0746
0,1244
0,1659
0,1797
0,1597
0,1171
0,0710
0,0355
0,0146
0,0049
0,0013
0,0003
0,0000
0,0000
0,0000
0,0000

0,0000
0,0001
0,0008
0,0040
0,0139
0,0365
0,0746
0,1221
0,1623
0,1771
0,1593
0,1185
0,0727
0,0366
0,0150
0,0049
0,0013
0,0002
0,0000
0,0000
0,0000

0,0000
0,0000
0,0002
0,0011
0,0046
0,0148
0,0370
0,0739
0,1201
0,1602
0,1762
0,1602
0,1201
0,0739
0,0370
0,0148
0,0046
0,0011
0,0002
0,0000
0,0000

*Para = 0,55, 0,60, ..., 0,95, P(X = k) = P(Y = n k) donde Y es la distribucin binomial con parmetros n y
1 .

238

Pastor-Barriuso R.

Tablas estadsticas

e k
parala la
distribucin
de Poisson
para
distribucin
de Poisson
X con X con
k!
parmetro de 0,5 a 20 en intervalos de 0,5.
parmetro de 0,5 a 20 en intervalos de 0,5.

TablaTabla
2 Probabilidades
2 Probabilidades P(X = k) =

0,5

1,0

1,5

2,0

0
1

0,6065
0,3033

0,3679
0,3679

0,2231
0,3347

0,0758

0,1839

0,2510

30

41

52

63
4
7
5
86
97
108
119
10
12
11
13
12
14
13
15
14
16
15
16
0
1

0,5

1,0

1,5

0,0126
0,6065 0,0613
0,3679 0,1255
0,2231

2,5

3,0

3,5

4,0

4,5

5,0

0,1353
0,2707

0,2052

0,1494

0,0302
0,1057

0,0183
0,0733

0,0111
0,0500

0,0067
0,0337

0,2707

0,2565

0,2240

0,1850

0,1465

0,1125

0,0842

0,2138
0,0821

0,2240
0,0498
0,1494
0,1680
0,2240
0,1008
0,2240
0,0504
0,1680
0,0216
0,1008
0,0081
0,0504
0,0027
0,0216
0,0081
0,0008
0,0027
0,0002
0,0008
0,0001
0,0002
0,0000
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
8,0
8,0
0,0003

0,2158
0,0302
0,1057
0,1888
0,1850
0,1322
0,2158
0,0771
0,1888
0,0385
0,1322
0,0169
0,0771
0,0066
0,0385
0,0169
0,0023
0,0066
0,0007
0,0023
0,0002
0,0007
0,0001
0,0002
0,0000
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
8,5
8,5
0,0002

0,1954
0,0183
0,0733
0,1954
0,1465
0,1563
0,1954
0,1042
0,1954
0,0595
0,1563
0,0298
0,1042
0,0132
0,0595
0,0298
0,0053
0,0132
0,0019
0,0053
0,0006
0,0019
0,0002
0,0006
0,0001
0,0002
0,0000
0,0001
0,0000
0,0000
0,0000
9,0
9,0
0,0001

0,1687
0,0111
0,0500
0,1898
0,1125
0,1708
0,1687
0,1281
0,1898
0,0824
0,1708
0,0463
0,1281
0,0232
0,0824
0,0463
0,0104
0,0232
0,0043
0,0104
0,0016
0,0043
0,0006
0,0016
0,0002
0,0006
0,0001
0,0002
0,0000
0,0001
0,0000
9,5
9,5
0,0001

0,1404
0,0067
0,0337
0,1755
0,0842
0,1755
0,1404
0,1462
0,1755
0,1044
0,1755
0,0653
0,1462
0,0363
0,1044
0,0653
0,0181
0,0363
0,0082
0,0181
0,0034
0,0082
0,0013
0,0034
0,0005
0,0013
0,0002
0,0005
0,0000
0,0002
0,0000
10,0
10,0
0,0000

0,0017
0,0002
0,0074
0,0017
0,0208
0,0074
0,0208
0,0443
0,0443
0,0752
0,0752
0,1066
0,1066
0,1294
0,1294
0,1375
0,1375
0,1299
0,1299
0,1104
0,1104
0,0853
0,0853
0,0604
0,0604
0,0395
0,0395
0,0240
0,0240
0,0136
0,0136
0,0072
0,0036
0,0072
0,0017
0,0036
0,0008
0,0017
0,0003
0,0008
0,0001
0,0003
0,0001
0,0001
0,0000
0,0001
0,0000
0,0000
0,0000

0,0011
0,0001
0,0050
0,0011
0,0150
0,0050
0,0150
0,0337
0,0337
0,0607
0,0607
0,0911
0,0911
0,1171
0,1171
0,1318
0,1318
0,1318
0,1318
0,1186
0,1186
0,0970
0,0970
0,0728
0,0728
0,0504
0,0504
0,0324
0,0324
0,0194
0,0194
0,0109
0,0058
0,0109
0,0029
0,0058
0,0014
0,0029
0,0006
0,0014
0,0003
0,0006
0,0001
0,0003
0,0000
0,0001
0,0000
0,0000
0,0000

0,0007
0,0001
0,0034
0,0007
0,0107
0,0034
0,0107
0,0254
0,0254
0,0483
0,0483
0,0764
0,0764
0,1037
0,1037
0,1232
0,1232
0,1300
0,1300
0,1235
0,1235
0,1067
0,1067
0,0844
0,0844
0,0617
0,0617
0,0419
0,0419
0,0265
0,0265
0,0157
0,0088
0,0157
0,0046
0,0088
0,0023
0,0046
0,0011
0,0023
0,0005
0,0011
0,0002
0,0005
0,0001
0,0002
0,0000
0,0000
0,0001

0,0005
0,0000
0,0023
0,0005
0,0076
0,0023
0,0076
0,0189
0,0189
0,0378
0,0378
0,0631
0,0631
0,0901
0,0901
0,1126
0,1126
0,1251
0,1251
0,1251
0,1251
0,1137
0,1137
0,0948
0,0948
0,0729
0,0729
0,0521
0,0521
0,0347
0,0347
0,0217
0,0128
0,0217
0,0071
0,0128
0,0037
0,0071
0,0019
0,0037
0,0009
0,0019
0,0004
0,0009
0,0002
0,0004
0,0001
0,0000
0,0002

0,0000
0,0000

0,0000
0,0000

0,0000
0,0000

0,0001
0,0000

2,0

0,1804
0,1353

0,3033 0,0153
0,3679 0,0471
0,3347 0,0902
0,2707
0,0016

0,0758 0,0031
0,1839 0,0141
0,2510 0,0361
0,2707
0,0002

0,0126
0,0000
0,0016
0,0000
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
5,5
5,5
0,0041

0,0613
0,0005
0,0153
0,0001
0,0031
0,0000
0,0005
0,0000
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
6,0
6,0
0,0025

0,1255
0,0035
0,0471
0,0008
0,0141
0,0001
0,0035
0,0000
0,0008
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
6,5
6,5
0,0015

0,1804
0,0120
0,0902
0,0034
0,0361
0,0009
0,0120
0,0002
0,0034
0,0009
0,0000
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
7,0
7,0
0,0009

0,0821 0,0498

2,5

0,2052
0,1336

0,2565
0,0668

0,2138
0,0278

0,1336
0,0668
0,0031
0,0278
0,0009
0,0099
0,0031
0,0002
0,0009
0,0000
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
7,5
7,5
0,0006
0,0099

5
6
6
7
7
88
99
10
10
11
11
12
12
13
13
14
14
15
15
16
17
16
18
17
19
18
20
19
21
20
22
21
23
22
24
25
23

0,0041 0,0149
0,0025 0,0098
0,0015 0,0064
0,0009
0,0223
0,0064
0,1133
0,0618 0,0892
0,0446 0,0688
0,0318 0,0521
0,0223
0,1133 0,1339
0,0892 0,1118
0,0688 0,0912
0,0521
0,1558
0,1558 0,1606
0,1339 0,1454
0,1118 0,1277
0,0912
0,1714
0,1714
0,1606
0,1454
0,1277
0,1571
0,1606
0,1575
0,1490
0,1571 0,1606 0,1575 0,1490
0,1234
0,1377
0,1462
0,1490
0,1234 0,1377 0,1462 0,1490
0,0849
0,1033
0,1188
0,1304
0,0849 0,1033 0,1188 0,1304
0,0519
0,0519 0,0688
0,0688 0,0858
0,0858 0,1014
0,1014
0,0285 0,0413
0,0413 0,0558
0,0558 0,0710
0,0710
0,0285
0,0143
0,0225
0,0330
0,0452
0,0143
0,0225
0,0330
0,0452
0,0065
0,0113
0,0179
0,0263
0,0065
0,0113
0,0179
0,0263
0,0028 0,0052 0,0089 0,0142
0,0028
0,0052
0,0089
0,0142
0,0011 0,0022 0,0041 0,0071
0,0011
0,0004 0,0022
0,0009 0,0041
0,0018 0,0071
0,0033
0,0004
0,0009
0,0018
0,0001 0,0003 0,0007 0,0033
0,0014
0,0000 0,0003
0,0001 0,0007
0,0003 0,0014
0,0006
0,0001
0,0000 0,0001
0,0000 0,0003
0,0001 0,0006
0,0002
0,0000
0,0000 0,0000
0,0000 0,0001
0,0000 0,0002
0,0001
0,0000
0,0000 0,0000 0,0000 0,0000
0,0000
0,0000
0,0000
0,0001
0,0000 0,0000 0,0000 0,0000
0,0000
0,0000
0,0000
0,0000
0,0000 0,0000 0,0000 0,0000
0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000
0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000
0,0000

0,1094
0,1367
0,1465
0,1465
0,1373
0,1373
0,1144
0,1144
0,0858
0,0858
0,0585
0,0585
0,0366
0,0366
0,0211
0,0211
0,0113
0,0113
0,0057
0,0057
0,0026
0,0012
0,0026
0,0005
0,0012
0,0002
0,0005
0,0001
0,0002
0,0000
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0027
0,0003
0,0107
0,0027
0,0286
0,0107
0,0286
0,0573
0,0573
0,0916
0,0916
0,1221
0,1221
0,1396
0,1396
0,1396
0,1396
0,1241
0,1241
0,0993
0,0993
0,0722
0,0722
0,0481
0,0481
0,0296
0,0296
0,0169
0,0169
0,0090
0,0090
0,0045
0,0021
0,0045
0,0009
0,0021
0,0004
0,0009
0,0002
0,0004
0,0001
0,0002
0,0000
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000

24
25

0,0000
0,0000

0,0000
0,0000

0,0000
0,0000

21

32

43

54

0,0225

0,0041

0,0618
0,0225 0,0446
0,0149 0,0318
0,0098

0,0156
0,0041

3,0

0,0000
0,0000

0,0000
0,0000

0,0000
0,0000

0,0006

0,0389
0,0156

0,0389
0,0729
0,0729
0,1094

0,1367

3,5

4,0

4,5

5,0

Pastor-Barriuso R.

239

Tablas estadsticas

Tabla 2 (Continuacin)

10,5

11,0

11,5

12,0

12,5

13,0

13,5

14,0

14,5

15,0

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33

0,0000
0,0003
0,0015
0,0053
0,0139
0,0293
0,0513
0,0769
0,1009
0,1177
0,1236
0,1180
0,1032
0,0834
0,0625
0,0438
0,0287
0,0177
0,0104
0,0057
0,0030
0,0015
0,0007
0,0003
0,0001
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0000
0,0002
0,0010
0,0037
0,0102
0,0224
0,0411
0,0646
0,0888
0,1085
0,1194
0,1194
0,1094
0,0926
0,0728
0,0534
0,0367
0,0237
0,0145
0,0084
0,0046
0,0024
0,0012
0,0006
0,0003
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0000
0,0001
0,0007
0,0026
0,0074
0,0170
0,0325
0,0535
0,0769
0,0982
0,1129
0,1181
0,1131
0,1001
0,0822
0,0630
0,0453
0,0306
0,0196
0,0119
0,0068
0,0037
0,0020
0,0010
0,0005
0,0002
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0000
0,0001
0,0004
0,0018
0,0053
0,0127
0,0255
0,0437
0,0655
0,0874
0,1048
0,1144
0,1144
0,1056
0,0905
0,0724
0,0543
0,0383
0,0255
0,0161
0,0097
0,0055
0,0030
0,0016
0,0008
0,0004
0,0002
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0000
0,0000
0,0003
0,0012
0,0038
0,0095
0,0197
0,0353
0,0551
0,0765
0,0956
0,1087
0,1132
0,1089
0,0972
0,0810
0,0633
0,0465
0,0323
0,0213
0,0133
0,0079
0,0045
0,0024
0,0013
0,0006
0,0003
0,0001
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000

0,0000
0,0000
0,0002
0,0008
0,0027
0,0070
0,0152
0,0281
0,0457
0,0661
0,0859
0,1015
0,1099
0,1099
0,1021
0,0885
0,0719
0,0550
0,0397
0,0272
0,0177
0,0109
0,0065
0,0037
0,0020
0,0010
0,0005
0,0002
0,0001
0,0001
0,0000
0,0000
0,0000
0,0000

0,0000
0,0000
0,0001
0,0006
0,0019
0,0051
0,0115
0,0222
0,0375
0,0563
0,0760
0,0932
0,1049
0,1089
0,1050
0,0945
0,0798
0,0633
0,0475
0,0337
0,0228
0,0146
0,0090
0,0053
0,0030
0,0016
0,0008
0,0004
0,0002
0,0001
0,0000
0,0000
0,0000
0,0000

0,0000
0,0000
0,0001
0,0004
0,0013
0,0037
0,0087
0,0174
0,0304
0,0473
0,0663
0,0844
0,0984
0,1060
0,1060
0,0989
0,0866
0,0713
0,0554
0,0409
0,0286
0,0191
0,0121
0,0074
0,0043
0,0024
0,0013
0,0007
0,0003
0,0002
0,0001
0,0000
0,0000
0,0000

0,0000
0,0000
0,0001
0,0003
0,0009
0,0027
0,0065
0,0135
0,0244
0,0394
0,0571
0,0753
0,0910
0,1014
0,1051
0,1016
0,0920
0,0785
0,0632
0,0483
0,0350
0,0242
0,0159
0,0100
0,0061
0,0035
0,0020
0,0011
0,0005
0,0003
0,0001
0,0001
0,0000
0,0000

0,0000
0,0000
0,0000
0,0002
0,0006
0,0019
0,0048
0,0104
0,0194
0,0324
0,0486
0,0663
0,0829
0,0956
0,1024
0,1024
0,0960
0,0847
0,0706
0,0557
0,0418
0,0299
0,0204
0,0133
0,0083
0,0050
0,0029
0,0016
0,0009
0,0004
0,0002
0,0001
0,0001
0,0000

15,5

16,0

16,5

17,0

17,5

18,0

18,5

19,0

19,5

20,0

0,0000
0,0000
0,0000
0,0001
0,0004
0,0014
0,0036
0,0079
0,0153
0,0264
0,0409
0,0577
0,0745

0,0000
0,0000
0,0000
0,0001
0,0003
0,0010
0,0026
0,0060
0,0120
0,0213
0,0341
0,0496
0,0661

0,0000
0,0000
0,0000
0,0001
0,0002
0,0007
0,0019
0,0045
0,0093
0,0171
0,0281
0,0422
0,0580

0,0000
0,0000
0,0000
0,0000
0,0001
0,0005
0,0014
0,0034
0,0072
0,0135
0,0230
0,0355
0,0504

0,0000
0,0000
0,0000
0,0000
0,0001
0,0003
0,0010
0,0025
0,0055
0,0107
0,0186
0,0297
0,0432

0,0000
0,0000
0,0000
0,0000
0,0001
0,0002
0,0007
0,0019
0,0042
0,0083
0,0150
0,0245
0,0368

0,0000
0,0000
0,0000
0,0000
0,0000
0,0002
0,0005
0,0014
0,0031
0,0065
0,0120
0,0201
0,0310

0,0000
0,0000
0,0000
0,0000
0,0000
0,0001
0,0004
0,0010
0,0024
0,0050
0,0095
0,0164
0,0259

0,0000
0,0000
0,0000
0,0000
0,0000
0,0001
0,0003
0,0007
0,0018
0,0038
0,0074
0,0132
0,0214

0,0000
0,0000
0,0000
0,0000
0,0000
0,0001
0,0002
0,0005
0,0013
0,0029
0,0058
0,0106
0,0176

0
1
2
3
4
5
6
7
8
9
10
11
12
240

Pastor-Barriuso R.

Tablas estadsticas

Tabla 2 (Continuacin)

15,5

16,0

16,5

17,0

17,5

18,0

18,5

19,0

19,5

20,0

13

0,0888

0,0814

0,0736

0,0658

0,0582

0,0509

0,0441

0,0378

0,0322

0,0271

14

0,0983

0,0930

0,0868

0,0800

0,0728

0,0655

0,0583

0,0514

0,0448

0,0387

15

0,1016

0,0992

0,0955

0,0906

0,0849

0,0786

0,0719

0,0650

0,0582

0,0516

16

0,0984

0,0992

0,0985

0,0963

0,0929

0,0884

0,0831

0,0772

0,0710

0,0646

17

0,0897

0,0934

0,0956

0,0963

0,0956

0,0936

0,0904

0,0863

0,0814

0,0760

18

0,0773

0,0830

0,0876

0,0909

0,0929

0,0936

0,0930

0,0911

0,0882

0,0844

19

0,0630

0,0699

0,0761

0,0814

0,0856

0,0887

0,0905

0,0911

0,0905

0,0888

20

0,0489

0,0559

0,0628

0,0692

0,0749

0,0798

0,0837

0,0866

0,0883

0,0888

21

0,0361

0,0426

0,0493

0,0560

0,0624

0,0684

0,0738

0,0783

0,0820

0,0846

22

0,0254

0,0310

0,0370

0,0433

0,0496

0,0560

0,0620

0,0676

0,0727

0,0769

23

0,0171

0,0216

0,0265

0,0320

0,0378

0,0438

0,0499

0,0559

0,0616

0,0669

24

0,0111

0,0144

0,0182

0,0226

0,0275

0,0328

0,0385

0,0442

0,0500

0,0557

25

0,0069

0,0092

0,0120

0,0154

0,0193

0,0237

0,0285

0,0336

0,0390

0,0446

26

0,0041

0,0057

0,0076

0,0101

0,0130

0,0164

0,0202

0,0246

0,0293

0,0343

27

0,0023

0,0034

0,0047

0,0063

0,0084

0,0109

0,0139

0,0173

0,0211

0,0254

28

0,0013

0,0019

0,0028

0,0038

0,0053

0,0070

0,0092

0,0117

0,0147

0,0181

29

0,0007

0,0011

0,0016

0,0023

0,0032

0,0044

0,0058

0,0077

0,0099

0,0125

30

0,0004

0,0006

0,0009

0,0013

0,0019

0,0026

0,0036

0,0049

0,0064

0,0083

31

0,0002

0,0003

0,0005

0,0007

0,0010

0,0015

0,0022

0,0030

0,0040

0,0054

32

0,0001

0,0001

0,0002

0,0004

0,0006

0,0009

0,0012

0,0018

0,0025

0,0034

33

0,0000

0,0001

0,0001

0,0002

0,0003

0,0005

0,0007

0,0010

0,0015

0,0020

34

0,0000

0,0000

0,0001

0,0001

0,0002

0,0002

0,0004

0,0006

0,0008

0,0012

35

0,0000

0,0000

0,0000

0,0000

0,0001

0,0001

0,0002

0,0003

0,0005

0,0007

36

0,0000

0,0000

0,0000

0,0000

0,0000

0,0001

0,0001

0,0002

0,0003

0,0004

37

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0001

0,0001

0,0001

0,0002

38

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0001

0,0001

39

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0001

40

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

0,0000

Pastor-Barriuso R.

241

Tablas estadsticas

Tabla 3 Funcin de distribucin normal estandarizada (z) = P(Z z) para valores z


de 0 a 3,99 en intervalos de 0,01.*
z

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90

0,5000
0,5398
0,5793
0,6179
0,6554
0,6915
0,7257
0,7580
0,7881
0,8159

0,5040
0,5438
0,5832
0,6217
0,6591
0,6950
0,7291
0,7611
0,7910
0,8186

0,5080
0,5478
0,5871
0,6255
0,6628
0,6985
0,7324
0,7642
0,7939
0,8212

0,5120
0,5517
0,5910
0,6293
0,6664
0,7019
0,7357
0,7673
0,7967
0,8238

0,5160
0,5557
0,5948
0,6331
0,6700
0,7054
0,7389
0,7704
0,7995
0,8264

0,5199
0,5596
0,5987
0,6368
0,6736
0,7088
0,7422
0,7734
0,8023
0,8289

0,5239
0,5636
0,6026
0,6406
0,6772
0,7123
0,7454
0,7764
0,8051
0,8315

0,5279
0,5675
0,6064
0,6443
0,6808
0,7157
0,7486
0,7794
0,8078
0,8340

0,5319
0,5714
0,6103
0,6480
0,6844
0,7190
0,7517
0,7823
0,8106
0,8365

0,5359
0,5753
0,6141
0,6517
0,6879
0,7224
0,7549
0,7852
0,8133
0,8389

1,00
1,10
1,20
1,30
1,40
1,50
1,60
1,70
1,80
1,90

0,8413
0,8643
0,8849
0,9032
0,9192
0,9332
0,9452
0,9554
0,9641
0,9713

0,8438
0,8665
0,8869
0,9049
0,9207
0,9345
0,9463
0,9564
0,9649
0,9719

0,8461
0,8686
0,8888
0,9066
0,9222
0,9357
0,9474
0,9573
0,9656
0,9726

0,8485
0,8708
0,8907
0,9082
0,9236
0,9370
0,9484
0,9582
0,9664
0,9732

0,8508
0,8729
0,8925
0,9099
0,9251
0,9382
0,9495
0,9591
0,9671
0,9738

0,8531
0,8749
0,8944
0,9115
0,9265
0,9394
0,9505
0,9599
0,9678
0,9744

0,8554
0,8770
0,8962
0,9131
0,9279
0,9406
0,9515
0,9608
0,9686
0,9750

0,8577
0,8790
0,8980
0,9147
0,9292
0,9418
0,9525
0,9616
0,9693
0,9756

0,8599
0,8810
0,8997
0,9162
0,9306
0,9429
0,9535
0,9625
0,9699
0,9761

0,8621
0,8830
0,9015
0,9177
0,9319
0,9441
0,9545
0,9633
0,9706
0,9767

2,00
2,10
2,20
2,30
2,40
2,50
2,60
2,70
2,80
2,90

0,9772
0,9821
0,9861
0,9893
0,9918
0,9938
0,9953
0,9965
0,9974
0,9981

0,9778
0,9826
0,9864
0,9896
0,9920
0,9940
0,9955
0,9966
0,9975
0,9982

0,9783
0,9830
0,9868
0,9898
0,9922
0,9941
0,9956
0,9967
0,9976
0,9982

0,9788
0,9834
0,9871
0,9901
0,9925
0,9943
0,9957
0,9968
0,9977
0,9983

0,9793
0,9838
0,9875
0,9904
0,9927
0,9945
0,9959
0,9969
0,9977
0,9984

0,9798
0,9842
0,9878
0,9906
0,9929
0,9946
0,9960
0,9970
0,9978
0,9984

0,9803
0,9846
0,9881
0,9909
0,9931
0,9948
0,9961
0,9971
0,9979
0,9985

0,9808
0,9850
0,9884
0,9911
0,9932
0,9949
0,9962
0,9972
0,9979
0,9985

0,9812
0,9854
0,9887
0,9913
0,9934
0,9951
0,9963
0,9973
0,9980
0,9986

0,9817
0,9857
0,9890
0,9916
0,9936
0,9952
0,9964
0,9974
0,9981
0,9986

3,00
3,10
3,20
3,30
3,40
3,50
3,60
3,70
3,80
3,90

0,9987
0,9990
0,9993
0,9995
0,9997
0,9998
0,9998
0,9999
0,9999
1,0000

0,9987
0,9991
0,9993
0,9995
0,9997
0,9998
0,9998
0,9999
0,9999
1,0000

0,9987
0,9991
0,9994
0,9995
0,9997
0,9998
0,9999
0,9999
0,9999
1,0000

0,9988
0,9991
0,9994
0,9996
0,9997
0,9998
0,9999
0,9999
0,9999
1,0000

0,9988
0,9992
0,9994
0,9996
0,9997
0,9998
0,9999
0,9999
0,9999
1,0000

0,9989
0,9992
0,9994
0,9996
0,9997
0,9998
0,9999
0,9999
0,9999
1,0000

0,9989
0,9992
0,9994
0,9996
0,9997
0,9998
0,9999
0,9999
0,9999
1,0000

0,9989
0,9992
0,9995
0,9996
0,9997
0,9998
0,9999
0,9999
0,9999
1,0000

0,9990
0,9993
0,9995
0,9996
0,9997
0,9998
0,9999
0,9999
0,9999
1,0000

0,9990
0,9993
0,9995
0,9997
0,9998
0,9998
0,9999
0,9999
0,9999
1,0000

* Para valores z negativos, (z) = P(Z z) = P(Z z) = 1 P(Z z) = 1 (z).

242

Pastor-Barriuso R.

Tablas estadsticas

Tabla 4 Tabla de 1000 dgitos aleatorios.


15

610

1115

1620

2125

2630

3135

3640

4145

4650

28068

97497

24717

94945

71584

46975

80676

37564

85194

26562

77798

61589

36980

18859

78471

07605

41910

98737

97310

76984

33911

76198

97068

89844

07886

96716

18354

66921

85958

59963

45302

20953

65158

70637

42792

85207

32911

93401

90088

88104

31759

68429

61028

00200

02062

92555

82037

69832

74185

76010

81262

04831

92203

25447

65875

71086

12676

42753

79223

63135

27510

88900

41437

07409

87437

79309

83499

50721

40752

82801

84888

90443

23200

86340

07731

64171

76935

02931

66982

30842

92551

42420

29984

87522

19370

30357

33530

58101

59423

91700

10

48644

97274

33475

71381

27387

50740

03176

96910

94049

65052

11

71226

14223

27559

00943

46943

40680

96829

09265

94401

98461

12

59902

65129

28077

80487

79160

56426

47978

08556

20753

10206

13

24973

51863

86605

16991

58423

33341

70147

06005

81833

00868

14

27005

74018

05569

70982

80438

76901

80061

11144

91733

07228

15

25651

65765

98249

24231

32819

26680

17613

29917

47814

92539

16

34255

68331

66861

37285

34606

68167

55636

70101

51328

57528

17

74791

18769

92325

19959

90031

27008

25857

68520

41469

45100

18

63485

89564

62107

80055

08094

85412

33589

71900

05892

63260

19

99762

44503

91645

15352

25957

73662

71146

26161

98418

10195

20

85157

99008

25927

31118

65466

48706

20302

26133

04751

34701

Pastor-Barriuso R.

243

Tablas estadsticas

Tabla 5 Percentiles de la distribucin t de Student para distintos grados de libertad.


Grados de
libertad

244

Percentil
0,75

0,80

0,85

0,90

0,95

0,975

0,99

0,995

0,9995

1
2
3
4
5

1,000
0,816
0,765
0,741
0,727

1,376
1,061
0,978
0,941
0,920

1,963
1,386
1,250
1,190
1,156

3,078
1,886
1,638
1,533
1,476

6,314
2,920
2,353
2,132
2,015

12,706
4,303
3,182
2,776
2,571

31,821
6,965
4,541
3,747
3,365

63,657
9,925
5,841
4,604
4,032

636,619
31,599
12,924
8,610
6,869

6
7
8
9
10

0,718
0,711
0,706
0,703
0,700

0,906
0,896
0,889
0,883
0,879

1,134
1,119
1,108
1,100
1,093

1,440
1,415
1,397
1,383
1,372

1,943
1,895
1,860
1,833
1,812

2,447
2,365
2,306
2,262
2,228

3,143
2,998
2,896
2,821
2,764

3,707
3,499
3,355
3,250
3,169

5,959
5,408
5,041
4,781
4,587

11
12
13
14
15

0,697
0,695
0,694
0,692
0,691

0,876
0,873
0,870
0,868
0,866

1,088
1,083
1,079
1,076
1,074

1,363
1,356
1,350
1,345
1,341

1,796
1,782
1,771
1,761
1,753

2,201
2,179
2,160
2,145
2,131

2,718
2,681
2,650
2,624
2,602

3,106
3,055
3,012
2,977
2,947

4,437
4,318
4,221
4,140
4,073

16
17
18
19
20

0,690
0,689
0,688
0,688
0,687

0,865
0,863
0,862
0,861
0,860

1,071
1,069
1,067
1,066
1,064

1,337
1,333
1,330
1,328
1,325

1,746
1,740
1,734
1,729
1,725

2,120
2,110
2,101
2,093
2,086

2,583
2,567
2,552
2,539
2,528

2,921
2,898
2,878
2,861
2,845

4,015
3,965
3,922
3,883
3,850

21
22
23
24
25

0,686
0,686
0,685
0,685
0,684

0,859
0,858
0,858
0,857
0,856

1,063
1,061
1,060
1,059
1,058

1,323
1,321
1,319
1,318
1,316

1,721
1,717
1,714
1,711
1,708

2,080
2,074
2,069
2,064
2,060

2,518
2,508
2,500
2,492
2,485

2,831
2,819
2,807
2,797
2,787

3,819
3,792
3,768
3,745
3,725

26
27
28
29
30

0,684
0,684
0,683
0,683
0,683

0,856
0,855
0,855
0,854
0,854

1,058
1,057
1,056
1,055
1,055

1,315
1,314
1,313
1,311
1,310

1,706
1,703
1,701
1,699
1,697

2,056
2,052
2,048
2,045
2,042

2,479
2,473
2,467
2,462
2,457

2,779
2,771
2,763
2,756
2,750

3,707
3,690
3,674
3,659
3,646

40
60
120

0,681
0,679
0,677
0,674

0,851
0,848
0,845
0,842

1,050
1,045
1,041
1,036

1,303
1,296
1,289
1,282

1,684
1,671
1,658
1,645

2,021
2,000
1,980
1,960

2,423
2,390
2,358
2,326

2,704
2,660
2,617
2,576

3,551
3,460
3,373
3,291

Pastor-Barriuso R.

Tablas estadsticas

Tabla 6 Percentiles de la distribucin chi-cuadrado para distintos grados de libertad d.


Percentil
d

0,005

0,01

1
2
3
4
5

0,000
0,01
0,07
0,21
0,41

6
7
8
9
10

0,025

0,05

0,10

0,25

0,50

0,75

0,90

0,95

0,975

0,99

0,995

0,0002 0,001
0,02
0,05
0,11
0,22
0,30
0,48
0,55
0,83

0,004
0,10
0,35
0,71
1,15

0,02
0,21
0,58
1,06
1,61

0,10
0,58
1,21
1,92
2,67

0,45
1,39
2,37
3,36
4,35

1,32
2,77
4,11
5,39
6,63

2,71
4,61
6,25
7,78
9,24

3,84
5,99
7,81
9,49
11,07

5,02
7,38
9,35
11,14
12,83

6,63
9,21
11,34
13,28
15,09

7,88
10,60
12,84
14,86
16,75

0,68
0,99
1,34
1,73
2,16

0,87
1,24
1,65
2,09
2,56

1,24
1,69
2,18
2,70
3,25

1,64
2,17
2,73
3,33
3,94

2,20
2,83
3,49
4,17
4,87

3,45
4,25
5,07
5,90
6,74

5,35
6,35
7,34
8,34
9,34

7,84
9,04
10,22
11,39
12,55

10,64
12,02
13,36
14,68
15,99

12,59
14,07
15,51
16,92
18,31

14,45
16,01
17,53
19,02
20,48

16,81
18,48
20,09
21,67
23,21

18,55
20,28
21,95
23,59
25,19

11
12
13
14
15

2,60
3,07
3,57
4,07
4,60

3,05
3,57
4,11
4,66
5,23

3,82
4,40
5,01
5,63
6,26

4,57
5,23
5,89
6,57
7,26

5,58
6,30
7,04
7,79
8,55

7,58
8,44
9,30
10,17
11,04

10,34
11,34
12,34
13,34
14,34

13,70
14,85
15,98
17,12
18,25

17,28
18,55
19,81
21,06
22,31

19,68
21,03
22,36
23,68
25,00

21,92
23,34
24,74
26,12
27,49

24,72
26,22
27,69
29,14
30,58

26,76
28,30
29,82
31,32
32,80

16
17
18
19
20

5,14
5,70
6,26
6,84
7,43

5,81
6,41
7,01
7,63
8,26

6,91 7,96
7,56 8,67
8,23 9,39
8,91 10,12
9,59 10,85

9,31
10,09
10,86
11,65
12,44

11,91
12,79
13,68
14,56
15,45

15,34
16,34
17,34
18,34
19,34

19,37
20,49
21,60
22,72
23,83

23,54
24,77
25,99
27,20
28,41

26,30
27,59
28,87
30,14
31,41

28,85
30,19
31,53
32,85
34,17

32,00
33,41
34,81
36,19
37,57

34,27
35,72
37,16
38,58
40,00

21
22
23
24
25

8,03
8,64
9,26
9,89
10,52

8,90
9,54
10,20
10,86
11,52

10,28
10,98
11,69
12,40
13,12

11,59
12,34
13,09
13,85
14,61

13,24
14,04
14,85
15,66
16,47

16,34
17,24
18,14
19,04
19,94

20,34
21,34
22,34
23,34
24,34

24,93
26,04
27,14
28,24
29,34

29,62
30,81
32,01
33,20
34,38

32,67
33,92
35,17
36,42
37,65

35,48
36,78
38,08
39,36
40,65

38,93
40,29
41,64
42,98
44,31

41,40
42,80
44,18
45,56
46,93

26
27
28
29
30

11,16
11,81
12,46
13,12
13,79

12,20
12,88
13,56
14,26
14,95

13,84
14,57
15,31
16,05
16,79

15,38
16,15
16,93
17,71
18,49

17,29
18,11
18,94
19,77
20,60

20,84
21,75
22,66
23,57
24,48

25,34
26,34
27,34
28,34
29,34

30,43
31,53
32,62
33,71
34,80

35,56
36,74
37,92
39,09
40,26

38,89
40,11
41,34
42,56
43,77

41,92
43,19
44,46
45,72
46,98

45,64
46,96
48,28
49,59
50,89

48,29
49,64
50,99
52,34
53,67

35
40
45
50

17,19
20,71
24,31
27,99

18,51
22,16
25,90
29,71

20,57
24,43
28,37
32,36

22,47
26,51
30,61
34,76

24,80
29,05
33,35
37,69

29,05
33,66
38,29
42,94

34,34
39,34
44,34
49,33

40,22
45,62
50,98
56,33

46,06
51,81
57,51
63,17

49,80
55,76
61,66
67,50

53,20
59,34
65,41
71,42

57,34
63,69
69,96
76,15

60,27
66,77
73,17
79,49

60
70
80
90
100

35,53
43,28
51,17
59,20
67,33

37,48
45,44
53,54
61,75
70,06

40,48
48,76
57,15
65,65
74,22

43,19
51,74
60,39
69,13
77,93

46,46
55,33
64,28
73,29
82,36

52,29
61,70
71,14
80,62
90,13

59,33 66,98 74,40 79,08 83,30 88,38 91,95


69,33 77,58 85,53 90,53 95,02 100,43 104,21
79,33 88,13 96,58 101,88 106,63 112,33 116,32
89,33 98,65 107,57 113,15 118,14 124,12 128,30
99,33 109,14 118,50 124,34 129,56 135,81 140,17
Pastor-Barriuso R.

245

Tablas estadsticas

Tabla 7 Percentiles de la distribucin F de Fisher para distintos grados de libertad del


numerador d1 y del denominador d2.*
d1
d2

246

Percentil

10

15

20

30

0,90
0,95
0,975
0,99
0,995

0,90
0,95
0,975
0,99
0,995

0,90
0,95
0,975
0,99
0,995

5,54
10,13
17,44
34,12
55,55

5,46
9,55
16,04
30,82
49,80

5,39
9,28
15,44
29,46
47,47

5,34
9,12
15,10
28,71
46,19

5,31
9,01
14,88
28,24
45,39

5,28
8,94
14,73
27,91
44,84

5,25
8,85
14,54
27,49
44,13

5,23
8,79
14,42
27,23
43,69

5,20
8,70
14,25
26,87
43,08

5,18
8,66
14,17
26,69
42,78

5,17
8,62
14,08
26,50
42,47

5,13
8,53
13,90
26,13
41,83

0,90
0,95
0,975
0,99
0,995

4,54
7,71
12,22
21,20
31,33

4,32
6,94
10,65
18,00
26,28

4,19
6,59
9,98
16,69
24,26

4,11
6,39
9,60
15,98
23,15

4,05
6,26
9,36
15,52
22,46

4,01
6,16
9,20
15,21
21,97

3,95
6,04
8,98
14,80
21,35

3,92
5,96
8,84
14,55
20,97

3,87
5,86
8,66
14,20
20,44

3,84
5,80
8,56
14,02
20,17

3,82
5,75
8,46
13,84
19,89

3,76
5,63
8,26
13,46
19,32

0,90
0,95
0,975
0,99
0,995

4,06
6,61
10,01
16,26
22,78

3,78
5,79
8,43
13,27
18,31

3,62
5,41
7,76
12,06
16,53

3,52
5,19
7,39
11,39
15,56

3,45
5,05
7,15
10,97
14,94

3,40
4,95
6,98
10,67
14,51

3,34
4,82
6,76
10,29
13,96

3,30
4,74
6,62
10,05
13,62

3,24
4,62
6,43
9,72
13,15

3,21
4,56
6,33
9,55
12,90

3,17
4,50
6,23
9,38
12,66

3,10
4,36
6,02
9,02
12,14

0,90
0,95
0,975
0,99
0,995

3,78
5,99
8,81
13,75
18,63

3,46
5,14
7,26
10,92
14,54

3,29
4,76
6,60
9,78
12,92

3,18
4,53
6,23
9,15
12,03

3,11
4,39
5,99
8,75
11,46

3,05
4,28
5,82
8,47
11,07

2,98
4,15
5,60
8,10
10,57

2,94
4,06
5,46
7,87
10,25

2,87
3,94
5,27
7,56
9,81

2,84
3,87
5,17
7,40
9,59

2,80
3,81
5,07
7,23
9,36

2,72
3,67
4,85
6,88
8,88

0,90
0,95
0,975
0,99
0,995

3,59
5,59
8,07
12,25
16,24

3,26
4,74
6,54
9,55
12,40

3,07
4,35
5,89
8,45
10,88

2,96
4,12
5,52
7,85
10,05

2,88
3,97
5,29
7,46
9,52

2,83
3,87
5,12
7,19
9,16

2,75
3,73
4,90
6,84
8,68

2,70
3,64
4,76
6,62
8,38

2,63
3,51
4,57
6,31
7,97

2,59
3,44
4,47
6,16
7,75

2,56
3,38
4,36
5,99
7,53

2,47
3,23
4,14
5,65
7,08

0,90
0,95
0,975
0,99
0,995

3,46
5,32
7,57
11,26
14,69

3,11
4,46
6,06
8,65
11,04

2,92
4,07
5,42
7,59
9,60

2,81
3,84
5,05
7,01
8,81

2,73
3,69
4,82
6,63
8,30

2,67
3,58
4,65
6,37
7,95

2,59
3,44
4,43
6,03
7,50

2,54
3,35
4,30
5,81
7,21

2,46
3,22
4,10
5,52
6,81

2,42
3,15
4,00
5,36
6,61

2,38
3,08
3,89
5,20
6,40

2,29
2,93
3,67
4,86
5,95

0,90
0,95
0,975
0,99
0,995

3,36
5,12
7,21
10,56
13,61

3,01
4,26
5,71
8,02
10,11

2,81
3,86
5,08
6,99
8,72

2,69
3,63
4,72
6,42
7,96

2,61
3,48
4,48
6,06
7,47

2,55
3,37
4,32
5,80
7,13

2,47
3,23
4,10
5,47
6,69

2,42
3,14
3,96
5,26
6,42

2,34
3,01
3,77
4,96
6,03

2,30
2,94
3,67
4,81
5,83

2,25
2,86
3,56
4,65
5,62

2,16
2,71
3,33
4,31
5,19

10

0,90
0,95
0,975
0,99
0,995

3,29
4,96
6,94
10,04
12,83

2,92
4,10
5,46
7,56
9,43

2,73
3,71
4,83
6,55
8,08

2,61
3,48
4,47
5,99
7,34

2,52
3,33
4,24
5,64
6,87

2,46
3,22
4,07
5,39
6,54

2,38
3,07
3,85
5,06
6,12

2,32
2,98
3,72
4,85
5,85

2,24
2,85
3,52
4,56
5,47

2,20
2,77
3,42
4,41
5,27

2,16
2,70
3,31
4,25
5,07

2,06
2,54
3,08
3,91
4,64

12

0,90
0,95
0,975

3,18
4,75
6,55

2,81
3,89
5,10

2,61
3,49
4,47

2,48
3,26
4,12

2,39
3,11
3,89

2,33
3,00
3,73

2,24
2,85
3,51

2,19
2,75
3,37

2,10
2,62
3,18

2,06
2,54
3,07

2,01
2,47
2,96

1,90
2,30
2,72

Pastor-Barriuso R.

39,86 49,50
161,45 199,50
647,79 799,50
4052,2 4999,5
16211 20000

53,59 55,83 57,24 58,20 59,44 60,19 61,22 61,74 62,26 63,33
215,71 224,58 230,16 233,99 238,88 241,88 245,95 248,01 250,10 254,31
864,16 899,58 921,85 937,11 956,66 968,63 984,87 993,10 1001,4 1018,3
5403,4 5624,6 5763,7 5859,0 5981,1 6055,9 6157,3 6208,7 6260,7 6365,9
21615 22500 23056 23437 23925 24224 24630 24836 25044 25464

8,53
9,00
9,16
9,24
9,29
9,33
9,37
9,39
9,42
9,44
9,46
9,49
18,51 19,00 19,16 19,25 19,30 19,33 19,37 19,40 19,43 19,45 19,46 19,50
38,51 39,00 39,17 39,25 39,30 39,33 39,37 39,40 39,43 39,45 39,46 39,50
98,50 99,00 99,17 99,25 99,30 99,33 99,37 99,40 99,43 99,45 99,47 99,50
198,50 199,00 199,17 199,25 199,30 199,33 199,37 199,40 199,43 199,45 199,47 199,50

Tablas estadsticas

Tabla 7 (Continuacin)
d1
d2

Percentil

10

15

20

30

0,99
0,995

9,33
11,75

6,93
8,51

5,95
7,23

5,41
6,52

5,06
6,07

4,82
5,76

4,50
5,35

4,30
5,09

4,01
4,72

3,86
4,53

3,70
4,33

3,36
3,90

14

0,90
0,95
0,975
0,99
0,995

3,10
4,60
6,30
8,86
11,06

2,73
3,74
4,86
6,51
7,92

2,52
3,34
4,24
5,56
6,68

2,39
3,11
3,89
5,04
6,00

2,31
2,96
3,66
4,69
5,56

2,24
2,85
3,50
4,46
5,26

2,15
2,70
3,29
4,14
4,86

2,10
2,60
3,15
3,94
4,60

2,01
2,46
2,95
3,66
4,25

1,96
2,39
2,84
3,51
4,06

1,91
2,31
2,73
3,35
3,86

1,80
2,13
2,49
3,00
3,44

16

0,90
0,95
0,975
0,99
0,995

3,05
4,49
6,12
8,53
10,58

2,67
3,63
4,69
6,23
7,51

2,46
3,24
4,08
5,29
6,30

2,33
3,01
3,73
4,77
5,64

2,24
2,85
3,50
4,44
5,21

2,18
2,74
3,34
4,20
4,91

2,09
2,59
3,12
3,89
4,52

2,03
2,49
2,99
3,69
4,27

1,94
2,35
2,79
3,41
3,92

1,89
2,28
2,68
3,26
3,73

1,84
2,19
2,57
3,10
3,54

1,72
2,01
2,32
2,75
3,11

18

0,90
0,95
0,975
0,99
0,995

3,01
4,41
5,98
8,29
10,22

2,62
3,55
4,56
6,01
7,21

2,42
3,16
3,95
5,09
6,03

2,29
2,93
3,61
4,58
5,37

2,20
2,77
3,38
4,25
4,96

2,13
2,66
3,22
4,01
4,66

2,04
2,51
3,01
3,71
4,28

1,98
2,41
2,87
3,51
4,03

1,89
2,27
2,67
3,23
3,68

1,84
2,19
2,56
3,08
3,50

1,78
2,11
2,44
2,92
3,30

1,66
1,92
2,19
2,57
2,87

20

0,90
0,95
0,975
0,99
0,995

2,97
4,35
5,87
8,10
9,94

2,59
3,49
4,46
5,85
6,99

2,38
3,10
3,86
4,94
5,82

2,25
2,87
3,51
4,43
5,17

2,16
2,71
3,29
4,10
4,76

2,09
2,60
3,13
3,87
4,47

2,00
2,45
2,91
3,56
4,09

1,94
2,35
2,77
3,37
3,85

1,84
2,20
2,57
3,09
3,50

1,79
2,12
2,46
2,94
3,32

1,74
2,04
2,35
2,78
3,12

1,61
1,84
2,09
2,42
2,69

25

0,90
0,95
0,975
0,99
0,995

2,92
4,24
5,69
7,77
9,48

2,53
3,39
4,29
5,57
6,60

2,32
2,99
3,69
4,68
5,46

2,18
2,76
3,35
4,18
4,84

2,09
2,60
3,13
3,85
4,43

2,02
2,49
2,97
3,63
4,15

1,93
2,34
2,75
3,32
3,78

1,87
2,24
2,61
3,13
3,54

1,77
2,09
2,41
2,85
3,20

1,72
2,01
2,30
2,70
3,01

1,66
1,92
2,18
2,54
2,82

1,52
1,71
1,91
2,17
2,38

30

0,90
0,95
0,975
0,99
0,995

2,88
4,17
5,57
7,56
9,18

2,49
3,32
4,18
5,39
6,35

2,28
2,92
3,59
4,51
5,24

2,14
2,69
3,25
4,02
4,62

2,05
2,53
3,03
3,70
4,23

1,98
2,42
2,87
3,47
3,95

1,88
2,27
2,65
3,17
3,58

1,82
2,16
2,51
2,98
3,34

1,72
2,01
2,31
2,70
3,01

1,67
1,93
2,20
2,55
2,82

1,61
1,84
2,07
2,39
2,63

1,46
1,62
1,79
2,01
2,18

35

0,90
0,95
0,975
0,99
0,995

2,85
4,12
5,48
7,42
8,98

2,46
3,27
4,11
5,27
6,19

2,25
2,87
3,52
4,40
5,09

2,11
2,64
3,18
3,91
4,48

2,02
2,49
2,96
3,59
4,09

1,95
2,37
2,80
3,37
3,81

1,85
2,22
2,58
3,07
3,45

1,79
2,11
2,44
2,88
3,21

1,69
1,96
2,23
2,60
2,88

1,63
1,88
2,12
2,44
2,69

1,57
1,79
2,00
2,28
2,50

1,41
1,56
1,70
1,89
2,04

40

0,90
0,95
0,975
0,99
0,995

2,84
4,08
5,42
7,31
8,83

2,44
3,23
4,05
5,18
6,07

2,23
2,84
3,46
4,31
4,98

2,09
2,61
3,13
3,83
4,37

2,00
2,45
2,90
3,51
3,99

1,93
2,34
2,74
3,29
3,71

1,83
2,18
2,53
2,99
3,35

1,76
2,08
2,39
2,80
3,12

1,66
1,92
2,18
2,52
2,78

1,61
1,84
2,07
2,37
2,60

1,54
1,74
1,94
2,20
2,40

1,38
1,51
1,64
1,80
1,93

60

0,90
0,95
0,975
0,99
0,995

2,79
4,00
5,29
7,08
8,49

2,39
3,15
3,93
4,98
5,79

2,18
2,76
3,34
4,13
4,73

2,04
2,53
3,01
3,65
4,14

1,95
2,37
2,79
3,34
3,76

1,87
2,25
2,63
3,12
3,49

1,77
2,10
2,41
2,82
3,13

1,71
1,99
2,27
2,63
2,90

1,60
1,84
2,06
2,35
2,57

1,54
1,75
1,94
2,20
2,39

1,48
1,65
1,82
2,03
2,19

1,29
1,39
1,48
1,60
1,69

120

0,90
0,95
0,975
0,99
0,995

2,75
3,92
5,15
6,85
8,18

2,35
3,07
3,80
4,79
5,54

2,13
2,68
3,23
3,95
4,50

1,99
2,45
2,89
3,48
3,92

1,90
2,29
2,67
3,17
3,55

1,82
2,18
2,52
2,96
3,28

1,72
2,02
2,30
2,66
2,93

1,65
1,91
2,16
2,47
2,71

1,55
1,75
1,94
2,19
2,37

1,48
1,66
1,82
2,03
2,19

1,41
1,55
1,69
1,86
1,98

1,19
1,25
1,31
1,38
1,43

Pastor-Barriuso R.

247

Tablas estadsticas

Tabla 7 (Continuacin)
d1
d2

Percentil
0,90
0,95
0,975
0,99
0,995

2,71
3,84
5,02
6,63
7,88

2,30
3,00
3,69
4,61
5,30

2,08
2,60
3,12
3,78
4,28

1,94
2,37
2,79
3,32
3,72

1,85
2,21
2,57
3,02
3,35

1,77
2,10
2,41
2,80
3,09

1,67
1,94
2,19
2,51
2,74

10
1,60
1,83
2,05
2,32
2,52

15
1,49
1,67
1,83
2,04
2,19

* Para percentiles inferiores = 0,005, 0,01, 0,025, 0,05 y 0,10, Fd1,d2, = 1/ Fd2,d1,1.

248

Pastor-Barriuso R.

20
1,42
1,57
1,71
1,88
2,00

30
1,34
1,46
1,57
1,70
1,79

1,00
1,00
1,00
1,00
1,00

Tablas estadsticas

Tabla 8 Percentiles de
n1

en la muestra de
Tabla 8 Percentiles de la distribucin bajo H0 de la suma de rangos de Wilcoxon U = ri en
i =1
la muestra de menor tamao n1 n2 para n1 = 3, 4, ..., 8.*
Percentil 0,95
n1
n2

Percentil 0,975
n1
7

15
18

25
28
31
34
37
41

37
41
44
48
52

51
56
60
64

n2 8

3
4

14
17

24

68
73
78

5
6
7
86
8
9 92

19
21
24
26
28

27
30
33
36
39

3
4

14
17

24

5
6
7
8
9

19
21
24
26
28

27
30
33
36
39

35
39
43
46
50

49
54
58
62

65
70
75

84
89

20
22
25
27
30

10
11
12
13
14

31
33
36
38
40

42
45
48
51
54

53
57
61
64
68

66
70
75
79
83

80
85
90
94
99

95
100
105
111
116

32
35
37
40
42

44
47
50
53
56

56
60
63
67
71

69
73
78
82
87

83
88
93
98
103

10
11104
12109
13115
14121

31
33
36
38
40

42
45
48
51
54

15
16
17
18
19

43
45
47
50
52

57
59
62
65
68

71
75
79
82
86

87
91
96
100
104

104
109
113
118
123

122
127
132
138
143

45
47
50
52
55

59
62
66
69
72

75
79
82
86
90

91
95
100
104
109

108
113
118
123
128

15126
16132
17137
18143
19

43
45
47
50
52

57
59
62
65
68

20154
21
160
22
23166
24171

54
57
59
61
64

71
74
77
80
83

1
1

25
26182
27188
28194
29199

66
68
71
73
75

86
89
92
95
98

1
1
1
1
1

30
31210
32216
33
222
34

78
80
82
85
87

101
104
107
110
113

1
1
1
1
1

35233
36
37238
38244
39250

89
92
94
96
99

116
119
122
125
127

1
1
1
1
1

40261
41
42266
43272
44278

101
103
106
108
110

130
133
136
139
142

1
1
1
1
1

45
46289
47
294
48
49300

113
115
117
119
122

145
148
151
154
157

1
1
1
1
1

20
21
22
23
24

54
57
59
61
64

71
74
77
80
83

89
93
96
100
104

108
112
116
121
125

128
133
137
142
147

148
154
159
165
170

57
60
62
65
67

75
78
81
84
88

94
97
101
105
109

113
117
122
126
131

133
138
143
148
153

25
26
27
28
29

66
68
71
73
75

86
89
92
95
98

107
111
114
118
121

129
133
137
142
146

152
156
161
166
171

175
181
186
191
197

70
72
75
77
79

91
94
97
100
103

112
116
120
124
127

135
139
144
148
152

158
163
168
173
178

30
31
32
33
34

78
80
82
85
87

101
104
107
110
113

125
129
132
136
139

150
154
158
162
167

176
180
185
190
195

202
207
213
218
223

82
84
87
89
92

106
109
113
116
119

131
135
139
142
146

157
161
166
170
174

183
188
193
198
203

35
36
37
38
39

89
92
94
96
99

116
119
122
125
127

143
146
150
154
157

171
175
179
183
187

199
204
209
214
218

229
234
240
245
250

94
97
99
102
104

122
125
128
131
134

150
154
158
161
165

179
183
187
192
196

208
213
218
223
228

40
41
42
43
44

101
103
106
108
110

130
133
136
139
142

161
164
168
171
175

192
196
200
204
208

223
228
233
237
242

256
261
266
272
277

107
109
112
114
117

138
141
144
147
150

169
173
176
180
184

201
205
209
214
218

233
238
243
248
253

45
46
47
48
49

113
115
117
119
122

145
148
151
154
157

179
182
186
189
193

212
217
221
225
229

247
252
257
261
266

282
288
293
298
304

119
121
124
126
129

153
156
159
162
166

188
191
195
199
203

223
227
231
236
240

258
263
268
273
278

98

149

177

205

227

255

283

306
311
317

Pastor-Barriuso R.

249

Tablas estadsticas

Tabla 8 (Continuacin)
Percentil 0,99
n1
n2

Percentil 0,995
n1

3
4

15
18

26

5
6
7
8
9

21
24
26
29
31

29
32
36
39
42

38
42
46
50
54

53
58
62
67

70
76
81

10
11
12
13
14

34
37
39
42
45

46
49
52
56
59

58
62
66
70
74

72
77
81
86
91

15
16
17
18
19

47
50
52
55
58

62
66
69
72
76

78
82
86
90
94

20
21
22
23
24

60
63
66
68
71

79
82
86
89
92

25
26
27
28
29

73
76
79
81
84

30
31
32
33
34

15
18

26

90
96

21
24
27
30
32

30
33
37
40
44

39
43
48
52
56

54
59
64
69

72
77
83

92
98

86
92
97
102
108

102
108
114
119
125

35
38
40
43
46

47
51
54
58
61

60
64
68
72
77

74
79
83
88
93

88
94
99
105
110

104
110
116
122
129

95
100
104
109
114

113
118
123
129
134

131
137
143
149
155

48
51
54
57
59

64
68
71
75
78

81
85
89
93
97

98
103
107
112
117

116
121
127
132
138

135
141
147
153
159

98
102
106
110
114

118
123
128
132
137

139
144
150
155
160

161
167
173
179
185

62
65
67
70
73

81
85
88
92
95

101
105
110
114
118

122
127
131
136
141

143
149
154
159
165

165
171
177
184
190

96
99
102
105
109

118
122
126
130
134

141
146
151
155
160

166
171
176
181
187

190
196
202
208
214

75
78
81
84
86

99
102
105
109
112

122
126
130
134
138

146
151
155
160
165

170
176
181
187
192

196
202
208
214
220

86
89
92
94
97

112
115
119
122
125

138
142
146
150
154

165
169
174
178
183

192
197
202
208
213

220
226
232
238
243

89
92
94
97
100

116
119
123
126
129

142
147
151
155
159

170
174
179
184
189

197
203
208
214
219

226
232
238
244
250

35
36
37
38
39

99
102
105
107
110

129
132
135
139
142

158
162
166
170
174

188
192
197
202
206

218
223
229
234
239

249
255
261
267
273

102
105
108
110
113

133
136
140
143
146

163
167
171
175
179

193
198
203
208
213

225
230
235
241
246

256
263
269
275
281

40
41
42
43
44

112
115
118
120
123

145
148
152
155
158

178
182
186
190
194

211
215
220
225
229

244
250
255
260
265

279
285
290
296
302

116
119
121
124
127

150
153
157
160
164

183
188
192
196
200

217
222
227
232
236

252
257
263
268
273

287
293
299
305
311

45
46
47
48
49

126
128
131
133
136

162
165
168
172
175

198
202
205
209
213

234
238
243
248
252

271
276
281
286
292

308
314
320
326
332

129
132
135
137
140

167
170
174
177
181

204
208
212
216
220

241
246
251
255
260

279
284
290
295
301

317
323
329
335
341

* Para percentiles inferiores = 0,005, 0,01, 0,025 y 0,05, u = n1(n1 + n2 + 1) u1.

250

Pastor-Barriuso R.

Tablas estadsticas

Tabla 9 Percentiles de la distribucin bajo H0 de la suma de rangos positivos de


Tabla 9 Percentiles de la distribucin bajo H0 de la suma de rangos positivos de Wilcoxon
m

Wilcoxon W
para un nmero
nono
nulas
n n16.*
W == ri para
nmerode
deparejas
parejascon
condiferencias
diferencias
nulas
16.*
i =1

n
5
6
7
8
9
10
11
12

5
6
7
8
9
10
11
12

0,95

0,95
14
18
24
30
36
44
52
60

14 0,975
18
15
24
20
30
25
32
36
44
52
60

39
46
55
64

15
20
25
32
39
46
55
64

Percentil
0,99

0,99
15
21
27
34
41
49
58
68

0,995

15 0,995
21
15
27
21
34
28
35
41
49
58
68

15
21
28
35
43
51
60
70

43
51
60
70

69
73
78
69
73
78
81
79
83
89
79
83
89
92
89
94
100
89
94
100
104
100
106
112
100
106
112
116
* Para percentiles inferiores = 0,005, 0,01, 0,025 y 0,05, w = n(n + 1)/2 w1.
* Para percentiles inferiores = 0,005, 0,01, 0,025 y 0,05, w = n(n + 1)/2 - w1-.

13
14
15
16

13
14
15
16

Percentil
0,975

81
92
104
116

Tabla 10 Percentiles de la distribucin bajo H0 del coeficiente de correlacin rs de


Spearman en muestras de tamao n 10.*
Percentil
n

0,95

0,975

0,99

0,995

4
5
6
7
8
9
10

0,800
0,800
0,771
0,679
0,619
0,583
0,552

1,000
0,900
0,829
0,750
0,714
0,683
0,636

1,000
0,900
0,886
0,857
0,810
0,767
0,733

1,000
1,000
0,943
0,893
0,857
0,817
0,782

* Para percentiles inferiores = 0,005, 0,01, 0,025 y 0,05, rs, = rs,1.

19
Pastor-Barriuso R.

251

Das könnte Ihnen auch gefallen