Beruflich Dokumente
Kultur Dokumente
J u n io , 20 0 8
DE
Vo lum en 2 , Número 6
ESTADÍSTICA
Sociedad Española Sociedad Española de Bioquímica Clínica y Patología Molecular (SEQC),
Calle Padilla 268, despacho 68, 08025-Barcelona, http://www.seqc.es
Documento A (1982). Química Clínica 1983;2:39- l'intervalle de référence. Document H. Ann Biol
41. Clin 1983;41:63-79.
Queraltó JM, Antoja F, Cortés M, et al. Bases Albert A, Guéguen R, Sachs C. Présentation des
estadísticas de la teoría de valores de valeurs observées par rapport aux valeurs de
referencia. Documento B. Fase 3. Versión 5 référence. Document I. Ann Biol Clin 1983;41:225-
(1982). Química Clínica 1983;2:95-105. 31.
Queraltó JM, Antoja F, Cortés M, Doménech MV, Siest G, Henny J, Guize L, Sachs C. Utilisation des
Fuentes X, Llagostera MJ, et al. Variaciones valeurs de référence. Ann Biol Clin 1982;40:697-
analíticas y extra–analíticas en la producción de 708.
los valores de referencia. Documento C. Fase 3.
Publicaciones “históricas”
Versión 4 (1983). Química Clínica 1984;3:43-50.
Cotlove E, Harris EK, Williams GZ. Biological and
Queraltó JM, Antoja F, Cortés M, et al.
analytic components of variation in long-term
Producción y utilización de valores de
studies of serum constituent in normal subjects.
referencia. Documento D. Fase 3. Versión 2.
III. Physiological and medical implications. Clin
Química Clínica 1987;6:49-58.
Chem 1970;16:1028-32.
Queraltó JM, Antoja F, Cortés M, et al.
Dybkaer R, Gräsbeck R. Theory of reference
Transferibilidad de los valores de referencia.
values. Scand J Clin Lab Invest 1973;32:1-7.
Documento E. Fase 3. Versión 3. Química Clínica
1990;9:102-23. Gräsbeck R, Saris NE. Establishment and use of
normal values. Scand J Clin Lab Invest
Queraltó JM, Antoja F, Cortés M, et al. Valores
1969;110:62-3.
de referencia intraindividuales. Documento F.
Fase 3. Versión 3. Química Clínica 1991;10:56-8. Harris EK. Distinguishing physiologic variation from
analytic variation. J Chronic Dis 1970;23:469-80.
Recomendaciones de la SFBC
Harris EK, Kanofsky P, Shakarji G, Cotlove E.
Siest G, Vernet-Nyssen M. Le concept des valeurs
Biological and analytical components of variation
de référence en biologie clinique. Document A,
in long-term studies of serum constituents in
2e version. Ann Biol Clin 1981;39:381-4.
normal subjects. II. Estimating biological com-
Guéguen R, Albert A. Langage et principes ponents of variation. Clin Chem 1970;16:1022-7.
statistiques pour les valeurs de référence.
Harris EK. Effects of intra and inter-individual
Document B, 2e version. Ann Biol Clin
variation on the appropriate use of normal ranges.
1985;43:297-305.
Clin Chem 1974;20:1535-42.
Bretaudière JP, Albert A. Influence des facteurs
Harris EK. Some theory of reference values. I.
analytiques sur les valeurs de référence. 2e
Stratified (categorized) normal ranges and a
version. Ann Biol Clin 1985;43:306-9.
method for following and individual's clinical
Siest G, Vernet-Nyssen M. Variations biologiques laboratory values. Clin Chem 1975;21:1457-64.
des examens de laboratoire. Document D. Ann
Harris EK. Some theory of reference values. II.
Biol Clin 1979;37:229-39.
Comparison of some statistical models of intra-
Drosdowsky M, Sachs C. Facteurs à prendre en individual variation in blood constituents. Clin
considération pour le prélèvement sanguin en Chem 1976;22:1343-50.
vue de l'établissement des valeurs de référence.
Williams GZ, Young DS, Stein MR, Cotlove E.
Document E. Ann Biol Clin 1980;38:251-60.
Biological and metrological components of
Siest G, Henny J. Production des valeurs de variation in long-term studies of serum
référence. Document G. Ann Biol Clin constituents in normal subjects. I. Objectives,
1981;39:235-44. Anexos al documento G: Critères subjects selection laboratory procedure and
de partition et d'exclusion. Sachs C. Objectifs. estimation of analytic deviation. Clin Chem
Ann Biol Clin 1984;42:243-5. Drosdowsky M, 1970;16:1016-21.
Ramon-Bauza F. Âge, sexe puberté, ménopause.
Williams RJ. Biochemical individuality. New York :
Ann Biol Clin 1984;42:246-8. Sachs C, Buret J.
J. Wiley and Sons,1956;47.
Poids corporel et surcharge pondérale. Ann Biol
Clin 1984;42:249-56. Aellig A, Sachs C. Facteurs Young DS, Harris EK, Cotlove E. Biological and
d'environnement : alcool, tabac et mode de vie. analytic components of variation in long-term
Ann Biol Clin 1984;42:256-65. studies or serum constituents in normal subjects.
IV. Results of a study designed to eliminate long-
Albert A, Guéguen R, Sachs C. Traitement des
term analytic deviations. Clin Chem 1971;17:403-
valeurs de référence et détermination de
10.
Curso de estadística Vol. 2, núm. 6, Pág. 4
Procedimiento
Determinar la observaciones extremas de ambas
muestras.
4
Autor de una publicación acerca de uno de los
varios tests no paramétricos rápidos y potentes,
denominados test de los signos (Duckworth WE,
3
Deming WE, Birge RT. On the statistical theory Wyatt JV. Rapid statistical techniques for
of errors Rev. Mod. Phys. 1934;6,119-61 operations research workers. Oper. Res.
Quarterly, 1958;9:218-33.)
Curso de estadística Vol. 2, núm. 6, Pág. 8
Contar el número de observaciones de la muestra Ordenando las dos muestras tras combinarlas
con el valor más alto (en el ejemplo que sigue es (sólo se muestran los datos extremos):
Y ), superiores a la observación más alta de la Y 45,2
segunda muestra X . Y 46,1
Contar el número de observaciones de la muestra Y 47,7
con el valor más bajo (en el ejemplo que sigue es Y 47,8
X ), inferiores a la observación más pequeña de X 49,2
la otra muestra Y . Y 50,0
... ...
Cálculo del estadístico
X 64,7
El estadístico a calcular, D , es la suma de estos Y 65,1
dos números. X 65,2
4 nY X 65,4
Si sucede que 3+ ≤ n X ≤ 2 nY , o X 66,1
3
viceversa, entonces se resta a D un 1. X 66,6
X 69,4
Decisión: nivel de significación X 69,8
Si el valor de D es superior al valor crítico se
rechaza la hipótesis nula de igualdad de Se observa como el solapamiento afecta a 4 y 6
medianas con la correspondiente probabilidad observaciones. Pero al ser 33, 66 ≥ n Y ≤ 46 , el
α. estadístico D será:
Valores críticos D = 4 + 6 −1 = 9
α Concluyéndose que se puede rechazar la
hipótesis de igualdad de medianas con una
0,05 0,01 0,001
probabilidad comprendida entre 0,05 y 0,01.
D 7 10 13
Bibliografía
Ejemplo 1. Tukey JW. A quick, compact, two-sample test
Supóngase dos poblaciones de las que se extraen to Duckworth’s specifications. Technometrics
las siguientes muestras 1959;1:31-48.
2. Westlake WJ. A one-sided version of the
X Y
Tukey-Duckworth test. Technometrics,
1 69,4 55,3
1941;13(4):901-3.
2 61,1 58,3
3 62,8 58,1
4 55,0 47,8
5 49,2 54,5
6 59,2 45,2
7 59,1 62,5
8 62,7 53,3
9 60,8 52,9
10 64,7 56,2
11 56,6 65,1
12 66,6 47,7
13 57,7 60,7
14 66,1 56,9
15 69,8 59,0
16 65,4 61,6
17 60,4 55,1
18 58,4 54,7
19 65,2 54,4
20 64,3 57,1
21 55,9 58,0
22 46,1
23 50,0
n 21 23
Curso de estadística Vol. 2, núm. 6, Pág. 9
Problemas
1. Se sabe que el diámetro medio de una población celular es de 7,5 µm y que sigue una distribución
aproximadamente normal. Se ha obtenido una muestra aleatoria de 25 elementos celulares de esta
población y las correspondientes medidas se expresan en la siguiente tabla. Se desea saber
(a) ¿Cuál es la estimación de máxima verosimilitud de la desviación típica poblacional?
(b) ¿Cuál es la probabilidad de que el estimador de máxima verosimilitud subestime el verdadero valor
del parámetro?
caso diámetro caso diámetro caso diámetro caso diámetro caso diámetro
1 6,1 6 8,4 11 9,0 16 7,3 21 5,6
2 7,1 7 7,4 12 8,7 17 6,1 22 9,5
3 6,7 8 9,8 13 7,2 18 7,0 23 7,8
4 9,6 9 9,2 14 10,2 19 9,4 24 8,0
5 6,2 10 8,4 15 8,4 20 7,4 25 6,6
Solución
(a) Se conoce que la variable aleatoria X “longitud del diámetro de las células” tiene una distribución
N ∼ ( 7,5, σ 2 ) . En primer lugar se calculará la estimación de la desviación típica σ por el método de
la máxima verosimilitud. Al tratarse de una distribución normal, la función de verosimilitud
L (σ ) = f σ ( x1 , x 2 ,… , x n ) será:
L (σ ) = f σ ( x 1 , x 2 , … , x n )
n
= ∏ fσ ( x )
i =1
i
1 1 n 2
= exp − ∑(x − 2)
2π
2 i
σ 2 ( 2π )
2
i =1
Tomando logaritmos neperianos y sustituyendo por su valor:
n
n 1
∑( x −x)
2
log L (σ ) = − n log σ − log ( 2 π ) −
2σ 2
i
2 i =1
Una forma de obtener un valor máximo de una función consiste en igualar a cero la primera derivada de la
función y resolviendo esta igualdad:
d
log L (σ ) = 0
dσ
n
4σ ∑ ( x i − x )
2
∂ n
log L (σ ) = − +
i =1
= 0
∂σ σ 4σ 4
1 n
∑ ( xi − x )
2
σˆ =
n i =1
Es decir,
1 25
∑ ( x i − 7,5 )
2
σˆ =
25 i =1
σˆ = 1,34
Curso de estadística Vol. 2, núm. 6, Pág. 10
(b) La probabilidad que el estimador de máxima verosimilitud hallado subestime el verdadero valor del
parámetro se puede formalizar:
1 n
Pr (σˆ < σ ) = Pr ∑ ( x i − x ) < σ 2
2
n i =1
1 25
= Pr 2 ∑ ( x i − 7,5 ) < 25
2
σ i =1
= Pr ( χ 25
2
< 25 ) = 0, 4624
σ 2
i =1
i
Esta probabilidad puede calcularse extrapolando a partir de la información proporcionada en las tablas de
χ 2 , donde se presentan para cada grado de libertad (en las filas), las abcisas χ grados
2
de libertad , β que dejan
a su derecha un área de probabilidad β (en columnas) de la distribución χ 2
n, β . Es decir
Pr ( χ n2 > χ n2, β ) = β . Por ejemplo en la tabla siguiente Pr ( χ 252 > 40, 646 ) = 0, 025
Distribución χ 252
ß
g. de l. 0,975 0,10 0,05 0,025 0,01 0,005 0,001
1 0,000982 2,706 3,841 5,024 6,635 7,879 10,828
2 0,0506 4,605 5,991 7,378 9,210 10,597 13,816
3 0,216 6,251 7,815 9,348 11,345 12,838 16,266
4 0,484 7,779 9,488 11,143 13,277 14,860 18,467
5 0,831 9,236 11,070 12,833 15,086 16,750 20,515
6 1,237 10,645 12,592 14,449 16,812 18,548 22,458
7 1,690 12,017 14,067 16,013 18,475 20,278 24,322
8 2,180 13,362 15,507 17,535 20,090 21,955 26,124
9 2,700 14,684 16,919 19,023 21,666 23,589 27,877
10 3,247 15,987 18,307 20,483 23,209 25,188 29,588
11 3,816 17,275 19,675 21,920 24,725 26,757 31,264
12 4,404 18,549 21,026 23,337 26,217 28,300 32,909
13 5,009 19,812 22,362 24,736 27,688 29,819 34,528
14 5,629 21,064 23,685 26,119 29,141 31,319 36,123
15 6,262 22,307 24,996 27,488 30,578 32,801 37,697
16 6,908 23,542 26,296 28,845 32,000 34,267 39,252
17 7,564 24,769 27,587 30,191 33,409 35,718 40,790
18 8,231 25,989 28,869 31,526 34,805 37,156 42,312
19 8,907 27,204 30,144 32,852 36,191 38,582 43,820
20 9,591 28,412 31,410 34,170 37,566 39,997 45,315
21 10,283 29,615 32,671 35,479 38,932 41,401 46,797
22 10,982 30,813 33,924 36,781 40,289 42,796 48,268
23 11,689 32,007 35,172 38,076 41,638 44,181 49,728
24 12,401 33,196 36,415 39,364 42,980 45,559 51,179
25 13,120 34,382 37,652 40,646 44,314 46,928 52,620
Comentarios
Cuando se piensa en probabilidad (de observar un evento determinado A ) se suele imaginar n
repeticiones de un “experimento” de modo que la frecuencia relativa con que se observa el evento
expresa su probabilidad. Implícitamente se asume un modelo probabilístico que se representa mediante
una función matemática que consta de uno o más parámetros. Formalmente, la probabilidad de observar
un evento A en el contexto de un modelo probabilístico con p parámetros se puede expresar como
Pr ( A | p ) . A través de las leyes de la probabilidad y los parámetros del modelo se pueden hacer
inferencias y predicciones.
Sin embargo, puede hacerse un planteamiento diferente: si se dispone de un conjunto de n
observaciones, fijo y sin que haya ningún mecanismo probabilístico que lo altere, puede intuirse que el
hecho de haber observado este conjunto determinado de datos y no otro obedece al hecho de que es más
fácil (o verosímil) que se de en la realidad. A partir de estas observaciones se puede, pues, obtener los
parámetros que definen el modelo. El concepto de verosimilitud (likelihood) es simétrico del de
probabilidad. Su expresión formal es L ( p | A ) .
El procedimiento se inicia escribiendo la función de verosimilitud de los datos. Considérese una familia
Dθ de distribuciones de probabilidad caracterizadas por un parámetro θ (“parametrizadas”) desconocido
y que se asocia a una función ( f ) densidad de probabilidad, si es continua, o masa de probabilidad, si es
θ
f θ ( x 1 , x 2 ,… , x n | θ ) = (θ | x ) = Pr ( x |θ )
Aparentemente se trata de lo mismo, pero la función de densidad o de masa Pr ( x |θ ) y función de
verosimilitud de θ son conceptos totalmente diferentes: en probabilidad, el conjunto muestral
{x , x
1 2 ,… , x n } son un conjunto de valores que varían mientras que el parámetro θ permanece
constante o fijo. En verosimilitud, es el conjunto muestral quien permanece constante y el que puede
variar es el parámetro θ .
El EMV es válido si y solo si θˆ es un valor único de X para el cual f θ ( x ) es máximo. Si existen varios
máximos, entonces coexiste un conjunto de soluciones.
Cuando el tamaño muestral es grande, la EMV, goza de las siguientes propiedades:
(a) Es un estimador insesgado de varianza mínima al aumentar el contingente de la muestra;
(b) Se distribuye normalmente y permite el cálculo de la varianza muestral que pueden ser utilizada para
establecer límites de confianza;
(c) Puede ser utilizada para comparar hipótesis sobre modelos y parámetros.
No obstante, también presentan inconvenientes:
(a) Cuando se dispone de pocos casos (por ejemplo, menos de 10) pueden producir estimaciones sesgadas
y no ser aplicables las propiedades mencionadas anteriormente;
(b) El cálculo puede requerir software especializado para resolver expresiones analíticamente complejas.
5
La estimación de la mínima varianza, la forma alternativa al EMV, es un estimador que satisface este
requisito concreto, pero al contrario del EMV no constituye por sí mismo un procedimiento de estimación.
6
O su logaritmo
Curso de estadística Vol. 2, núm. 6, Pág. 13
Bibliografía
Casella G, Berger RL. Statistical Inference. 2ª ed. Pacific Grove, CA: Duxbury, 2002.
van der Vaart A. Asymptotic Statistics. Cambridge: Cambridge University Press, 2000.
σ b2
individualidad definido por . Para ello se estudiaron 31 individuos seleccionados al azar a los que
σ w2
2
se determinó la concentración del constituyente y se calculó la cuasivarianza muestral s b . A 10 de
estos individuos se realizó determinaciones repetidas con periodicidad mensual de modo que estimó
2
la cuasivarianza muestral s w . Suponiendo que las distribuciones de las concentraciones son normales,
s b2 σ b2
se desea saber si el cociente es un estimador razonable de . Se entiende por “razonable” que
s w2 σ w2
no sobreestime su valor en más del triple y no lo infraestime en menos del 50 %.
Solución
La probabilidad buscada es:
1 σ b2 s b2 σ b2
Pr ≤ ≤3 2
2 σ w2 s w2 σw
Es decir, que si el índice de individualidad realmente fuera 1,5 y se estimara como 0,3 ó 5,8 incumpliría
claramente en ambos casos la condición de “razonable”. Para calcular la probabilidad mencionada es
σ b2
preciso conocer la función de distribución de . Ya que se ha considerado que son distribuciones
σ w2
normales de media desconocida e independientes (en principio es aceptable que las variabilidades intra e
interindividual sean mútuamente independientes) se puede decir que:
s b2
s w2
∼ F n b − 1 , n w − 1 (α )
σ b2
σ w2
donde: n b −1 es el tamaño de la muestra extraída para calcular la variabilidad interindividual, 29, y
n w −1 es el tamaño de la muestra extraída para calcular la variabilidad intraindividual, 9.
Por lo tanto:
7
cuando n → ∞ , como sucede con el estimador de mínima varianza
Curso de estadística Vol. 2, núm. 6, Pág. 14
1 σ b2 s b2 σ b2 1
Pr ≤ ≤ 3 2 = Pr ≤ F30,9 ≤ 3
2 σ w2 s w2 σw 2
1
= Pr ( F30,9 ≤ 3) − Pr F30,9 <
2
1
= 1 − Pr ( F30,9 > 3) − Pr F30,9 <
2
Para resolver esta expresión se deberá disponer de tablas de F como las que se encuentran, por ejemplo
en
http://www.itl.nist.gov/div898/handbook/eda/section3/eda3673.htm
Las tablas no suelen ser muy detalladas y deberá extrapolarse su contenido. Por ejemplo, supóngase que
se dispone de unos valores F procedentes de tablas como los siguientes:
probabilidad
numerador denominador
0,100 0,050 0,025 0,010 0,005
30 9 2.2547 2.8637 3.5604 4.6484 5.6248
9 30 1,8490 2.2107 2.5746 3.0665 3.4505
Habitualmente, para ajustar el espacio sólo se expresan valores de Fm , n para la cola de la derecha, solo
para abscisas grandes: es decir será fácil hallar valores tabulados para F30,9 > 3 pero no para F30,9 < 0, 25 .
Para poder hacerlo se invoca la propiedad de la distribución F
1
Fm , n =
Fn , m
reescribiendo la expresión anterior
1 σ b2 s b2 σ b2 1
Pr ≤ ≤ 3 = 1 − Pr ( F30,9 > 3) − Pr F30,9 <
2 σ w sw
2 2
σ w
2
2
1 1
= 1 − Pr ( F30,9 > 3) − Pr <
F9,30 2
= 1 − Pr ( F30,9 > 3) − Pr ( F9,30 > 2 )
En el extracto de la tabla se puede ver como el valor para F30,9 > 3 no está tabulado aunque sí están
( ) ( )
tabuladas las probabilidades Pr F30,9 > 3,5604 = 0, 025 y Pr F30,9 > 2,8637 = 0, 050 . Es decir, entre
0, 05 y 0, 025 . Extrapolando, será
3 − 2,8637
× 0, 025 = 0, 0049
3,5604 − 2,8637
0, 05 − 0, 0049 = 0, 0451
Tampoco está el valor F9,30 > 2 . Para calcular esta probabilidad se opera como en el caso anterior: están
( ) ( )
tabuladas las probabilidades Pr F9,30 > 1,8490 = 0,100 y Pr F9,30 > 2, 2107 = 0, 050 . Para obtenerlo
por extrapolación, se calcula
Curso de estadística Vol. 2, núm. 6, Pág. 15
2 − 1,8490
× 0, 050 = 0, 0206
2, 2107 − 1,8490
0,100 − 0, 0206 = 0, 0794
y que se habrán adquiridos desde un fichero MS Office al “clipboard” del ordenador y subsiguientemenet
habían sido (a) leídos por
(b) vinculado por defecto el archivo “ejemplo”, para no tener que repetir continuamente este nombre
como prefijo de las variables:
Si se desea ampliar los rótulos y puntos, este incremento proporcional se incluirá previamente en las
instrucciones de diagramación par( ):
o, equivalentemente,
La instrucción plot (objeto regresión) crea cuatro gráficas que en principio se representan
sucesivamente en cuatro pantallas. Al pedir:
pide confirmar un “cambio de página” para evitar sobrescribir en el gráfico que pudiera estar presnte
en la ventana gráfica:
Pulsando b aparece el diagrama de dispersión de los residuales frente a los valores predichos
Curso de estadística Vol. 2, núm. 6, Pág. 18
Parece lógico, no obstante disponer de los cuatro gráficos simultáneamente. Para ello deverá incluirse
previamente una instrucción gráfica genérica par(mfrow), con un argumento que le indique que se
desean cuatro gráficos en una “matriz” de 2 x 2:
y se obtendrá el gráfico:
Curso de estadística Vol. 2, núm. 6, Pág. 19
Próximo número
Guía de estudio (8 y 9)
(2008: vol 2, número 7–8) Módulo III: Aplicaciones estadísticas (III):
muestreo, diseño de experimentos,
determinación del número de observaciones.
Módulo IV: Estadística avanzada (I): series
temporales: análisis clásico y modelos ARIMA.
Problemas
Inferencia
Nombres propios
Pierre de Fermat
Fecha aproximada de aparición:
segunda quincena de Agosto Tests estadísticos
Test de aleatoriedad
Noticias
Reactivación del Foro del Curso de Estadística de Introducción a : Regresión en (3)
la SEQC