Sie sind auf Seite 1von 25

DISTRIBUCIONES MUESTRALES

DEFINICIONES GENERALES

Muestreo

Es la tcnica para la seleccin de una muestra a partir de una poblacin. Al elegir una muestra se espera conseguir que sus propiedades sean extrapolables a la poblacin. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzaran si se realizase un estudio de toda la poblacin.

En el muestreo, si el tamao de la muestra es ms pequeo que el tamao de la poblacin, se puede extraer dos o ms muestras de la misma poblacin. Al conjunto de muestras que se pueden obtener de la poblacin se denomina espacio muestral. La variable que asocia a cada muestra su probabilidad de extraccin, sigue la llamada distribucin muestral

Censo

En estadstica descriptiva al recuento de individuos que conforman una poblacin estadstica, definida como un conjunto de elementos de referencia sobre el que se realizan las observaciones. El censo de una poblacin estadstica consiste, bsicamente, en obtener el nmero total de individuos mediante las ms diversas tcnicas de recuento.

Poblacin

Una poblacin se precisa como un conjunto finito o infinito de personas u objetos que presentan caractersticas comunes.

El tamao que tiene una poblacin es un factor de suma importancia en el proceso de investigacin estadstica, y este tamao vienen dado por el nmero

de elementos que constituyen la poblacin, segn el nmero de elementos la poblacin puede ser finita o infinita. Cuando el nmero de elementos que integra la poblacin es muy grande, se puede considerar a esta como una poblacin infinita, por ejemplo; el conjunto de todos los nmeros positivos. Una poblacin finita es aquella que est formada por un limitado nmero de elementos.

Muestra

El estudio de muestras es ms sencillo que el estudio de la poblacin completa; cuesta menos y lleva menos tiempo. Por ltimo se aprobado que el examen de una poblacin entera todava permite la aceptacin de elementos defectuosos, por tanto, en algunos casos, el muestreo puede elevar el nivel de calidad. Los expertos en estadstica recogen datos de una muestra. Utilizan esta informacin para hacer referencias sobre la poblacin que est representada por la muestra. En consecuencia muestra y poblacin son conceptos relativos. Una poblacin es un todo y una muestra es una fraccin o segmento de ese todo.

Parmetros estadsticos: Un parmetro estadstico es un nmero que se obtiene a partir de los datos de una distribucin estadstica. Pueden ser de dos tipos:

Parmetros de centralizacin. Son datos que representan de forma global a toda la poblacin. Entre ellos vamos a estudiar la media aritmtica, la moda y la mediana.

Parmetros de dispersin. Son datos que informan de la concentracin o dispersin de los datos respecto de los parmetros de centralizacin. Por ejemplo el recorrido, la varianza y la desviacin tpica.

Parmetros de centralizacin

Media aritmtica Es la suma de todos los datos dividida por el nmero de datos. Se representa por. Para calcular la media aritmtica hacemos:

Sin embargo, podemos observar que aparecen datos repetidos y que en un estudio estadstico tenemos los datos agrupados en una tabla en la que aparecen las frecuencias. Por tanto, podemos simplificar el clculo de la media aritmtica con la frmula:

Si la variable es continua, el clculo se hace de la misma forma pero utilizando como xi las marcas de clase: los valores centrales de cada intervalo o la media aritmtica de los extremos de cada intervalo.

Estadstico muestral

Es una medida cuantitativa, derivada de un conjunto de datos de una muestra, con el objetivo de estimar o inferir caractersticas de una poblacin o modelo estadstico.

Muestra aleatoria simple: Es una muestra sacada de una poblacin de unidades, de manera que todo elemento de la poblacin tenga la misma probabilidad de seleccin y que las unidades diferentes se seleccionen independientemente.

Variables aleatorias y distribuciones: Es aquella que toma diversos valores o conjuntos de valores con distintas probabilidades. Existen 2 caractersticas importantes de una variable aleatoria, sus valores y las probabilidades asociadas a esos valores.

Media aritmtica: La media aritmtica (tambin llamada promedio o simplemente media) de un conjunto finito de nmeros es el valor caracterstico de una serie de datos cuantitativos objeto de estudio que parte del principio de la esperanza matemtica o valor esperado, se obtiene a partir de la suma de todos sus valores dividida entre el nmero de sumandos. Cuando el conjunto es una muestra aleatoria recibe el nombre de media muestral siendo uno de los principales estadsticos muestrales. Expresada de forma ms intuitiva, se puede decir que la media (aritmtica) es la cantidad total de la variable distribuida a partes iguales entre cada observacin.

Varianza: Es una medida de dispersin definida como la esperanza del cuadrado de la desviacin de dicha variable respecto a su media.

Est medida en unidades distintas de las de la variable. Por ejemplo, si la variable mide una distancia en metros, la varianza se expresa en metros al cuadrado. La desviacin estndar, es la raz cuadrada de la varianza, es una medida de dispersin alternativa expresada en las mismas unidades de los datos de la variable objeto de estudio. La varianza tiene como valor mnimo 0. Hay que tener en cuenta que la varianza puede verse muy influida por los valores atpicos y no se aconseja su uso cuando las distribuciones de las

variables aleatorias tienen colas pesadas. En tales casos se recomienda el uso de otras medidas de dispersin ms robustas. Distribucin normal Propiedades generales de la curva normal La distribucin que ocupa la posicin central en la teora y prctica estadsticas, es la distribucin normal. No hay variable aleatoria observable que siga exactamente la distribucin normal, y muchas variables que se dan en la experiencia normal no tienden a seguir esta distribucin.

La distribucin normal tpica La distribucin normal es una numerosa familia de distribuciones que corresponden a los muchos valores diferentes de y de . Es esencial una simplificacin para tabular las probabilidades normales para varios valores de los parmetros. Esto es posible por medio del procedimiento llamado tipificacin. Geomtricamente equivale a convertir la escala bsica de valores x de modo que se mida en una escala patrn en la que corresponda el valor cero y en la que la unidad de medida sea 1 desviacin tpica (s); es decir, se convierten las medidas a nmeros expresados en s como unidades por encima o por debajo de la media.

Distribucin muestral de medias Si tenemos una muestra aleatoria de una poblacin N(m,s ), se sabe (Teorema del lmite central) que la fdp de la media muestral es tambin normal con media m y varianza s2/n. Esto es exacto para poblaciones normales y aproximado (buena aproximacin con n>30) para poblaciones cualesquiera. Es decir es el error tpico, o error estndar de la media. Cmo usamos esto en nuestro problema de estimacin?

1 problema: No hay tablas para cualquier normal, slo para la normal m=0 y s=1 (la llamada z); pero haciendo la transformacin (llamada tipificacin)

una normal de media m y desviacin s se transforma en una z. Llamando za al valor de una variable normal tipificada que deja a su derecha un rea bajo la curva de a, es decir, que la probabilidad que la variable sea mayor que ese valor es a (estos son los valores que ofrece la tabla de la normal)

podremos construir intervalos de la forma

para los que la probabilidad es 1 - a. Teniendo en cuenta la simetra de la normal y manipulando algebracamente

que tambin se puede escribir

o, haciendo nfasis en que

es el error estndar de la media,

Recurdese que la probabilidad de que m est en este intervalo es 1 - a. A un intervalo de este tipo se le denomina intervalo de confianza con un nivel de confianza del 100(1 - a)%, o nivel de significacin de 100a%. El nivel de confianza habitual es el 95%, en cuyo caso a=0,05 y za /2=1,96. Al valor denomina estimacin puntual y se dice que es un estimador de m. se le

Ejemplo: Si de una poblacin normal con varianza 4 se extrae una muestra aleatoria de tamao 20 en la que se calcula se puede decir que m tiene

una probabilidad de 0,95 de estar comprendida en el intervalo


9

que sera el intervalo de confianza al 95% para m

suele conocerse s2; en el caso ms realista de s2 desconocida los intervalos de confianza se construyen con la t de Student (otra fdp continua para la que hay tablas) en lugar de la z.

o, haciendo nfasis en que

es el error estndar estimado de la media,

Esta manera de construir los intervalos de confianza slo es vlida si la variable es normal. Cuando n es grande (>30) se puede sustituir t por z sin mucho error. Distribuciones Muestrales para una poblacin normal De todas las posibles distribuciones bsicas es, sin duda, la distribucin normal la ms importante por el gran nmero de poblaciones que se distribuyen as, real o asintticamente, (en virtud de los Teoremas Lmite). En los subapartados siguientes, consideraremos que conocemos la distribucin de la poblacin y que sta, es normal. Consideraremos igualmente muestreo aleatorio simple (m.a.s.) Distribucin de la medida muestral.

Si la poblacin se distribuye

N[m;s]

entonces
10

en efecto si

y dado que

siendo

independientes pues realizamos m.a.s. y en aplicacin del teorema fundamental de las distribuciones normales obtendremos Distribucin de la varianza muestral En lugar de obtener la distribucin muestral del estadstico varianza muestral L [S2] que nos llevara a conclusiones prximas a las anteriormente descritas en el apartado en el que la poblacin no era normal, es ms conveniente la

utilizacin de la variable aleatoria

que recordemos, no es un

estadstico , y que contiene en su expresin a la varianza muestral y a la poblacional , de ah su utilidad dado que ambas quedan relacionadas con una distribucin conocida ; la jhi-dos. No demostramos la relacin pero la recordamos dada su importancia posterior.

Distribucin de la medida muestral con varianza desconocida En apartados anteriores estudiamos el comportamiento de la media muestral y vimos que sta dependa tanto del valor de la media poblacional, como de la varianza poblacional, parece lgico pensar que si nuestro inters radica en inferir comportamientos de la poblacin partiendo de la muestra parece ilgico pensar que conozcamos la varianza.

11

De ah la importancia de establecer una distribucin para la media muestral que la relacione nicamente con la poblacional, lo que har que conocida la muestral concreta podamos aventurar el comportamiento de la poblacional. As tendramos:

lo que da lugar a :

hemos visto sin demostrar que

conocemos que

luego

simplificando tendramos Expresin que relaciona ambas medias y la varianza muestral con una distribucin conocida

Teorema del lmite central El teorema del lmite central o teorema central del lmite indica que, en condiciones muy generales, si Sn es la suma de n variables aleatorias independientes, entonces la funcin de distribucin de Sn se aproxima bien a una distribucin normal (tambin llamada distribucin gaussiana, curva de Gauss o campana de Gauss). As pues, el teorema asegura que esto ocurre

12

cuando la suma de estas variables aleatorias e independientes es lo suficientemente grande. Sea la funcin de densidad de la distribucin normal definida como

con una media y una varianza 2. El caso en el que su funcin de densidad es , a la distribucin se le conoce como normal estndar.

Se define Sn como la suma de n variables aleatorias, independientes, idnticamente distribuidas, y con una media y varianza 2 finitas (20):

de manera que, la media de Sn es n y la varianza n2, dado que son variables aleatorias independientes. Con tal de hacer ms fcil la comprensin del teorema y su posterior uso, se hace una estandarizacin de Sn como

para que la media de la nueva variable sea igual a 0 y la desviacin estndar sea igual a 1. As, las variables Zn convergern en distribucin a la distribucin normal estndar N(0,1), cuando n tienda a infinito. Como consecuencia, si (z) es la funcin de distribucin de N(0,1), para cada nmero real z:

donde Pr( ) indica probabilidad y lim se refiere a lmite matemtico.

13

Para dos muestras independientes.

Uno de los anlisis estadsticos ms comunes en la prctica es probablemente el utilizado para comparar dos grupos independientes de observaciones con respecto a una variable numrica. Como ejemplo, consideremos los datos que se muestran en la Tabla 1, correspondientes a 75 individuos con sobrepeso sometidos a dos dietas alimenticias distintas, de modo que se desea comparar el peso de los individuos que iniciaron cada una de las dietas. Como ya se ha adelantado, la aplicacin de un contraste paramtrico requiere la normalidad de las observaciones para cada uno de los grupos. La comprobacin de esta hiptesis puede realizarse tanto por mtodos grficos (por medio de histogramas, diagramas de cajas o grficos de normalidad) como mediante tests estadsticos5 (test de Kolmogorov-Smirnov, test de ShapiroWilks). Un nmero suficiente de observaciones (digamos mayor de 30) como ocurre en el ejemplo planteado justifica, no obstante, la utilizacin del mismo test. As mismo, este tipo de metodologa exigir que la varianza en ambos grupos de observaciones sea la misma. En primer lugar se desarrollar el test t de Student para el caso en el que se verifiquen ambas condiciones, discutiendo posteriormente el modo de abordar formalmente el caso en el que las varianzas no sean similares. Bajo las hiptesis de normalidad e igual varianza la comparacin de ambos grupos puede realizarse en trminos de un nico parmetro como el valor medio (Figura 1a), de modo que en el ejemplo planteado la hiptesis de partida ser, por lo tanto: H0: La media de peso inicial es igual en ambos grupos Se denotar por {X1, X2,...,Xn} e {Y1,Y2,...,Ym} al peso observado en cada uno de los sujetos sometidos a la dieta A y a la dieta B respectivamente. En general

14

no se exigir que coincida el nmero de observaciones en cada uno de los grupos que se comparan, de modo que en el ejemplo n=40 y m=35. El t test para dos muestras independientes se basa en el estadstico:

(1)

donde

denotan el peso medio en cada uno de los grupos:

las cuasivarianzas muestrales correspondientes:

Con lo cual, en este caso particular, el valor utilizado para el contraste ser:

Si la hiptesis de partida es cierta el estadstico (1) seguir una distribucin t de Student con n+m-2 grados de libertad. De ser as, el valor obtenido debera estar dentro del rango de mayor probabilidad segn esta distribucin (Figura 2). Usualmente se toma como referencia el rango de datos en el que se concentra el 95% de la probabilidad. El valor-p que usualmente reportan la mayora de

15

paquetes estadsticos no es ms que la probabilidad de obtener, segn esa distribucin, un dato ms extremo que el que proporciona el test. Como ya se dijo, refleja tambin la probabilidad de obtener los datos observados si fuese cierta la hiptesis inicial. Si el valor-p es muy pequeo (usualmente se considera p<0.05) es poco probable que se cumpla la hiptesis de partida y se debera de rechazar. La regin de aceptacin corresponde por lo tanto a los valores centrales de la distribucin para los que p>0.05. En el ejemplo planteado el valor-p correspondiente es de 0.425, de modo que no existe evidencia estadstica de que el peso medio en ambos grupos sea diferente. En la Tabla 2, se determina los grados de libertad (en la primera columna) y el valor de (en la primera fila). El nmero que determina su interseccin es el valor crtico correspondiente. De este modo, si el estadstico que se obtiene toma un valor mayor se dir que la diferencia es significativa. Otro modo de obtener esta misma informacin es mediante el clculo de intervalos de confianza para la diferencia de la respuesta media en ambos grupos. A mayores, el intervalo de confianza constituye una medida de la incertidumbre con la que se estima esa diferencia a partir de la muestra, permitiendo valorar tanto la significacin estadstica como la magnitud clnica de esa diferencia6. En el caso que nos ocupa, el intervalo de confianza vendr dado como:

donde

denota el valor que segn la distribucin t de Student con n+m-2

grados de libertad deja a su derecha el 2.5% de los datos. En el ejemplo, el intervalo de confianza con una seguridad del 95% para la diferencia de peso viene dado por:

16

que expresa en definitiva un rango de valores entre los que se puede encontrar el valor real de la diferencia entre los pesos de ambos grupos. Proporciona adems la misma informacin que obtenamos del contraste estadstico. El hecho de que el valor cero pertenezca al intervalo indica que no se dispone de evidencia para concluir que el peso sea distinto en ambos grupos. A medida que el tamao muestral aumenta, la distribucin del estadstico (1) se hace ms prxima a la de una variable Normal estndar. De este modo, en algunos textos se opta por utilizar esta distribucin para realizar la comparacin de medias. Aunque esta aproximacin es correcta para muestras

suficientemente grandes, ambos mtodos proporcionan en este caso resultados prcticamente idnticos, por lo que resulta ms simple utilizar, independientemente del tamao de la muestra, la misma metodologa a partir de la distribucin t. El mismo planteamiento podra utilizarse en el caso de varianzas distintas o de muestras apareadas. Dos muestras independientes con varianza distinta

El caso en el que se dispone de dos grupos de observaciones independientes con diferentes varianzas, la distribucin de los datos en cada grupo no puede compararse nicamente en trminos de su valor medio (Figura 1b). El contraste estadstico planteado en el apartado anterior requiere de alguna modificacin que tenga en cuenta la variabilidad de los datos en cada poblacin. Obviamente, el primer problema a resolver es el de encontrar un mtodo estadstico que nos permita decidir si la varianza en ambos grupos es o no la misma. El F test o test de la razn de varianzas viene a resolver este problema. Bajo la suposicin de que las dos poblaciones siguen una distribucin normal y tienen igual varianza se espera que la razn de varianzas:

17

siga una distribucin F de Snedecor con parmetros (n-1) y (m-1). Supongamos que en el ejemplo anterior se desee comparar la prdida de peso en los sujetos sometidos a cada una de las dos dietas. La aplicacin del estadstico (1) no ser factible, ya que las varianzas en ambos grupos son sustancialmente distintas. En este caso la razn de varianzas es de 3.97 / 0.80 = 4.96, valor que se debe comparar con una distribucin F39,34. El valor-p asociado ser p<0.01, siendo muy poco probable que las observaciones provengan de poblaciones con igual variabilidad. En este tipo de situaciones, donde no se debe aplicar el contraste basado en (1), podemos utilizar una modificacin del t test para el caso de varianzas desiguales, conocido como el test de Welch7 basada en el estadstico:

que, bajo la hiptesis nula seguir una distribucin t de Student con un nmero f de grados de libertad que depender de las varianzas muestrales segn la expresin:

18

La tcnica para realizar el contraste es anloga a la vista anteriormente cuando las varianzas son desconocidas e iguales. Por ejemplo, en el caso planteado, la prdida media de peso para los individuos en cada una de las dietas fue de e con las variabilidades anteriormente expresadas. Esto

conduce a un valor del estadstico de t=5.58 a relacionar con una distribucin t de Student con aproximadamente 56 grados de libertad. El valor-p resultante es, por lo tanto, p<0.001 con lo cual podemos rechazar la hiptesis de partida y concluir que la reduccin de peso experimentada es distinta segn la dieta que se siga. Al igual que en el caso anterior, podr optarse por calcular el correspondiente 95% intervalo de confianza para la diferencia de medias dado por:

Dos muestras dependientes

Ya se ha comentado que cuando se trata de comparar dos grupos de observaciones, es importante distinguir el caso en el que son independientes de aquel en el que los datos estn apareados. Las series dependientes surgen normalmente cuando se evala un mismo dato ms de una vez en cada sujeto de la muestra. Tambin se puede encontrar este tipo de observaciones en estudios de casos y controles donde cada caso se aparea individualmente con un control. Supongamos que queremos comprobar, en los datos de la Tabla 1 si realmente se produce una prdida de peso significativa en esos individuos, para lo que se recoge en cada sujeto su peso antes y despus de someterse a la dieta. En este tipo de anlisis el inters no se centra en la variabilidad que puede haber entre los individuos, sino en las diferencias que se observan en un mismo sujeto entre un momento y otro. Por este motivo, resulta intuitivo trabajar con la
19

diferencia de ambas observaciones (en el ejemplo ser la prdida de peso), de modo que se quiere contrastar la hiptesis: H0: La prdida de peso es nula frente a la alternativa de que la prdida de peso sea importante (es decir, distinta de cero). La veracidad de dicha hiptesis puede ser contrastada igualmente mediante el test t de Student. Como se ha dicho, este tipo de mtodos tienen como hiptesis fundamental la normalidad de los datos. En este caso, sin embargo, no ser necesario que las observaciones en ambos grupos provengan de poblaciones normales, sino que nicamente se requiere verificar la normalidad de su diferencia. Denotando por que se parte es que: la prdida media de peso la hiptesis de la

frente a la alternativa

A partir de las observaciones muestrales {Y1,Y2,...,Yn} e {Y1,Y2,...,Yn} en cada uno de los grupos se calcula la diferencia de peso para cada sujeto {d1,d2,...,dn} con dj=Xj-Yj j=1,2,...,n. Ntese que en este caso un requisito fundamental es que se tenga un nmero igual de observaciones en ambos grupos. A partir de estos datos, el contraste se basa en el estadstico:

o en el clculo del 95% intervalo de confianza:

20

donde muestra:

denota la media de la prdida de peso estimada a partir de la

denota la cuasivarianza muestral de la diferencia dada por:

En nuestro ejemplo el valor del estadstico vendra dado por:

a comparar del modo habitual con la distribucin t de Student con n-1=74 grados de libertad. El intervalo de confianza para la prdida media de peso correspondiente a una seguridad del 95% es de (3.56;4.41), lo cual se traduce en una prdida de peso significativamente distinta de cero, tal y como indica el valor-p correspondiente de p<0.001.

21

Figura 1. Comparacin de dos poblaciones normales a) Poblaciones normales con igual varianza y medias distintas

b) Poblaciones normales con igual y diferentes varianzas.

Figura 2. Regiones de aceptacin y rechazo en el contraste de hiptesis

22

Dieta A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A

Tabla 1. Datos de 75 pacientes con sobrepeso sometidos a dos dietas alimenticias. Peso inicial Peso final Dieta Peso inicial Peso final 94,07 86,59 B 88,02 84,12 96,79 93,08 B 88,22 86,13 92,15 87,85 B 103,45 101,21 92,30 86,83 B 82,94 79,08 96,50 92,70 B 89,71 86,19 83,11 76,80 B 94,83 91,93 91,16 83,40 B 81,93 78,97 90,81 86,74 B 83,41 78,89 81,37 77,67 B 73,59 69,76 89,81 85,70 B 108,47 104,20 84,92 79,96 B 72,67 70,01 84,43 79,80 B 96,84 93,66 86,33 81,15 B 88,48 87,00 87,60 81,92 B 89,57 87,24 81,08 76,32 B 85,22 82,09 92,07 90,20 B 103,76 102,24 81,14 73,34 B 87,84 84,66 96,87 93,58 B 91,50 88,95 99,59 92,36 B 93,04 88,73 83,90 77,23 B 92,14 88,07 89,41 85,45 B 85,26 81,36 85,31 84,59 B 89,42 86,64 89,25 84,89 B 92,42 88,99 93,20 93,10 B 93,13 89,73 89,17 86,87 B 80,86 77,81 93,51 86,36 B 88,75 85,93 88,85 83,24 B 95,02 91,90 88,40 81,20 B 92,29 91,28 82,45 77,18 B 89,43 87,22 96,47 88,61 B 93,32 89,77 99,48 94,67 B 92,88 89,38 99,95 93,87 B 89,88 88,00 100,05 94,15 B 82,25 80,81 87,33 82,17 B 88,99 86,87 87,61 86,01 B 82,07 79,74 89,28 83,78 89,72 83,56 95,57 89,58 97,71 91,35 98,73 97,82

23

CONCLUSION

24

Bibliografa

Carrasco JL. El mtodo estadstico en la investigacin mdica. 5 ed. Madrid. Editorial Ciencia.

Hulley SB, Cummings SR. Diseo de la investigacin clnica. Ed Doyma. Barcelona 1993.

Kelsey IL, Thompson WD, Evans A. Methods in observational epidemiology. New York. Oxford University Press 1986.

Mira JJ, Gmez J, Aranaz J, Prez E. Auditora de historias clnicas: Cul es el tamao adecuado de la muestra?. Todo Hospital 1997; octubre: 58-64.

25

Das könnte Ihnen auch gefallen