Sie sind auf Seite 1von 6

Nociones bsicas para el clculo del tamao de la muestra

Anlisis de Datos en Psicologa I


Vicente Manzano

Decidir cul es el mejor tamao para una muestra es una de las preocupaciones principales
relativas al muestreo. El primer principio es que no existe un tamao bueno para todo. Segn el
tipo de muestreo que se vaya a realizar, los objetivos que se persigan, las caractersticas de la
poblacin y las condiciones en las que se van a realizar las estimaciones, sern aconsejables
unos tamaos u otros. Podra parecer que una muestra es mejor cuanto ms grande. Pues s,
podra parecerlo, pero no es cierto. Cuanto ms grande las estimaciones sern ms precisas y
con menos riesgo de error. Pero tambin saldrn ms caras y tal vez se reduzca el control en la
recogida de datos, por lo que, repito, no exite un tamao bueno para todo.

Este documento tampoco es bueno para toda decisin de tamaos de muestra. Se ha pensado
para unas situaciones y no para cualesquiera. Pero no nos preocupemos en exceso. Mi
experiencia es que buena parte de las investigaciones cientficas publicadas en revistas de
prestigio hacen muestreos que dejan bastante que desear. Intentaremos no ser peores sino
mejorar un poco en panorama.

Principios generales

1. El tamao de la muestra suele simbolizarse con la letra minscula n.


2. n depende del tipo o modelo de muestro. Cada uno requiere sus propias expresiones de
clculo. Aqu partimos del muestreo aleatorio simple.
3. n depende del objetivo de anlisis. Aqu vamos a suponer que estimamos una media
aritmtica o una proporcin.
4. En una investigacin se busca responder a varios objetivos. Cada objetivo requiere su
propio clculo de tamao de muestra. Pero la muestra es nica para todos. Qu hacer?
Hablaremos de ello ms adelante (ver apartado Tamao y objetivos).
5. Aunque cada objetivo y modelo de muestreo cuentan con sus propias expresiones de
clculo, siempre existen cuatro variables bsicas: tamao de la poblacin, variacin de la
poblacin, precisin de la estimacin y riesgo de error. En cuatro apartados del mismo
nombre vamos a tratar estos conceptos.
6. n es una apuesta. Para calcularlo hemos de suponer cosas que no sabemos con exactitud.
Podemos haber supuesto bien o menos bien o, incluso, mal. Por eso solemos ponernos en
la peor de las situaciones, como vers en el ejemplo sobre la influencia de la variacin de
la poblacin en el tamao de la muestra.

Tamao de la poblacin

Parece lgico suponer que conforme aumenta el tamao de la poblacin, tambin debe hacerlo el
de la muestra. En cierta medida es as. Pero la relacin entre ambos no es lineal, sino logartmica.
Vale, es un palabrejo. Quiero decir que conforme la poblacin es ms grande tambin debe serlo
la muestra, pero menos. El objetivo de la muestra es permitirnos realizar estimaciones sobre
valores de la poblacin. Es necesario partir de un tamao mnimo. Estaremos de acuerdo en que
una muestra de n = 1 no sirve para generalizar nada cuando medimos variables que tienen alguna
variacin en la poblacin. Si lo que queremos medir es si la gente se muere al quitarle la cabeza,
no hace falta obtener ninguna muestra, pues ya sabemos que la cabeza es fundamental para
mantener la vida (aunque la utilicemos slo un poco). Pero para averiguar qu piensan las
personas sobre el precio de la remolacha o en qu medida estn de acuerdo con la gestin de un
personaje poltico, ya sabemos que las opiniones difieren y que no hay que jugrsela con una
muestra de n = 1. Y n = 2? No hemos mejorado mucho.

Tamao de muestra -1-


Lo siento, no existe un tamao mnimo. Pero s un tamao mximo.

Conforme aumenta el nmero de elementos de la poblacin (personas, hogares, fbricas o lo que


sea que estemos investigando), es lgico que deba ser mayor la muestra, pero cada nuevo
elemento en la poblacin aade menos cuanto sta es ms grande. Esto tambin es lgico. De 1
a 2 hemos duplicado el nmero, pero de 107 a 108 no hay mucha diferencia, mientras que
9999999995 9999999996 son la misma cosa, y no admito discusiones tontas al respecto.

Por ejemplo, vamos a realizar una estimacin por intervalo de una proporcin. Suponemos que la
varianza poblacional es 0,25. Utilizamos un error de precisin de 0,03. Y el riesgo de error es 0,05.
Vamos a ir considerando tamaos de poblacin como potencias de 10. Vers cmo la muestra no
se multiplica del mismo modo:

N 10 100 1000 10000 100000 1000000 10000000 100000000 1000000000


n 10 92 517 965 1056 1066 1067 1068 1068

Esta circunstancia es trascendente. Imagina que queremos realizar estimaciones en una regin
con diez provincias. Cada provincia cuenta con 10 mil habitantes. Para hacer estimaciones con el
error de precisin y el riesgo de error considerados, necesitamos una muestra de 1056 personas
para toda la regin. Pero si queremos hacer estimaciones por provincia, necesitamos 965 para
cada una; es decir, 9650 (9 veces ms!) en total.

Variacin en la poblacin

Tambin es lgico pensar que conforme vare ms lo que queremos conocer, ser necesario
indagar en ms unidades. Si la gente opina de forma muy similar con respecto a algo, bastar con
preguntar a unas pocas. Si queremos hacer un estudio sobre el gasto de los hogares andaluces
en alimentacin, tal vez necesitemos una muestra grande porque sospechamos que hay muchas
formas diferentes de organizar la economa familiar y muchas peculiaridades.

Vamos a ver esta influencia con otra tabla, esta vez partimos de un tamao de poblacin
constante (diez mil unidades) para estimar una proporcin con un error de precisin de 0,03;
riesgo de equivocacin de 0,05; y una varianza que vamos a considerar entre 0,10 y 0,25;
utilizando intervalos de 0,03.

2 0,10 0,13 0,16 0,19 0,22 0,25


n 410 526 640 751 859 965

He dicho que este documento se escribe suponiendo que vamos a realizar estimaciones de
medias aritmticas o de proporciones. No he dicho nada de varianzas o desviaciones tipo. Se
supone tambin que si no conocemos la media o la proporcin poblacional cmo vamos a
conocer su desviacin? Qu hacemos entonces?

Cuando ocurre lo habitual, es decir, cuando no sabemos qu valor tiene la variacin poblacional,
adoptamos lo que se llama una postura conservadora. Ya hemos visto que conforme es mayor la
variacin, tambin es mayor el tamao de la muestra. Imagina que infravaloramos la variacin,
que es 0,22 en lugar de 0,13 como pensamos. La muestra va a ser ms pequea de lo que
debera ser (calcularemos 526 en lugar de 859 que es lo que deberamos haber hecho). Despus,
a la hora de hacer las estimaciones a partir de los datos de la muestra que hemos obtenido, nos
tropezaremos con las consecuencias del error: por culpa de un tamao de muestra demasiado
pequeo, nuestras estimaciones sern ms errneas o ms imprecisas o ambas cosas a un
mismo tiempo.

Tamao de muestra -2-


Para evitar ese efecto indeseable, nos ponemos en la peor de las situaciones: la de la mxima
varianza que pueda ocurrir desde la informacin con que contamos. A esto se le llama postura
conservadora. Si nos equivocamos ser por exceso. Habremos implicado ms dinero o ms
tiempo de lo necesario, pero conseguiremos estimaciones tanto o ms precisas como lo deseado
y tanto o ms seguras de lo diseado. Mejor eso que lo contrario.

Qu valor tiene la varianza entonces, desde una perspectiva conservadora? Hemos de pensar
en una situacin lmite: la mxima varianza que se pueda obtener. En el caso de las proporciones
es fcil. La varianza de proporciones es p(1-p). Haz todas las pruebas que quieras, la varianza
mxima ocurre cuando p=0,5, lo que lleva a S2=0,5(1-0,5)=0,25. Asi que si no sabemos qu valor
tiene la varianza poblacional cuando estamos estimando proporciones, vale con la postura
conservadora de que S2=0,25.

En las medias aritmticas es ms complicado. Es muy difcil que el valor de la desviacin tipo
llegue a igualar el valor de la media aritmtica. Como la varianza es el cuadrado de la desviacin
tipo, lo que podemos hacer es imaginar un intervalo de valores esperables para la media de la
poblacin. Tomamos el lmite superior del intervalo y lo elevamos al cuadrado. He ah una
estimacin conservadora para la varianza poblacional. Por ejemplo, vamos a estimar el nmero de
peines que compra una persona en una poblacin, cada ao. No s nada sobre ello, pero dudara
que la media sea superior a 3. Entonces, podemos utilizar 32=9 como estimacin conservadora de
la varianza.

Error de precisin

Llamamos error de precisin al radio del intervalo de estimacin. Podemos pensar en ello con dos
formas diferentes para referirse a lo mismo:

La cantidad que se resta y se suma al estadstico o estimador para construir el intervalo de


confianza en cuyo interior esperamos que se encuentre el parmetro.
La mxima diferencia que cabe esperar que exista entre el estadstico y el parmetro.

Luego, a mayor error de precisin, menos precisin (ms imprecisin). El ideal es buscar la
mxima precisin posible (el mnimo valor para el error de precisin). Pero es lgico pensar que
conforme hacemos el intervalo ms pequeo, haya que exigir un tamao de muestra ms grande
o correr ms riesgo de equivocarse al suponer que el parmetro se encuentra dentro del intervalo.
Como el riesgo es algo que preferimos no tocas, est claro que la aspiracin de un error de
precisin mnimo debe buscarse mediante un tamao de muestra mximo, en las circunstancias
concretas donde se defina tal cosa.

Conforme aumenta el tamao de la muestra se obtienen valores de los estadsticos que deben
parecerse ms al valor del parmetro, si todo lo dems sigue igual. La tabla siguiente muestra
esta relacin, partiendo de una estimacin por intervalo de una proporcin, mediante un riesgo de
error de 0,05 y una poblacin de tamao 10 mil y varianza de 0,25.

ep 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10
n 4900 1937 965 567 370 260 193 148 118 96

Observa con qu velocidad se reduce el tamao de la muestra al aumentar el error de precisin.


Sin duda es una variable con gran sensibilidad. Entre otras razones, por esto mismo es la que
suele utilizarse para variar las consecuencias de un tamao de muestra diferente. Imagina que
aunque deseamos un error de precisin de valor 0,06, no tenemos dinero para 260 entrevistas. De
hecho, slo podramos costear 200. Pues no es muy grave si aceptamos igualmente un error de
precisin de valor 0,07.

Tamao de muestra -3-


Cmo decidir un valor concreto para ep? En principio hay que considerar la escala en la que se
mueve el parmetro. Si vamos a estimar una proporcin y sta creemos que ronda el 50%,
podramos considerar un buen intervalo, por ejemplo, de 45% a 55% (un error de precisin de
5%). Pero si la proporcin ronda un 3%, no tiene sentido sumarle y restarle 5%. Algo admisible en
este caso podra ser un error de precisin de valor 1%, que construye un intervalo del 2% al 4%,
entre otras posibilidades.

Como eso de plantearse la sensacin positiva de la amplitud de un intervalo es algo que roza lo
asombroso para muchas mentes y muchos corazones, podemos pensar en estrategias
aparentemente menos sentimentales. Una de ellas es considera un error de precisin que no vaya
ms all de un 10% del valor supuesto para el parmetro. Para una proporcin del 50%, un error
de precisin del 5%. Para una proporcin del 3%, un error de precisin de 0,3%. Si estimamos
una media aritmtica, pongamos que el nmero medio de litros de bebida alcohlica que se
consumen en una familia espaola durante las vacaciones de Navidad, y creemos que ese valor
debe encontrarse entre los 15 y 25 litros, utilizamos el centro (20 litros) como referencia y un error
de precisin de la dcima parte, es decir, de 2 litros.

La sugerencia del prrafo anterior slo tiene sentido en situaciones de prdida total de referentes,
que es lo que suele ocurrir, por ejemplo, cuando hay que hacer un trabajo para una asignatura. En
una situacin prctica se utilizan los referentes habituales. As, por ejemplo, si vamos a estimar el
nmero de escaos que va a ocupar un partido en el Congreso de los Diputados tras unas
elecciones generales, lo habitual es procurar un error de precisin no superior a 2 escaos.

Riesgo de error

Como ya sabemos, lo que llamamos familiarmente con riesgo de error es la expresin abreviada
de otra ms larga: riesgo de equivocarse al afirmar que el parmetro se encuentra en el intervalo
de confianza que se propone. Es un valor de probabilidad que, como todos los valores de
probabilidad, debe encontrarse entre 0 y 1.

Como ocurre con el error de precisin, es el equipo investigador quien decide un valor para el
riesgo de error. Cmo escogerlo? Sabemos que a mayor riesgo, menor tamao de muestra,
puesto que somos menos exigentes con la situacin. Lo ideal es no equivocarse, lo que es
imposible de garantizar. As que aspiramos al mnimo error en la prctica, lo que aconseja el
mximo tamao de muestra. Observa la relacin en la siguiente tabla, para estimacin de una
proporcin con una poblacin de 10 mil unidades, una varianza poblacional de 0,25 y un error de
precisin de 0,03.

riesgo 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10
n 1557 1307 1157 1049 965 895 836 785 740 700

Ya ves que su efecto no es tan drstico como el del error de precisin. Pero, volvamos a la
pregunta Cmo escoger un valor para el riesgo de error?

Lo suyo sera pensar en cules son las consecuencias que se derivan de equivocarse. Cuanto
ms graves o indeseables sean, menor tendr que ser el riesgo de llegar a ello. Imagina cul es el
valor de riesgo que consideraras en las siguientes ocasiones: 1) si te equivocas mueres pues
hablamos del riesgo de tener un accidente de trfico, 2) si te equivocas no tendrs el yogurt gratis,
pues hablamos de tomar una decisin sobre qu calle tomar para ir a la universidad sabiendo que
en las inmediaciones estn repartiendo yogurt.

En muchas ocasiones (como trabajos de asignaturas, como siempre), es difcil ponerse en


situacin y decidir un valor para el riesgo que sea adecuado a la conciencia de las consecuencias.
En estos casos acudimos a Fisher. Como sabes, Fisher fue un agrnomo que le complic la vida a

Tamao de muestra -4-


todos los estudiantes de estadstica desde que irrumpi en escena en el primer tercio del siglo XX.
Una de las ocurrencias que tuvo fue pensar cmo saber si una viejecita deca la verdad o no.
Aquella viejecita afirmaba que era capaz de distinguir si en un vaso de t con leche se haba
echado antes el t o la leche. Fisher pens que podra acertar por casualidad, pero que
demasiados aciertos seran indicador de verdad en la afirmacin. Finalmente decidi cuntas
tazas deba poner ante la seora y le sala, en el clculo, que con una probabilidad de
equivocarse del 5% podra rechazar la hiptesis de que la viejecita haba acertado por azar.
Desde entonces, nadie ha abierto la boca para decir otra cosa. Se considera que un riesgo de
0,05 es vlido por defecto. Si alguien osa tomar otra decisin se le preguntar por qu. Como no
queremos dar explicaciones, todo el mundo coge 0,05. Se admiten dos excepciones ms: 0,01
para mostrar que uno es muy exigente y */**, es decir, el nmero de asteriscos que suministra
SPSS, un programa de ordenador que se est utilizando como referente desde hace tiempo.
Sabemos que muchas personas deciden dejar de pensar cuando se les presenta la oportunidad
para ello. SPSS, un programa tonto de ordenador (como todos los programas de ordenador, por
definicin, desprovistos de inteligencia), suministra esa oportunidad. Realmente no es cierto, pero
mucha gente ha llegado a crerselo y si afirmas me lo dijo SPSS, suelen dejarte en paz.

Tamao y objetivos

Los estudios tienen varios objetivos de anlisis. En principio, habra que calcular un tamao de
muestra para cada objetivo. Imagina este caso: tenemos dos proporciones que estimar. Una
consideramos que ronda el valor 40% (es decir, una varianza de [0,4(1-0,4)=] 0,24; y un error de
precisin de [0,4/10=] 0,04). En una poblacin de tamao prcticamente infinito y un riesgo de
0,05, el tamao de muestra es n = 577. De la otra proporcin suponemos que tiene un valor en
torno al 10% (es decir, una varianza de [0,1(1-0,1)=] 0,09; y un error de precisin de [0,1/10=]
0,01). En una poblacin de tamao prcticamente infinito y un riesgo de 0,05, el tamao de
muestra es n = 3458. Qu hacemos?

Una postura conservadora aconseja tomar el tamao ms grande de entre todos los calculados.
En este caso es 3458. No obstante, puede ser muy exagerado. En tales situaciones, podemos
prescindir de los tamaos extremos, sabiendo que las estimaciones que realizaremos despus
para esos objetivos tendrn menos precisin o seguridad.

Como es temporalmente costoso calcular un tamao de muestra para cada objetivo, es raro que
se lleve a la prctica. Hay dos soluciones. Una es considerar el objetivo estrella o ms importante.
La otra es considerar que no tenemos ni idea de nada y adoptar una postura conservadora que
llevar hacia un tamao mximo de muestra.

Clculo de n con MAS

Existen varias utilidades que permiten calcular el tamao de una muestra. Hay de pago y gratis.
Las hay de Internet y de puesto local. Las hay en Windows y en otros sistemas. Las hay ms
claras y ms oscuras, con ms o menos situaciones de consideracin, etc.

Una de las utilidades de libre distribucin, pensadas para cubrir todas las situaciones expuestas
aqu, es MAS. Se puede bajar de

http://www.personal.us.es/vmanzano/distribuye/programas.htm

La siguiente figura muestra una pantalla tpica para MAS. Como observars, se encuentran todas
las variables consideradas: varianza de la poblacin, riesgo de error, error de precisin, tamao de
la poblacin y tamao de la muestra.

Hay dos aspectos interesantes para resaltar. El primero es que MAS sirve tambin para poner
cualquiera de las variables en funcin de las otras. Observa el recuadro de la derecha de la

Tamao de muestra -5-


ventana. Al marcar sobre la variable, sta se transforma en dependiente, su recuadro queda
marcado de amarillo y recibir los resultados de clculo que se establezcan sobre todas las
dems.

La segunda caracterstica de inters a resaltar es que MAS genera un informe donde consta la
situacin de partida, los valores de las variables independientes, la frmula de clculo y el
resultado. Se accede a esta generacin pulsando el botn Leer / Escribir y escogiendo la opcin
Generar.

En el ejemplo que se muestra en la pantalla, el resultado de la generacin del informe es el que


sigue:

MAS: Informacin de contexto y resultados

* Contexto:
Muestreo Aleatorio Simple desde una poblacin de tamao infinito.
Estimacin de una media o proporcin.
Supuesta una distribucin muestral normal.
Tiempo de interaccin: 01:43:14.

* Variables:
Variable dependiente: Tamao de la muestra (n)
Variables independientes:
Varianza poblacional (V) : 0,09
Distancia estandarizada (Z): 1,96
Probabilidad de error (p) : 0,05
Error de precisin (E) : 0,01

* Expresin de clculo:
n = V*Z/E
* Resultado: 3458

Tamao de muestra -6-

Das könnte Ihnen auch gefallen