Sie sind auf Seite 1von 5

1.

LA NATURALEZA DE LA ESTADÍSTICA

Se ha convertido en una verdad común en el mundo de hoy que para aprender algo,
primero debe recopilar datos. Por ejemplo, el primer paso para aprender sobre cosas tales
como

1. El estado actual de la economía
2. El porcentaje de público votante que favorece una determinada propuesta
3. Los kilómetros promedio por litro de un automóvil recientemente desarrollado
4. La eficacia de un nuevo medicamento
5. La utilidad de una nueva forma de enseñar a leer a los niños en primaria

es recolectar datos relevantes.

Definición
La estadística es el arte de aprender de los datos. Se ocupa de la recopilación de datos, su
descripción posterior y su análisis, que a menudo conduce al establecimiento de
conclusiones.

1.2.1 Recopilación de datos

Algunas veces, un análisis estadístico comienza con un conjunto dado de datos; por
ejemplo, el gobierno regularmente recopila y publica datos sobre cantidades tales como la
tasa de desempleo y el producto interno bruto. La estadística se usaría para describir,
resumir y analizar estos datos.
En otras situaciones, los datos aún no están disponibles, y la estadística se puede utilizar
para diseñar un experimento apropiado para generar datos. El experimento elegido debe
depender del uso que uno quiera hacer de los datos. Por ejemplo, si recientemente se ha
desarrollado un medicamento para reducir el colesterol y se debe determinar su eficacia,
se reclutarán voluntarios y se anotarán sus niveles de colesterol. Luego se les administrará
el medicamento durante un cierto período, y sus niveles se medirán nuevamente. Sin
embargo, sería un experimento ineficaz si a todos los voluntarios se les administrara el
medicamento. Si esto fuera así, incluso si los niveles de colesterol de todos los voluntarios
se redujeran significativamente, no estaría justificado concluir que las mejoras se debieron
al medicamento utilizado y no a otra posibilidad. Por ejemplo, es un hecho bien
documentado que cualquier medicamento que reciba un paciente, ya sea que esté o no
directamente relacionado con el padecimiento de ese paciente, con frecuencia conducirá a
una mejoría en la condición del paciente. Este es el efecto placebo, que no es tan
sorprendente como podría parecer al principio, ya que la creencia de un paciente de que se
trata eficazmente a menudo conduce a una reducción del estrés, lo que puede resultar en
un mejor estado de salud. Además, podría haber habido otros factores, generalmente
desconocidos, que jugaron un papel en la reducción de los niveles de colesterol. Tal vez el
clima fue inusualmente cálido (o frío), lo que provocó que los voluntarios pasaran más o
menos tiempo al aire libre que de costumbre, y esto fue un factor. Por lo tanto, vemos que
el experimento que exige administrar el medicamento a todos los voluntarios no está bien
diseñado para generar datos a partir de los cuales podamos aprender sobre la eficacia de
ese medicamento.

Un mejor experimento es uno que trata de neutralizar todas las otras posibles causas
del cambio del nivel de colesterol excepto el medicamento. La forma aceptada de lograr
esto es dividir a los voluntarios en dos grupos; luego, un grupo recibe el medicamento, y el
otro grupo recibe una tableta (conocida como placebo) que se ve y sabe como el
medicamento, pero no tiene ningún efecto fisiológico. Los voluntarios no deben saber si
están recibiendo el verdadero medicamento o el placebo, y de hecho es mejor que los
médicos que supervisan el experimento tampoco lo sepan, por lo que sus propios sesgos no
tendrán un rol. Además, queremos que la división de los voluntarios en los dos grupos se
haga de tal manera que ninguno de los grupos se vea favorecido porque tiende a tener los
"mejores" pacientes. El mejor enfoque aceptado para organizar esto es dividir a los
voluntarios "al azar", donde con este término queremos decir que la separación se realiza
de tal manera que todas las opciones posibles de personas en el grupo que reciben el
medicamento son igualmente probables. El grupo que no recibe ningún tratamiento (es
decir, los voluntarios que reciben un placebo) se llama grupo de control.
Al final del experimento, los datos deben describirse. Por ejemplo, se deben presentar los
niveles de colesterol antes y después de cada voluntario, y el experimentador debe observar
si el voluntario recibió el medicamento o el placebo. Además, se deben determinar medidas
resumidas, como la reducción promedio del colesterol de los miembros del grupo de control
y los miembros del grupo de medicamentos.

Definición
La parte de la estadística relacionada con la descripción y el resumen de los datos se
denomina estadística descriptiva.

1.2.2 Estadística inferencial y modelos de probabilidad

Cuando se completa el experimento y se describen y resumen los datos, esperamos
poder llegar a una conclusión sobre la eficacia del medicamento. Por ejemplo, ¿podemos
concluir que es efectivo para reducir los niveles de colesterol en la sangre?

Definición
La parte de la estadística relacionada con el trazado de conclusiones a partir de los datos se
denomina estadística inferencial.

Para poder sacar una conclusión a partir de los datos, debemos tener en cuenta la
posibilidad del azar. Por ejemplo, supongamos que la reducción promedio en el colesterol
es menor para el grupo que recibe el medicamento que para el grupo de control. ¿Podemos
concluir que este resultado se debe al medicamento? ¿O es posible que el medicamento
sea realmente ineficaz y que la mejora fue solo una casualidad? Por ejemplo, el hecho de
que una moneda caiga cara 7 veces en 10 lanzamientos no necesariamente significa que es
más probable que la moneda caiga cara en futuros lanzamientos. De hecho, podría ser una
moneda perfectamente ordinaria que, por casualidad, acaba de caer cara 7 veces del total
de 10 lanzamientos. (Por otro lado, si la moneda cayera cara 47 veces de 50 lanzamientos,
entonces estaríamos bastante seguros de que no era una moneda ordinaria).
Para poder sacar conclusiones lógicas de los datos, generalmente es necesario hacer
algunas suposiciones sobre las posibilidades (o probabilidades) de obtener los diferentes
valores de datos. La totalidad de estos supuestos se conoce como un modelo de
probabilidad para los datos.
En ocasiones, la naturaleza de los datos sugiere la forma del modelo de probabilidad
que se supone. Por ejemplo, supongamos que los datos consisten en las respuestas de un
grupo seleccionado de individuos a una pregunta sobre si están a favor de una propuesta
de reforma de bienestar de un senador. Siempre que este grupo se haya seleccionado al
azar, es razonable suponer que cada persona consultada estaba a favor de la propuesta con
probabilidad p, donde p representa la proporción desconocida de todos los ciudadanos a
favor de la propuesta. Los datos resultantes se pueden usar para hacer inferencias sobre p.
En otras situaciones, el modelo de probabilidad apropiado para un conjunto de datos
determinado no será fácilmente aparente. Sin embargo, una descripción cuidadosa y la
presentación de los datos a veces nos permiten inferir un modelo razonable, que luego
podemos intentar verificar con el uso de datos adicionales.
Como la base de la inferencia estadística es la formulación de un modelo de
probabilidad para describir los datos, la comprensión de la inferencia estadística requiere
algún conocimiento de la teoría de la probabilidad. En otras palabras, la inferencia
estadística comienza con la suposición de que los aspectos importantes del fenómeno bajo
estudio se pueden describir en términos de probabilidades, y luego saca conclusiones
usando datos para hacer inferencias sobre estas probabilidades.

1.3 POBLACIONES Y MUESTRAS

En estadística, estamos interesados en obtener información sobre una colección
total de elementos, a los que nos referiremos como la población. La población a menudo es
demasiado grande para examinar a cada uno de sus miembros. Por ejemplo, podríamos
tener todos los residentes de un estado determinado, o todos los televisores producidos en
el último año por un fabricante en particular, o todos los hogares de una comunidad
determinada. En tales casos, tratamos de aprender sobre la población eligiendo y luego
examinando un subgrupo de sus elementos. Este subgrupo de una población se llama
muestra.

Definición
La colección total de todos los elementos que nos interesan se llama población.
Un subgrupo de la población que se estudiará en detalle se llama muestra.

Para que la muestra sea informativa sobre la población total, debe ser, en cierto
sentido, representativa de esa población. Por ejemplo, supongamos que estamos
interesados en conocer la distribución por edad de las personas que residen en una ciudad
determinada, y obtenemos las edades de las primeras 100 personas al ingresar a la
biblioteca de la ciudad. Si la edad promedio de estas 100 personas es de 46.2 años, ¿hay
justificación al concluir que esta es aproximadamente la edad promedio de toda la
población? Probablemente no, ya que sin duda podríamos argumentar que la muestra
elegida en este caso no es representativa de la población total, ya que generalmente los
estudiantes más jóvenes y las personas mayores usan la biblioteca más que los ciudadanos
en edad de trabajo. Tenga en cuenta que representativo no significa que la distribución por
edad de las personas en la muestra es exactamente la de la población total, sino que la
muestra se eligió de tal forma que todas las partes de la población tenían las mismas
oportunidades de ser incluidas en la muestra.
En ciertas situaciones, como la ilustración de la biblioteca, se nos presenta una
muestra y debemos decidir si esta muestra es razonablemente representativa de toda la
población. En la práctica, una muestra dada generalmente no puede considerarse
representativa de una población a menos que esa muestra se haya elegido de forma
aleatoria. Esto se debe a que cualquier regla no aleatoria específica para seleccionar una
muestra a menudo resulta en una que está inherentemente sesgada hacia algunos valores
de datos en oposición a otros.

Definición
Se dice que una muestra de k miembros de una población es una muestra aleatoria, a veces
llamada muestra aleatoria simple, si los miembros se eligen de tal manera que todas las
elecciones posibles de los k miembros sean igualmente probables.

Por lo tanto, aunque pueda parecer paradójico, lo más probable es que obtengamos
una muestra representativa eligiendo sus miembros de una manera totalmente aleatoria
sin ninguna consideración previa de los elementos que se elegirán. En otras palabras, no
debemos intentar elegir deliberadamente la muestra para que contenga, por ejemplo, el
mismo porcentaje de género y el mismo porcentaje de personas en cada profesión que se
encuentra en la población general. Más bien, deberíamos dejarlo como una "posibilidad"
de obtener aproximadamente los porcentajes correctos. Una vez que se elige una muestra
aleatoria, podemos usar la inferencia estadística para sacar conclusiones sobre toda la
población mediante el estudio de los elementos de la muestra.

* 1.3.1 Muestreo aleatorio estratificado

Un enfoque de muestreo más sofisticado que el muestreo aleatorio simple es el
enfoque de muestreo aleatorio estratificado. Este enfoque, que requiere más información
inicial sobre la población que el muestreo aleatorio simple, se puede explicar de la siguiente
manera. Considere una escuela secundaria que contiene 300 estudiantes en la clase de
primer año, 500 en la clase de segundo año y 600 cada uno en las clases de tercer y cuarto
año. Supongamos que para aprender sobre el sentir de los estudiantes con respecto a un
reclutamiento militar para jóvenes de 18 años, se realizará una entrevista en profundidad a
100 estudiantes. En lugar de elegir al azar a 100 personas de los 2000 estudiantes, en una
muestra estratificada se calcula cuántos se pueden elegir de cada clase. Como la proporción
de estudiantes de primer año es 300/2000 = 0.15, en una muestra estratificada, el
porcentaje es el mismo y, por lo tanto, hay 100 × 0.15 = 15 estudiantes de primer año en la
muestra. De manera similar, uno selecciona 100 × 0.25 = 25 estudiantes de segundo año y
100 × 0.30 = 30 estudiantes de tercer año y 30 de cuarto año. Luego uno selecciona
estudiantes de cada clase al azar.
En otras palabras, en este tipo de muestra, primero la población se estratifica en
subpoblaciones, y luego se elige al azar el número correcto de elementos de cada una de
las subpoblaciones. Como resultado, las proporciones de los miembros de la muestra que
pertenecen a cada una de las subpoblaciones son exactamente las mismas que las
proporciones para la población total. La estratificación es particularmente efectiva para
aprender sobre el miembro "promedio" de toda la población cuando existen diferencias
inherentes entre las subpoblaciones con respecto a la cuestión de interés. Por ejemplo, en
la encuesta anterior, los estudiantes de grados superiores, al ser mayores, se verían más
inmediatamente afectados por un reclutamiento militar que los estudiantes de grados
inferiores. Por lo tanto, cada clase podría sentirse inherentemente diferente sobre el
reclutamiento, y la estratificación sería efectiva para aprender acerca del sentir del
estudiante promedio.


Tomado de: Introducción a la Estadística, Sheldon M. Ross, Ed. Reverté (2007)