Sie sind auf Seite 1von 4

¿Quién fue el creador de la t de Student?

Seguro que muchos habéis respondido algo parecido después de leer el título. Y sí, tenéis
razón, pero, ¿quién era Student? Pues en realidad Student no era el nombre o el apellido del
responsable de esta distribución de probabilidad, sino que era un seudónimo. El verdadero
nombre del creador de la t de Student es William Sealy Gosset, y todo lo que rodeó al
desarrollo de la misma y a la utilización de un seudónimo conforma una historia cuanto menos
curiosa.

William Sealy Gosset, alias StudentLa distribución t de Student es una distribución de


probabilidad asociada a la distribución normal. Aparece cuando se quiere estimar la media de
una población distribuida según una normal cuando el tamaño de la muestra utilizada para la
estimación es pequeño y la varianza de la población es desconocida. Se define de la siguiente
forma:

t=\cfrac{Z}{\sqrt{\chi ^2/n}}

donde Z \rightsquigarrow N(0,1), esto es, una normal con esperanza 0 y desviación típica 1,
\chi ^2 es una distribución Chi-cuadrado (otra distribución de probabilidad asociada a la
normal) y n son los grados de libertad de dicha \chi ^2.

La historia del desarrollo de esta distribución de probabilidad es, como decíamos al principio,
cuanto menos curiosa. William Sealy Gosset era un matemático y químico inglés que después
de terminar sus estudios comenzó a trabajar en las destilerías Guinness (sí, sí, las de la famosa
cerveza) en lo que se refiere a control de calidad en el proceso de creación de la cerveza. Los
bajos tamaños de muestra con los que habitualmente contaba fueron los «culpables» de sus
estudios, y los que a la postre lo llevaron a desarrollar la distribución t. En 1908, cuando
contaba con 32 años, publicó el artículo The probable error of a mean en la revista Biometrika,
pero no con su nombre, sino con el seudónimo Student.

¿Por qué un seudónimo? Pues, como suele pasar en estos casos, hay varias teorías que
intentan explicarlo. La primera de ellas, y al parecer la más extendida, dice que la razón
principal fue que Guinness había sufrido anteriormente una fuga de información por una
publicación de un empleado, por lo que prohibió a su plantilla publicar artículos,
independientemente de la temática del mismo. La continuación de la historia depende de la
fuente consultada: algunas dicen que Gosset utilizó el seudónimo «Student» para que
Guinness no descubriera que un empleado suyo había publicado un artículo; otras comentan
que Gosset llegó a un acuerdo con la cervecera para publicarlo (les convenció de que el
contenido del artículo no sería útil para la competencia), pero la empresa le pidió que usara un
seudónimo para que el resto de empleados no tuvieran conocimiento de dicha publicación.

La segunda teoría asegura que la utilización del seudónimo Student se debió a que Guinness
quería guardar en secreto que tenía a un estadístico trabajando para ellos para que la
competencia no tuviera constancia de la ventaja industrial que estaba adquiriendo con ello.

Sea como fuera, la historia de la utilización del seudónimo Student por parte de William Sealy
Gosset es cuanto menos peculiar, de eso no hay ninguna duda.
Historia

El estadístico t fue introducido por William Sealy Gosset en 1908, un químico que trabajaba
para la cervecería Guinness de Dublín. Student era su seudónimo de escritor.123 Gosset había
sido contratado gracias a la política de Claude Guinness de reclutar a los mejores graduados de
Oxford y Cambridge, y con el objetivo de aplicar los nuevos avances en bioquímica y estadística
al proceso industrial de Guinness.2 Gosset desarrolló el test t como una forma sencilla de
monitorizar la calidad de la famosa cerveza stout. Publicó su test en la revista inglesa
Biometrika en el año 1908, pero fue forzado a utilizar un seudónimo por su empleador, para
mantener en secreto los procesos industriales que se estaban utilizando en la producción.
Aunque de hecho, la identidad de Gosset era conocida por varios de sus compañeros
estadísticos.4

Usos

Entre los usos más frecuentes de las pruebas t se encuentran:

El test de posición de muestra única por el cual se comprueba si la media de una población que
se conoce posee una distribución normal, tiene un valor especificado en una hipótesis nula.

El test de posición para dos muestras, por el cual se comprueba si las medias de dos
poblaciones distribuidas en forma normal son iguales. Todos estos test son usualmente
llamados test t de Student, a pesar de que estrictamente hablando, tal nombre sólo debería
ser utilizado si las varianzas de las dos poblaciones estudiadas pueden ser asumidas como
iguales; la forma de los ensayos que se utilizan cuando esta asunción se deja de lado suelen ser
llamados a veces como Prueba t de Welch. Estas pruebas suelen ser comúnmente nombradas
como pruebas t desapareadas o de muestras independientes, debido a que tienen su
aplicación más típica cuando las unidades estadísticas que definen a ambas muestras que
están siendo comparadas no se superponen.5

El test de hipótesis nula por el cual se demuestra que la diferencia entre dos respuestas
medidas en las mismas unidades estadísticas es cero. Por ejemplo, supóngase que se mide el
tamaño del tumor de un paciente con cáncer. Si el tratamiento resulta efectivo, lo esperable
sería que el tumor de muchos pacientes disminuyera de tamaño luego de seguir el
tratamiento. Esto con frecuencia es referido como prueba t de mediciones apareadas o
repetidas.56

El test para comprobar si la pendiente de una regresión lineal difiere estadísticamente de cero.

Estadísticos T y 0

La mayor parte de las pruebas estadísticas t tienen la forma {\displaystyle T={\frac {Z}{s}}}
{\displaystyle T={\frac {Z}{s}}}, donde Z y s son funciones de los datos estudiados. Típicamente,
Z se diseña de forma tal que resulte sensible a la hipótesis alternativa (p.ej. que su magnitud
tienda a ser mayor cuando la hipótesis alternativa es verdadera), mientras que s es un
parámetro de escala que permite que la distribución de T pueda ser determinada.
Por ejemplo, en una prueba t de muestra única, {\displaystyle Z={\frac {\bar {X}}{\frac {\sigma
}{\sqrt {n}}}}} {\displaystyle Z={\frac {\bar {X}}{\frac {\sigma }{\sqrt {n}}}}}, donde {\displaystyle
{\bar {X}}} \bar{X} es la media muestral de los datos, n es el tamaño muestral, y σ es la
desviación estándar de la población de datos; s en una prueba de muestra única es
{\displaystyle {\hat {\sigma }}/\sigma } {\displaystyle {\hat {\sigma }}/\sigma }, donde
{\displaystyle {\hat {\sigma }}} {\displaystyle {\hat {\sigma }}} es la desviación estándar
muestral.

Las suposiciones subyacentes en una prueba t son:

Que Z sigue una distribución normal bajo la hipótesis nula.

ps2 sigue una distribución χ2 con p grados de libertad bajo la hipótesis nula, y donde p es una
constante positiva.

Z y s son estadísticamente independientes.

En una prueba t específica, estas condiciones son consecuencias de la población que está
siendo estudiada, y de la forma en que los datos han sido muestreados. Por ejemplo, en la
prueba t de comparación de medias de dos muestras independientes, deberíamos realizar las
siguientes suposiciones:

Cada una de las dos poblaciones que están siendo comparadas sigue una distribución normal.
Esto puede ser demostrado utilizando una prueba de normalidad, tales como una prueba
Shapiro-Wilk o Kolmogórov-Smirnov, o puede ser determinado gráficamente por medio de un
gráfico de cuantiles normales Q-Q plot.

Si se está utilizando la definición original de Student sobre su prueba t, las dos poblaciones a
ser comparadas deben poseer las mismas varianzas, (esto se puede comprobar utilizando una
prueba F de igualdad de varianzas, una prueba de Levene, una prueba de Bartlett, o una
prueba Brown-Forsythe, o estimarla gráficamente por medio de un gráfico Q-Q plot). Si los
tamaños muestrales de los dos grupos comparados son iguales, la prueba original de Student
es altamente resistente a la presencia de varianzas desiguales.7 La Prueba de Welch es
insensible a la igualdad de las varianzas, independientemente de si los tamaños de muestra
son similares.

Los datos usados para llevar a cabo la prueba deben ser muestreados independientemente
para cada una de las dos poblaciones que se comparan. Esto en general no es posible
determinarlo a partir de los datos, pero si se conoce que los datos han sido muestreados de
manera dependiente (por ejemplo si fueron muestreados por grupos), entonces la prueba t
clásica que aquí se analiza, puede conducir a resultados erróneos.

Pruebas t para dos muestras apareadas y desapareadas

Las pruebas-t de dos muestras para probar la diferencia en las medias pueden ser
desapareadas o en parejas. Las pruebas t pareadas son una forma de bloqueo estadístico, y
poseen un mayor poder estadístico que las pruebas no apareadas cuando las unidades
apareadas son similares con respecto a los "factores de ruido" que son independientes de la
pertenencia a los dos grupos que se comparan.[cita requerida] En un contexto diferente, las
pruebas-t apareadas pueden utilizarse para reducir los efectos de los factores de confusión en
un estudio observacional.

Desapareada

Las pruebas t desapareadas o de muestras independientes, se utilizan cuando se obtienen dos


grupos de muestras aleatorias, independientes e idénticamente distribuidas a partir de las dos
poblaciones a ser comparadas. Por ejemplo, supóngase que estamos evaluando el efecto de un
tratamiento médico, y reclutamos a 100 sujetos para el estudio. Luego elegimos
aleatoriamente 50 sujetos para el grupo en tratamiento y 50 sujetos para el grupo de control.
En este caso, obtenemos dos muestras independientes y podríamos utilizar la forma
desapareada de la prueba t. La elección aleatoria no es esencial en este caso, si contactamos a
100 personas por teléfono y obtenemos la edad y género de cada una, y luego se utiliza una
prueba t bimuestral para ver en que forma la media de edades difiere por género, esto
también sería una prueba t de muestras independientes, a pesar de que los datos son
observacionales.

Apareada

Las pruebas t de muestras dependientes o apareadas, consisten típicamente en una muestra


de pares de valores con similares unidades estadísticas, o un grupo de unidades que han sido
evaluadas en dos ocasiones diferentes (una prueba t de mediciones repetitivas). Un ejemplo
típico de prueba t para mediciones repetitivas sería por ejemplo que los sujetos sean
evaluados antes y después de un tratamiento.

Una prueba 't basada en la coincidencia de pares muestrales se obtiene de una muestra
desapareada que luego es utilizada para formar una muestra apareada, utilizando para ello
variables adicionales que fueron medidas conjuntamente con la variable de interés.8

La valoración de la coincidencia se lleva a cabo mediante la identificación de pares de valores


que consisten en una observación de cada una de las dos muestras, donde las observaciones
del par son similares en términos de otras variables medidas. Este enfoque se utiliza a menudo
en los estudios observacionales para reducir o eliminar los efectos de los factores de
confusión.

Das könnte Ihnen auch gefallen