Sie sind auf Seite 1von 6

RESEA PAPER 2

UN MTODO PARA REESCRIBIR LAS ESTADSTICAS INDIVIDUALES EN LA LIGA ACB DE


BALONCESTO.

En esta investigacin presentamos una nueva forma de interpretar las estadsticas individuales de la
Liga ACB de baloncesto. Para ello, proponemos un enfoque probabilstico de los nmeros
individuales obtenidos por cada jugador al final de la temporada regular. Esto convierte a cada valor
conseguido en un estimador del valor real terico, por lo que tiene un error asociado que, en funcin
de su magnitud, influye en los rankings de lderes estadsticos de la ACB. Asimismo, realizamos
una aproximacin paramtrica para cuantificar un tamao de error mximo admisible, que debe
servir como criterio para considerar si un jugador debe ser incluido en los rankings de cada apartado
estadstico. Dada la importancia creciente que la utilizacin de la estadstica est teniendo en el
baloncesto profesional, este mtodo presenta una contribucin novedosa al anlisis del desempeo
de los jugadores, anlisis que repercute en su valor econmico y meditico, es decir, en el valor de
mercado de stos. Palabras clave: Estadsticas, baloncesto, Liga ACB, valor de mercado

Todo este boom estadstico influye de manera importante en el valor de mercado de los
jugadores. Muchos de los sistemas estadsticos creados estn enfocados a la valoracin del
desempeo del jugador a travs de diferentes ndices (en www.nbastuffer.com pueden consultarse
muchos de ellos). No existe homogeneidad en el uso de los ndices de valoracin de jugadores entre
las diferentes ligas, quienes de forma oficial, proveen sistemas de valoracin que difieren en la
frmula de clculo. As, por ejemplo, los sistemas de las ligas espaola, griega, o francesa, difieren
entre si.

El objetivo de esta investigacin es proponer un mtodo general de estimacin de las estadsticas


individuales de cada jugador al final de la temporada, con el fin de buscar un criterio probabilstico
para construir la clasificacin en cada apartado estadstico. Como veremos, la aplicacin de este
mtodo en las clasificaciones de la ACB en las para la temporada 2008/2009 produce variaciones
importantes en algunas de ellas, lo que indica que algunos jugadores podran haberse beneficiado
desde el punto de vista profesional (valor econmico), haciendo los mismos o menores mritos que
otros jugadores que no habran obtenido esa recompensa.

ASPECTOS RELEVANTES

Descripcin del mtodo Sea {X1... ... X X j k} el conjunto de las k caractersticas de una poblacin
N a estudiar, por ejemplo los puntos o las asistencias que un jugador promedia por temporada. El
tamao de la poblacin es igual al nmero de partidos de los que se compone la competicin sobre
la que pretende realizar la clasificacin estadstica. En el caso de la ACB, en la ltima temporada
(2008/2009) el tamao de N = 32 . Para cada jugador, la caracterstica X j sigue una distribucin Fj
de probabilidad caracterizada por los parmetros media ( j ) y desviacin tpica ( j ). De este
modo, (, ) X F j jjj es una variable aleatoria continua, cuya forma de distribucin, media y
desviacin tpica son en principio desconocidos, y caractersticos de cada jugador. Los partidos
realmente disputados por el jugador constituyen la muestra n, siendo necesariamente n N . Cada
valor i j x de la muestra 1 ( ... ... ) j ij nj x x x se distribuye idnticamente a X j , siendo ( ) j ij f x el
valor de su funcin de densidad, y ( ) F x j ij el valor de su funcin de distribucin. La funcin de
densidad conjunta es 1 1 ( ... ... ) ( ) n j j ij nj j ij i f x x x fx = = y la funcin de distribucin
acumulada () () ij x Fj ij j j j x f x dx = indica la probabilidad de que la caracterstica
poblacional sea menor o igual que el valor ij x . De este modo, podemos definir el conjunto q de
jugadores {PP P 1... ... p q } de la Liga ACB, donde cada jugador P p tiene asociado el conjunto de
caractersticas a estudiar, las cuales tienen una distribucin desconocida y caracterizada por una
media y una varianza. Adems, cada jugador compite en la misma liga, que tiene un nmero finito
de partidos, de los que disputa una muestra menor o igual a ese nmero, y de la que se obtienen las
realizaciones muestrales. Formalmente (1): 1... 1... 1... ( ; ; ; ; ;; ) p k j j j ij p q j k i n P X F Nnx
= = = (1) Una vez definido el conjunto de las k caractersticas a estudiar, el valor de N es
evidentemente conocido e idntico para todos los jugadores, siendo p n tambin conocido (el
nmero de partidos que disputa cada jugador). Los valores de ijp x son los datos individuales que
reporta la Liga ACB para cada jugador, y por tanto tambin estn determinados. Llegados a este
punto, estamos interesados en conocer jp , ya que las clasificaciones de cada apartado estadstico
son un ranking descendente de jp . La mejor forma de estimar jp es a travs de jp x , es decir, a
travs del valor esperado de la distribucin muestral. Cuando n N = , jp jp x = , es decir, la
distribucin de la poblacin y la muestra es idntica, por lo que la media muestral coincide
perfectamente con la media poblacional. 7 Sin embargo, cuando n N , jp x es el estimador mximo
verosmil e insesgado de jp , pero existe un error Ejp asociado a la estimacin. Ese error depende
de la confianza C de la estimacin, de la desviacin tpica poblacional jp , y de los tamaos de la
muestra y de la poblacin. As, se puede construir un intervalo de confianza (, ) L Ujp jp aleatorio
sobre jp de tal forma (2): Pr( ) L UC jp jp jp = (2) siendo Ljp jp jp = x E y U xE jp jp jp =
+ . Estableciendo un valor para C, usualmente 95%, el intervalo de confianza indica que contendr
al parmetro poblacional 95 de cada 100 muestras aleatorias. El par(, ) L Ujp jp es tambin una
variable aleatoria, por lo que la delimitacin de los intervalos de confianza depende de la muestra
que se analice. Una consecuencia de la interpretacin anterior es que cualquier valor constante
poblacional que se quiera comparar con jp , ser considerado estadsticamente igual si ( ) L U jp
jp . Sin embargo, si la comparacin se realiza con otro estadstico jp que es un estimador de
un parmetro poblacional con 0 Ejp > , se requiere un test estadstico para determinar si existen
diferencias entre ambos. De este modo, si se quieren comparar las estadsticas de dos jugadores {P
P1 2 , } para una categora k determinada del juego se pueden dar dos opciones: (a) comparacin
directa de las medias poblacionales si 1 2 nn N = = ; (b) comparacin estadstica entre las medias
cuando 1 2 nn N . El problema de este enfoque estadstico es que Ejp se incrementa a medida
que la muestra es ms pequea y la desviacin tpica ms grande. Como el nivel de confianza
conviene que se establezca igual para todas las estimaciones, y N es invariante, el tamao del error
en el caso de nuestro estudio depende nicamente de p n y jp . Errores grandes no son
permisibles, porque hacen que el intervalo de confianza de la estimacin sea ms ancho, lo que
perjudicara la claridad de las comparaciones entre jugadores. Este hecho hara que, desde el punto
de vista estadstico, no se tuviese potencia suficiente para detectar diferencias entre jugadores. Por
tanto, lo ideal sera calcular un tamao de muestra mnimo para acotar el error cometido en la
estimacin en un mximo admisible. Como la desviacin tpica es especfica para cada jugador y
caracterstica a analizar, sera arriesgado tomar como referencia una desviacin poblacional
promedio. De este modo, se necesita estimar jp .

Una vez realizada las estimaciones de la media poblacional para cada jugador y en cada categora
estadstica, se ha de proceder a la clasificacin de los jugadores, es decir, la creacin de un ranking
descendente. El primer paso sera la eliminacin de aquellos jugadores cuyas estimaciones
produzcan un error por encima del mximo admisible, como hemos explicado anteriormente. Tras
realizar esos descartes, la clasificacin debe obedecer tambin a criterios de inferencia estadstica,
es decir, por ejemplo, a la hora de comparar los puntos obtenidos por dos jugadores, habra que
realizar un test estadstico que ayude a dilucidar si ambas puntuaciones pueden considerarse
estadsticamente iguales o no. La comparacin entre los diferentes jugadores para cada apartado
estadstico obedecera a un problema de comparaciones mltiples. Esta clase de problemas se suele
resolver a travs de tests mnibus, como el test F de Snedecor en el Anlisis de la Varianza. Este
tipo de tests han sido criticados por su poca capacidad para detectar los efectos de inters y por
proporcionar informacin demasiado general y poco til sobre la existencia de esos efectos (ej.
Cohen, 1990; Rosenthal, Rosnow y Rubin, 2000; Rosnow y Rosenthal, 1996). As, se recomienda
utilizar contrastes enfocados, basados en la distribucin t de Student, analizando las relaciones de
inters a travs de la utilizacin de ponderaciones lineales (ej. Olegnik y Algina, 2000; Rosnow y
Rosenthal, 1996), o los anlisis post-hoc para controlar el error Tipo I, como los ajustes de
Bonferroni, Scheff, Newman-Keuls, etc. (ej. Casas, 1997; Curran-Everett, 2000). Esta ltima
opcin ha sido criticada por cierto grupo de investigadores (ej. Anderson, Burnham y Thompson,
2000; Cohen, 1990), debido el conservadurismo de alguno de estos mtodos y la distraccin que
producen sobre el cmputo de la magnitud de inters, es decir, del tamao del efecto o diferencia
sustantiva entre los tratamientos. 11 De cualquier modo, el caso del estudio que nos ocupa tiene
unas particularidades que difieren del uso ms tradicional de los mtodos estadsticos para el
anlisis de experimentos. En este caso, las diferencias entre los distintos jugadores no proceden del
efecto de ningn tratamiento. As, los contrastes enfocados del tipo de anlisis de tendencia por
ordenacin de intensidad en la aplicacin de los tratamientos (ej. Rosenthal, Rosnow y Rubin,
2000) no tienen mucho sentido. Lo que realmente interesa es enfocar las comparaciones entre los
jugadores con puntuaciones similares, pero sin utilizar el clsico contraste de hiptesis mltiple,
donde la hiptesis nula es la igualdad de las puntuaciones de todos los jugadores. Esta premisa es
inadecuada porque es obvio que van a existir diferencias entre los mejores y los peores jugadores en
cada categora. Como bien explica Rothman (1990), la paradoja de penalizar estadsticamente la
claridad de los contrastes dos a dos por el simple hecho de manejar ms informacin no debe
aceptarse. En este caso, no debera penalizarse la comparacin entre dos jugadores (a travs de
ajustes tipo Bonferroni, Holms, Simes-Hochberg, Hommel, etc.) por considerar que estn dentro del
conjunto de todos los jugadores de la liga, al menos, sin un modelo terico detrs. Las reflexiones
de Rothman (1990), tambin apoyadas por Savitz y Olsan (1998), Mayo y Cox (2006), o Rothman,
Greenland y Lash (2008), estn relacionadas con la disyuntiva sobre el uso conveniente de los
contrastes de hiptesis en la perspectiva frecuentista sobre probabilidad, que ha llevado a un gran
nmero de autores a recomendar la utilizacin de los ndices de tamao de efecto en lugar del
clsico p-valor asociado a un contraste de hiptesis (ver la revisin realizada por Nickerson, 2000).
La forma de proceder que proponemos en esta investigacin para realizar el ranking en cada
categora es la simple ordenacin del tamao de efecto resultante de la comparacin por pares de
jugadores, realizando una previa ordenacin basada en la estimacin puntual de sus valores medios.
As, los jugadores se ordenan de modo descendente tal y como la ACB lo hace actualmente, y
despus se calcula el tamao de efecto de forma jerarquizada para analizar las posibles diferencias
entre pares de jugadores, y entre cada uno de ellos con respecto al lder de la categora. Esta forma
de proceder, da una visin prctica de distancia para los jugadores de cada apartado estadstico.
Como ndice de tamao de efecto podemos utilizar la propia diferencia de medias (Cohen, 1990),
ya que no sera estrictamente necesario estandarizar esa diferencia (caso de la d de Cohen (1988)),
porque las puntuaciones de cada categora tienen un significado propio no arbitrario. De este modo
(8): j j 1 2 = (8) El siguiente paso es establecer qu tamao de efecto consideramos como
relevante, es decir, cul es el valor de que discrimine a dos jugadores. Una solucin obvia es
establecer > 0 , lo que significara que cualquier valor decimal diferente entre las puntuaciones de
dos jugadores hara que ambos fuesen considerados en diferente lugar en el ranking. Sin embargo,
esta solucin no nos parece atinada. La ACB clasifica a los jugadores usando slo un decimal, por
lo que se podra tomar ese decimal como valor de . Esta nueva solucin parece en principio ms
acertada. As, por ejemplo, si un jugador anotase 707 puntos en 32 partidos y otro 704 en esos
mismos partidos, = < 0.093 0.1, por lo que ambos jugadores compartiran la misma posicin en el
12 ranking. Es una tolerancia que resulta bastante lgica, y estara en consonancia con la filosofa
del anlisis de la importancia prctica de los efectos (ej. Meehl, 1990). Por tanto, si a dos jugadores
en toda una temporada slo les separa una canasta, es lgico pensar que ambos son igualmente
ptimos para ocupar la misma posicin en el ranking. Para discernir si dos jugadores ocupan la
misma posicin en el ranking se puede construir un contraste de la forma siguiente (9): 01 2 11 2 :
0.1 : 0.1 j j j j H H < = < (10) El valor del error estndar de la diferencia de
medias 1_2 jp SE , puede ser estimado utilizando la ponderacin de varianzas en el caso de
homogeneidad (ver Casas, 1997), o mtodos aproximados (ej. Welch) en situaciones de
heterocedasticidad (ver Grissom y Kim, 2005). Como mostrar ms adelante la exploracin de
datos, la situacin realista es la heterocedstica, por lo que los diferentes mtodos propuestos (ver
Vegas, 1997; Belloni y Didier, 2008) podran ser implementados. No obstante, esos mtodos
(algunos de ellos de clculo muy complejo), no contemplan en su desarrollo la situacin en las que
la muestra es muy similar a la poblacin, es decir, cuando el error tpico de la media se ve corregido
por el factor de finitud N njp F N = . La aproximacin de Welch (la ms utilizada), requiere una
correccin del estadstico t de Student, el cual se recomienda en el caso de desconocer las varianzas
poblacionales. As, la computacin del error estndar y de los grados de libertad sera (11) 13 1_2 2
2 1 2 1 2 1 2 2 2 2 1 2 1 2 1 2 2 2 2 2 1 2 1 2 1 2 1 2 1 1 jp S S SE F F n n S S F F n n S S F F n n n
n = + + = + (11) La comparacin de jugadores
dos a dos podra a primera vista parecer coherente para establecer las posiciones en el ranking
descendente. Sin embargo, surge un problema derivado del concepto de distancia y la problemtica
de las comparaciones estadsticas mltiples. Sean dab (,) , dbc (,), dac (,) las distancias entre tres
posiciones consecutivas (y por ende distintas) en un ranking. Es decir, si estadsticamente a b = ,
entonces dab (,) 0 = , por lo que ambos jugadores ocuparan la misma posicin del ranking. Sin
embargo, si a b , dab (,) 1 = , por lo que las posiciones seran diferentes. El problema surge
cuando se quieran comparar tres jugadores con valores medios muy parecidos, lo que obligara a
varios test dos a dos. As, si las comparaciones estadsticas nos dan el siguiente patrn: a b = , b c
= , y a c , entonces ocurre una paradoja, y es que dab (,) 0 = , ( , ) 0 dbc = y ( , ) 1 dac = , lo que
desde el punto de vista cartesiano es incongruente, ya que si ( , ) 0 dab = y ( , ) 0 dbc = , entonces ( ,
) dac debera ser tambin cero. Esta paradoja que surge de las particularidades de la inferencia
estadstica no debe tampoco aceptarse, porque las posiciones relativas en el ranking de dos
jugadores no deben depender de la comparacin con un tercero, es decir, ( , ) dbc debera ser
independiente de ( , ) dab .

Das könnte Ihnen auch gefallen