Sie sind auf Seite 1von 3

UNIVERSIDAD NACIONAL JOS MARA

ARGUEDAS

Haciendo
Recomendaciones
INVESTIGACION
Ervin Lewis | tpicos especiales |

1. COEFICIENTE DE SIMILARIDAD DE TANIMOTO


El coeficiente de Tanimoto es una de las mtricas utilizadas para comparar la similaridad y
diversidad de conjuntos de pruebas. Utiliza la razn del conjunto interceptante al conjunto de
unin como la medida de similaridad. Es decir, es igual a cero si no hay elementos que
intercepten e igual a uno si todos los elementos interceptan.

2 En qu casos puede ser usada como una


mtrica de similaridad en lugar de la Distancia
Euclidiana?
La distancia eucldea es la disimilaridad ms conocida y ms sencilla de
comprender, pues su definicin coincide con el concepto ms comn de distancia.
Su expresin es la siguiente:

d (i,j) = (Wi - Wj )' (Wi - Wj)

La distancia eucldea, a pesar de su sencillez de clculo y de que verifica algunas


propiedades interesantes tiene dos graves inconvenientes:

El primero de ellos es que la eucldea es una distancia sensible a las


unidades de medida de las variables: las diferencias entre los valores de
variables medidas con valores altos contribuirn en mucha mayor medida
que las diferencias entre los valores de las variables con valores bajos.
Como consecuencia de ello, los cambios de escala determinarn, tambin,
cambios en la distancia entre los individuos. Una posible va de solucin de
este problema es la tipificacin previa de las variables, o la utilizacin de la
distancia eucldea normalizada.

El segundo inconveniente no se deriva directamente de la utilizacin de


este tipo de distancia, sino de la naturaleza de las variables. Si las variables
utilizadas estn correlacionadas, estas variables nos darn una informacin,
en gran medida redundante. Parte de las diferencias entre los valores
PGINA 1

individuales de algunas variables podran explicarse por las diferencias en


otras variables. Como consecuencia de ello la distancia eucldea inflar la
disimilaridad o divergencia entre los individuos.
La solucin a este problema pasa por analizar las componentes principales (que
estn incorrelacionadas) en vez de las variables originales. Otra posible solucin es
ponderar la contribucin de cada par de variables con pesos inversamente
proporcionales a las correlaciones, lo que nos lleva, como veremos a la utilizacin
de la distancia de Mahalanobis.
La distancia eucldea ser, en consecuencia, recomendable cuando las variables
sean homogneas y estn medidas en unidades similares y/o cuando se desconozca
la matriz de varianzas
La distancia de Tanimoto se podra utilizar para medidas de asociacin para variables y la
distancia euclidiana para medidas de asociacin para individuos.
Adems tanimoto realiza las comparaciones solo con ceros y unos en el caso de las
pelculas lo vio o no lo vio.

3 Implementacin en python
# Inputs: two lists
# Output: the Tanimoto Coefficient
def tanimoto (list1, list2):
intersection = [common_item for common_item in list1 if common_item in list2]
return float(len(c))/(len(a) + len(b) - len(c))

PGINA 2

Das könnte Ihnen auch gefallen