Beruflich Dokumente
Kultur Dokumente
Aceitao / Aceptacin:
14/10/2011
09/12/2011
Espaa.
2 Departamento de Ingeniera Telemtica, Universidad de Las Palmas de Gran Canaria, Campus
Universitario de Tafira, 35017 - Las Palmas de Gran Canaria, Espaa.
1. Introduccin
Hoy en da la informacin se ha convertido en un recurso estratgico de primer orden
para las organizaciones, que obtienen y almacenan grandes volmenes de datos de
diversas fuentes y de manera automtica. En estos casos, los sistemas de clasificacin
RISTI, N. 8, 12/2011
39
40
RISTI, N. 8, 12/2011
RISTI
Revista Ibrica de Sistemas e Tecnologias de Informao
2. Trabajo relacionado
El Modelo de Espacio Vectorial, siendo una aproximacin vlida a la clasificacin de
textos, presenta ciertos inconvenientes que se han intentado subsanar. Estos intentos
han ido encaminados a enriquecer con conocimiento externo la bolsa de palabras,
aadindole nuevos elementos.
En los ltimos aos, por el tamao y notoriedad que ha alcanzado, ese conocimiento
extra se ha buscado en la Wikipedia (Strube & Ponzetto, 2006), (Gabrilovich &
Markovitch, 2006), (Chang, Ratinov, Roth & Srikumar, 2008), (Wang, Hu, Zeng &
Chen, 2009). Pero el uso de la Wikipedia para la construccin de ontologas o de
relaciones semnticas tiene una serie de obstculos importantes. En general se
considera que un artculo de la Wikipedia es un concepto per se, aunque esto no sea
cierto siempre. Los artculos entre ellos tienen una estructura de enlaces entrantes y
salientes, que permite construir una estructura de relaciones entre conceptos, ya sean
estas relaciones jerrquicas o semnticas.
En (Strube & Ponzetto, 2006) se centran en medir la relacin entre dos conceptos
usando la Wikipedia. Aunque no se centra en la clasificacin de texto, este trabajo si es
interesante para resaltar que los artculos son descripciones de los conceptos a los que
se refiere.
En (Gabrilovich & Markovitch, 2006) se relacionan los trminos de los documentos a
clasificar con conceptos de la Wikipedia. Para extraer los conceptos de la Wikipedia, se
siguen una serie de pasos: se eliminan los artculos que no son conceptos, se eliminan
las palabras raras (presentes en menos de tres artculos), stop words, y se realiza el
stemming sobre el resto. Del texto a clasificar se toman sucesivamente diferentes
elementos y con ellos se van buscando los conceptos relevantes. Posteriormente, la
bolsa de palabras se ve enriquecida con estos nuevos conceptos y finalmente se decide
la categora a la que pertenece.
RISTI, N. 8, 12/2011
41
42
RISTI, N. 8, 12/2011
RISTI
Revista Ibrica de Sistemas e Tecnologias de Informao
3. Proceso de clasificacin
Para el proceso de clasificacin propuesto es necesario realizar el trabajo previo de
preparacin del contenido de la Wikipedia. ste se encuentra disponible para su
descarga va Web. Debido a que no toda la informacin existente resulta til para
nuestro propsito, es necesario realizar un filtrado con objeto de identificar los
artculos y desechar el resto de informacin.
Los artculos identificados se almacenan en una tabla, con objeto de utilizar las
funcionalidades de indexacin y bsqueda de texto completo de MySQL. MySQL
mantiene un ndice numrico para cada trmino (ndice Full-Text) que constituye una
variante del tf-idf (Oracle), y cuyo clculo viene dado por la expresin:
W =
log(dtf ) + 1
U
N nf
*
* log(
)
sumdtf
1 + 0.0115 * U
nf
(1)
RISTI, N. 8, 12/2011
43
R = qf * w
(2)
44
RISTI, N. 8, 12/2011
RISTI
Revista Ibrica de Sistemas e Tecnologias de Informao
W ( ti , Cj ) = R( n,Cj ) * P ( ti , n, Cj )
(3)
n=1
donde N es el nmero de artculos extrados de la Wikipedia para crear cada una de las
categoras, R(n,Cj) es la relevancia del artculo n en la categora Cj, y P(ti,n,Cj)
representa el peso del trmino ti dentro del artculo n, que viene dado por la expresin
(1).
El valor obtenido W(ti,Cj) se modifica segn el tipo de trmino ti de que se trate,
atendiendo a la siguiente clasificacin: palabra especial, palabra nula, palabra normal o
entidad. Las palabras especiales son aquellas especficas, que no son exclusivas, de
cada categora. Las palabras nulas son aquellas que el usuario considera que pueden
introducir distorsin en los resultados finales. Las entidades se corresponden con
nombres de personas y organizaciones, que tienen importancia para determinar la
categora a la que pertenece un texto. Las palabras normales son aquellas que no estn
en ninguno de los grupos anteriores. As, el peso W(ti,Cj), se incrementa para las
palabras especiales y las entidades en un factor 100 y 10 respectivamente, se anula para
las palabras nulas, y se disminuye para las palabras normales en un factor o,1,
obteniendo el valor modificado W(ti,Cj).
El clculo anterior debe extenderse sobre todas las categoras existentes, y aplicarse a
todos los trminos relevantes del texto que se desea clasificar. De este modo, el
resultado es la matriz:
W|T' |x|C|
W11' W1|'C1
=
W ' . W '
|T ||C |
|T |1
(4)
W|T|x|C|
representa la
|T |
|T | '
(5)
4. Resultados experimentales
Para realizar los experimentos se ha tomado como conjunto de prueba 206 titulares de
noticias recogidas durante varios das consecutivos, de las categoras Frmula 1,
Tenis, Ciclismo, Golf y Atletismo (ver tabla 1) del sitio de noticias deportivas
www.marca.com/deporte/rss/index.html. En esta URL podemos encontrar las noticias
y la categora asociada.
RISTI, N. 8, 12/2011
45
# Noticias
Atletismo
40
Ciclismo
49
Motor
44
Golf
23
Tenis
50
En la tabla 2 se indican los trminos indicados por el usuario para crear cada categora,
buscando en la Wikipedia los artculos en los que mayor peso tengan.
Las palabras que se han considerado clave para cada categora son las que se indican en
la tabla 2. Las palabras clave tienen un alto significado en sus categoras, pero no son
exclusivas a stas. Por ejemplo, vuelta puede aparecer en ciclismo o motor, pero se
desea que se valore ms en la categora ciclismo.
Tabla 2 - Trminos que definen cada categora y palabras clave por categora
Categora
Trminos
Palabras clave
Atletismo
Atletismo
Ciclismo
tour, ciclista
Motor
F1, Frmula 1
Pole, Frmula 1
Golf
golf, golfista
Tenis
Atp, tenis
Cultura
Cultura
El listado de palabras nulas se indica en la tabla 3. Las palabras nulas son globales a
todas las categoras. Estas palabras pueden introducir sesgos indeseables porque
pueden repetirse ms en ciertos artculos que en otros.
Tabla 3 - Lista de palabras nulas
Palabras nulas
clasificado, clasificacin, lder, liderato, triunfo, primero, segundo,
final, victoria, plaza, vuelta, tiempo, equipo, vencer, podio
46
RISTI, N. 8, 12/2011
RISTI
Revista Ibrica de Sistemas e Tecnologias de Informao
Experimento 1
Los resultados se obtuvieron aplicando el algoritmo propuesto a las noticias que
forman nuestro grupo de prueba, junto con las funcionalidades indicadas.
La matriz de confusin obtenida es la de la Tabla 4. El valor del ndice de Cohen es
0.9078, esto es, el clasificador puede alcanzar un 90,78% de acierto sin considerar
aquellos que son fruto del azar. La categora cultura no obtiene ningn resultado.
Tabla 4 - Resultados del experimento 1
Clasificacin del experimento 1
Categora real
Total
Atletismo
36
40
0,947
0,9
0,923
Ciclismo
44
49
0,936
0,898
0,917
Motor
40
44
0,909
0,952
Golf
21
23
0,84
0,913
0,875
Tenis
50
50
0,909
0,952
Cultura
N/A
N/A
N/A
Total
38
47
40
25
55
206
Experimento 2
En esta prueba no se usa la lista de palabras clave ni la de palabras nulas. La matriz de
confusin se muestra en la Tabla 5. El valor del ndice de Cohen es 0.8522.
El resultado se degrada un 6,12%. Son 9 titulares ms los que se clasifican mal frente al
experimento 1. La categora cultura no obtiene ningn resultado.
RISTI, N. 8, 12/2011
47
Categora real
Total
Atletismo
34
40
0,919
0,85
0,883
Ciclismo
40
49
0,889
0,816
0,851
Motor
40
44
0,93
0,909
0,92
Golf
19
23
0,792
0,826
0,809
Tenis
49
50
0,86
0,98
0,916
Cultura
N/A
N/A
N/A
Total
37
45
43
24
57
206
Experimento 3
No se utilizan las listas de palabras claves y nulas, ni la modificacin del peso del
trmino en funcin de su tipo, de manera que todas las palabras sern consideradas
iguales. La matriz de confusin que se obtiene se indica en la Tabla 6.
Tabla 6 - Resultados del experimento 3
Clasificacin del experimento 3
Categora real
Total
Atletismo
31
40
0,861
0,775
0,816
Ciclismo
38
49
0,731
0,776
0,752
Motor
34
44
0,895
0,773
0,829
Golf
14
23
0,636
0,609
0,622
Tenis
44
50
0,759
0,88
0,815
Cultura
N/A
N/A
N/A
Total
36
52
38
22
58
206
RISTI, N. 8, 12/2011
RISTI
R
Revista
R
Ibrica de Sistemas e Tecnollogias de Informao
obtenindose
o
e los resultad
dos indicadoss en la tabla 7, donde no se ha realiza
ado correccin
del
d azar.
T
Tabla 7 - Resu
ultados de las pruebas
p
realizzadas con valid
dacin cruzada
Prueb
ba
% de
d acierto
Algorritmo propuesto
o (Experimento 1)
93,10%
9
Bayes Multtinomial
91,26%
9
SVM
M
86,41%
8
Experimento
E
o5
En
E los experrimentos antteriores se han
h
utilizadoo 750 artcu
ulos de la Wikipedia
W
parra
crear
c
las difeerentes categ
goras. En essta prueba sse evala la influencia del nmero d
de
artculos
a
en el resultado
o final. Para
a medir el effecto, se han mantenido
o las mismaas
1, y se ha id
condiciones
c
q
que las utilizzadas en el experimento
e
do variando el nmero d
de
artculos
a
por categora.
Los
L resultado
os se muestra
an en la figura 2. En el ejje de abscisa
as se represen
nta el nmerro
de
d artculos que se empllean. En el eje
e de orden
nadas se reprresentan doss magnitudess:
nmero
n
de acciertos y nm
mero de titula
ares asignad
dos a cultura
a.
Los
L resultado
os muestran que 10 artcculos son claaramente inssuficientes: 6 titulares soon
asignados
a
a la categorra cultura. Al increm
mentar el nmero
n
de artculos, vva
incrementndose progressivamente el nmero de aaciertos, dism
minuyendo (hasta hacersse
cero)
c
el nmero de titulares asignado
os a cultura . Se observa un mximo sobre los 7550
artculos.
a
Inccluir ms arrtculos redu
uce el nmerro de acierto
os, pues se incrementa
i
eel
vocabulario
v
ccon palabrass que no son realmentee importantees en el corp
pus, y que sse
extraen
e
de arrtculos cada vez menos relevantes.
r
5.
5 Anlisis
s de resulttados
Del
D experimeento 5 se ob
bserva un co
ompromiso p
para escogerr la cantidad
d de artculoos
para
p
crear el corpus de la
as categoras. Un nmeroo pequeo dee artculos no producen eel
vocabulario
v
n
necesario para clasificar correctamen
nte, y un nm
mero excesivo de artculoos
RISTI,
R
N. 8, 112/2011
499
6. Conclusiones
Se ha creado un sistema de clasificacin automtico de textos que puede cumplir con
las expectativas de efectividad que un usuario pudiera esperar en su uso. En el
experimento 1 se comprueba que, dadas unas condiciones concretas, se alcanzan unas
medidas del 93,10% de acierto en la clasificacin, en una situacin de partida
desfavorable: se toman noticias de deportes, todas ellas compartiendo vocabulario.
El presente clasificador, muestra una forma ms de salvar la visin que deja el Modelo
de Espacio Vectorial de los documentos como meras bolsas de palabras, al valorar la
funcin sintctica que tiene una palabra dentro del texto a la hora de computar su peso.
Hemos de concluir, a la vista de los experimentos, que el rendimiento del clasificador
est en relacin con la configuracin: dependiendo del nmero de artculos de la
Wikipedia que se tomen o de los listados de palabras que se incluyan. El clasificador
propuesto debe ser configurado segn cada necesidad o la cercana conceptual de los
elementos a clasificar. El nmero de artculos seleccionados influye directamente en
dos aspectos: el espacio que ocupan las categoras en las unidades de almacenamiento
y el tiempo que se tarda en computar un texto en cada categora.
Por otro lado, las listas de palabras clave y nulas tienen un impacto del 6,12% en el
ndice de aciertos entre el experimento 1 y 2, lo que indica que la capacidad de
influencia de estas listas es limitada, aunque su aportacin es deseable por cuanto
incrementan el porcentaje de acierto. La mayor parte de los aciertos recae en el Modelo
de Espacio Vectorial enriquecido con el anlisis sintctico propuesto.
Los resultados existentes en la literatura cientfica en su mayora se basan en
diferentes corpus en ingls, siendo ms escasos los disponibles en espaol. En
(Venegas, 2007) se utiliza una muestra de 222 artculos en espaol con unos resultados
cercanos en fase de prueba al 76,74% con SVM y de 68,18% con Naive Bayesiano,
aunque los resultados no son directamente comparables pues tanto el corpus de datos
como las categoras elegidas (Qumica Industrial, Ingeniera en Construccin, Trabajo
Social y Psicologa) son diferentes.
Igual que dos humanos pueden no estar de acuerdo al clasificar ciertos titulares, el
clasificador automtico, en determinados momentos, tambin hace interpretaciones,
aunque estas sean de base matemtica. Pensemos que el titular Jaime Alguersuari y
Sergio Garca, amigos y solidarios en un torneo de golf benfico estaba originalmente
50
RISTI, N. 8, 12/2011
RISTI
Revista Ibrica de Sistemas e Tecnologias de Informao
clasificado como motor. Pero la palabra golf junto con el nombre Sergio Garca, tienen
mayor peso que Jaime Alguersuari, por lo que el titular se clasifica en la categora golf,
contabilizndose como un error.
7. Lneas futuras
En esta propuesta, el corpus es la fuente de la que emana el conocimiento que se
emplea en la clasificacin. Por lo tanto, la principal lnea de actuacin sera trabajar en
el estudio del corpus de Wikipedia, introduciendo la autoconfiguracin del clasificador
mediante desambiguacin supervisada.
Hay que estudiar especialmente aquellas palabras compartidas por dos o ms
categoras. Dentro de estas palabras habr que encontrar la manera de diferenciar
cundo esa palabra es realmente determinante en el corpus.
Por ltimo, sera interesante incluir reconocimiento de patrones sintcticos que ayuden
a reconocer expresiones lingsticas recurrentes (Cruz, Troyano, Enriquez & Ortega,
2008). En la propuesta actual, nicamente se incluyen para el reconocimiento de
entidades.
Agradecimientos
Este trabajo ha contado con la financiacin del Fondo Europeo de Desarrollo Regional
(FEDER) y el Ministerio de Industria, Turismo y Comercio (MITYC) a travs del Plan
Avanza I+D (TSI-020302-2008-115).
Referencias bibliogrficas
Atserias, J., Casas, B., Comelles, E., Gonzlez, M., Padr, L. & Padr, M. (2006).
FreeLing 1.3: Syntactic and Semantic Services in an Open-source NLP Library. In
Proceedings of the fifth international conference on Language Resources and
Evaluation (LREC 2006), 48-55.
Chang, M.-W., Ratinov, L., Roth, D. & Srikumar, V. (2008). Importance of Semantic
Representation: Dataless Classification. In Proceedings of the 23rd AAAI
Conference on Artificial Intelligence, 830-835.
Cruz, F. L., Troyano, J. A., Enriquez, F. & Ortega, J. (2008). Experiments in Sentiment
Classification of Movie Reviews in Spanish. In Sociedad Espaola de
Procesamiento del lenguaje Natural, 41, 73-80.
Cui, G., Lu, Q., Li, W. & Chen, Y. (2009). Mining Concepts from Wikipedia for
Ontology Construction. In Proceedings of the 2009 IEEE/WIC/ACM international
Joint Conference on Web Intelligence and Intelligent Agent Technology - Vol. 03.
Web Intelligence & Intelligent Agent. IEEE Computer Society, Washington, DC,
287-290.
Gabrilovich, E. & Markovitch, S. (2006). Overcoming the Brittleness Bottleneck using
Wikipedia: Enhancing Text Categorization with Encyclopedic Knowledge. In
RISTI, N. 8, 12/2011
51
52
RISTI, N. 8, 12/2011