Beruflich Dokumente
Kultur Dokumente
Facultad de Ingeniera
Universidad de Buenos Aires
Agosto 2014
Resumen
Dentro de las reas de estudio abarcadas por la minera de datos, aquellas
relacionadas al anlisis del comportamiento humano se han destacado histricamente, y trascendido ms all del mbito de la computacin. En particular,
el Anlisis de Influencia en Redes Sociales resulta de gran inters para numerosas disciplinas, como lo son el marketing, las ciencias sociales y polticas, entre
otras. Este estudio se basa en encontrar, dentro de una red social determinada,
a aquellas personas con mayor ascendencia sobre el resto de los integrantes de
la comunidad. Dado que no todos los individuos tienen relacin o estn vinculados con el resto, el principal objetivo perseguido es identificar, dentro de ese
grupo de personas, a aquel sub-conjunto que mediante su influencia logre llegar
al mayor porcentaje posible de personas.
Cul es la mejor forma de buscar a estas personas, qu factores deben considerarse a la hora de hacerlo y qu informacin es necesaria para llevar adelante
este proceso son algunos de los interrogantes ms importantes que el Anlisis de
Influencia en Redes Sociales presenta. Diversos estudios han abordado esta problemtica en los ltimos aos, llegando en igual medida a consensos y disensos,
y encontrando cada uno de ellos nuevos y distintos obstculos y limitaciones.
Dentro de aquellas cuestiones sobre las cuales ha habido prcticamente unanimidad en la comunidad investigadora, la principal refiere al mecanismo mediante
el cual seleccionar y procesar la informacin disponible: es una norma en estos
estudios la divisin del proceso en tres etapas secuenciales. En primer lugar, la
seleccin y el formateo de los datos a utilizar; a continuacin, el clculo de los
factores o grados de influencia individual entre los miembros de la comunidad;
y por ltimo, la bsqueda y seleccin de aquellas personas que ms influencia
ejercen sobre el resto de la poblacin.
Dentro de este marco de consenso, distintos ensayos han encontrado gran
cantidad de limitaciones, interrogantes y problemas a resolver, los cuales abordamos en esta tesis y para los cuales presentamos nuevos enfoques, propuestas
de mejora y alternativas de resolucin. Nos centramos en resolver los problemas de performance que el mtodo hoy en da utilizado presenta (y que en
ocasiones lo convierte inutilizable en la prctica), proponer nuevas tcnicas de
procesamiento, incluir conceptos novedosos y superadores en cada una de las
etapas presentadas, brindar un salto cualitativo en los resultados generados e
Abstract
From all the study areas reached by data mining, those related to the analysis
of human behaviour have always occupied a place of high importance and have
additionally trascended beyond the computing scope. Particularly, the Influence
Analysis in Social Networks is specially interesting for many disciplines, such
as Marketing, Social Sciences and Politics. This studys goal is to find, within a
specific social network, those people with higher levels of preeminence over the
rest of the community. Since not every person has relation or is linked to the
rest, the main goal is to identify, within this group, the subset that through its
influence can reach the higher number of individuals.
Which is the best way to find this subset, which factors should be considered
while doing it and what information is needed to move this process ahead are
some of the most important questions Influence Analysis in Social Networks
should answer. Many studies have dealt with this problem, arriving to similar
conclusions as well as different perspectives on key aspects, in addition to finding
through their research new obstacles and limitations. One of the points almost
all of them have agreed on is the mechanism to select and process the available
information: they divide the process in three stages. The first of them selects
and formats the data that is going to be used; the second one estimates the
individual influence degrees among the community members; and the last one
searches and chooses those people with higher influence levels.
Within this agreement frame, different studies have found many boundaries, questions and problems to be solved, that we tackle in this thesis, and
for which we present new approaches, improvement proposals and resolution
alternatives. We focus on solving the big performance issues this method cu-
ii
iii
Agradecimientos
Muchsimas gracias a mis padres por todo el apoyo brindado a lo largo de esta
carrera, por estar siempre a mi lado en este camino de aprendizaje y superacin.
Sin su ayuda hubiera sido imposible llegar tan lejos. Su sacrificio ha sido siempre
una fuente de inspiracin para mi. Gracias a mi hermana y a mi amor, Marian,
por su apoyo y motivacin tan importantes durante esta ltima etapa. Gracias
a toda mi familia y amigos por ayudarme cada vez que lo necesit. Gracias a
todos los profesores de esta honorable casa de estudios, y muy especialmente al
director de esta tesis, el Dr. Juan M. Ale.
iv
ndice
1. Introduccin
1.1. Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Proceso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
12
13
14
16
16
17
18
3. Propuesta
20
20
20
20
23
27
27
31
33
33
38
40
45
45
46
50
4. Implementacin
53
53
53
55
56
59
5. Validacin
63
63
63
63
64
64
64
65
65
65
67
68
70
70
71
73
74
6. Conclusiones
77
7. Trabajo futuro
78
Referencias
80
vi
1.
Introduccin
1.1.
Objetivo
El presente trabajo tiene como objetivo analizar los mtodos basados en Data
Mining hoy en da utilizados para el clculo y anlisis de influencia dentro del
contexto de las redes sociales, y presentar una propuesta de mejora a los dficits
que dichos mtodos poseen, como as tambin incorporar diferentes tcnicas de
Data Mining en los procesos intermedios del clculo de influencia.
1.2.
1.3.
existentes, como asi tambin incorporar en esta etapa del proceso al usuario
final, permitindole personalizar ciertas aristas del mtodo y definir parmetros
de bsqueda.
Las propuestas de mejora planteadas en el presente trabajo estn acompaadas de contrastaciones prcticas. Se utiliza para esto un set de datos modelo,
compuesto por una red de usuarios con sus correspondientes vnculos, y un historial de acciones, el cual sirve para determinar los valores de influencia entre
usuarios individuales.
Las contribuciones ms relevantes que se esperan de esta tesis son:
Proveer un anlisis de los mtodos empleados hoy en da para el clculo
de influencias en redes sociales. Detallar las virtudes de los mismos, como
as tambin las falencias que presentan.
Proponer una serie de mejoras para cada una de las etapas que componen
los mtodos utilizados en el clculo de influencias. Incorporar a los mismos
nuevos conceptos surgidos del desarrollo global de las redes sociales.
Evaluar empricamente las propuestas presentadas, verificar si las mismas
lograron elevar la calidad de los resultados, como as tambin mejorar la
performance del mtodo.
Presentar un caso testigo en el cual el uso del mtodo resulte beneficioso.
1.4.
Trabajos relacionados
Tal cual exponemos a lo largo de esta tesis, numerosos estudios se han dedicado a analizar el proceso de bsqueda de usuarios influenciadores en redes
sociales, encontrndose con descubrimientos y limitaciones no resueltas. Repasaremos a continuacin los principales trabajos referidos a esta problemtica,
enfatizando aquellos aspectos que nos han servido como punto de partida para
desarrollar nuestra propuesta de mejora.
De acuerdo a lo expuesto por Francesco Bonchi en [5], con la popularizacin de plataformas online como Twitter y Facebook, el estudio de Influencia
en Redes Sociales ha ganado inters en los ltimos aos, pero an asi contina
presentando falencias que requieren ser investigadas y desarrolladas. En primer
lugar, el autor destaca la calidad de los resultados entregados por el algoritmo
Greedy, pero alerta sobre sus problemas de performance cuando es llevado a
3
la prctica. Proponer alternativas que permitan eliminar esta barrera computacional es uno de los principales desafos a abordar en el presente trabajo. En
segundo lugar, Bonchi pone la lupa sobre uno de los datos de entrada que el
mtodo necesita: las probabilidades individuales de contagio. Tal cual menciona en su trabajo, dicha informacin suele asumirse como conocida por quienes
llevan adelante estudios en esta rea debido a la complejidad que implica obtenerla, y a que al da de hoy no se han logrado desarrollar tcnicas eficientes que
permitan hacerlo. A su vez, agrega que la calidad de los resultados obtenidos
cuando esta informacin es precisa supera ampliamente a la obtenida cuando se
utilizan valores aleatorios. Ponemos, por este motivo, especial nfasis en idear
mecanismos que permitan calcular probabilidades individuales de contagio representativas de la realidad a partir del mapa de relaciones y del historial de
acciones de la red. Por ltimo, en [5], Bonchi menciona la necesidad de contemplar en la tercera etapa del proceso la frecuencia de participacin de los usuarios
de la red, de forma de evitar elegir individuos con baja actividad. Hacemos foco
sobre este punto, proponiendo alternativas a la hora de seleccionar a los usuarios
influenciadores.
En [6], Goyal, Bonchi y Lakshmanan abordan el clculo de probabilidades
de contagio de acuerdo a un modelo propuesto. En el mismo, los datos de entrada utilizados son el mapa de la red (las relaciones entre los miembros de
la misma) y el historial de acciones para un determinado perodo de tiempo.
Tal cual hemos mencionado previamente, nuestro estudio respeta dicho modelo
y utiliza el mismo input, aunque el mecanismo de procesamiento es diferente:
mientras que la propuesta de los autores implica escanear dos veces el historial
de acciones, nuestro enfoque lo hace solo una vez, para luego, en funcin de
las relaciones definidas en el mapa de la red, analizar un nmero reducido de
registros. Adicionalmente, este primer y nico escaneo completo del historial de
acciones resuelve uno de los desafos futuros planteados en el citado artculo, referido a la necesidad de incorporar el concepto de tipos de acciones que permita
ponderar las distintas propagaciones ocurridas en la red.
Por ltimo, de acuerdo a lo expuesto por Chen, Wang y Yang en [7], dos
de los principales desafos que el estudio de Influencia en Redes Sociales debe
asumir e intentar resolver son conseguir un mecanismo escalable que se adapte
fcilmente a la dinmica de las redes sociales de hoy en da, y lograr fraccionar las
enormes estructuras sociales de cada red en comunidades de menor tamao que
2.
2.1.
adquirir.
Para esto, intentaremos explicar con mayor profundidad a qu nos referimos con Influencia en redes sociales. A grandes rasgos, podemos identificar tres
motivos por los cuales una persona llega a realizar una determinada accin: en
primer lugar, porque la persona es muy activa, posee iniciativa y por ende inicia
acciones por su propia cuenta, obviando las circunstancias externas; en segundo lugar, esto podra deberse a que factores o eventos externos llevan a que lo
haga; por ltimo, una persona puede ejecutar determinadas acciones debido a
que otras personas de su crculo ms cercano lo han hecho previamente. Esto
ltimo es lo que llamamos Influencia, y durante el siguiente trabajo intentamos
desarrollar conceptos e ideas novedosas con respecto a la materia.
Existen diversos motivos por los cuales una persona puede llegar a ejercer
influencia sobre otra, como lo son la admiracin personal, la existencia de lazos
familiares, sentimentales y emocionales entre las personas, y un tipo de influencia un tanto menos genuina que se genera como fruto de la relacin laboral entre
ambas. Resultan particularmente interesantes de estudiar aquellas personas que
logran ejercer influencia sobre una porcin grande de la poblacin, ya que sus
acciones y expresiones podran generar un impacto y/o consecuencias de tamaos considerables. En lnea con esto se encuentran los principios fundamentales
de lo que se conoce como marketing viral, concepto abordado en [5], [6] y [7]:
siendo que el principal objetivo de una campaa de marketing es que el mensaje
llegue al mayor nmero de personas posible, no necesitamos invertir dinero y
esfuerzo en llegar de forma directa a cada uno de ellos, sino que si logramos
alcanzar a aquellas personas con mayor grado de influencia sobre el resto de la
poblacin, y tomando ventaja de los efectos del boca a boca, podremos llegar
de forma indirecta a todos ellos. No solo esto, sino que nuestro mensaje llegar
a los destinatarios con mucha mayor fuerza, ya que los mensajeros del mismo
sern personas cuyas acciones estn valoradas por el resto de la sociedad.
2.2.
Desafo: maximizacin
El desafo de las campaas de marketing que utilizan el concepto de Influencia en redes sociales en su proceso es, entonces, el de maximizar los beneficios
generados por la campaa partiendo de un capital de inversin y esfuerzo limitados. Esto se traduce en alcanzar, a partir de un nmero reducido de lo
que llamamos nodos iniciales, el mayor nmero de personas posible. Decidir a
7
quienes elegir como nodos iniciales se transforma en una tarea fundamental del
proceso, la cual determina en gran medida el xito o fracaso del mismo. Aqu
entran en juego varios aspectos, los cuales describiremos a continuacin y sobre
los cuales intentamos aportar nuevas ideas durante el desarrollo de esta tesis.
En primer lugar, la forma de calcular el nmero de personas a las cuales un
nodo inicial puede llegar (nodos hoja) que las campaas de marketing utilizan es
un dato aproximado, obtenido a partir de ciertos parmetros, como por ejemplo
la cantidad de conexiones que una persona tiene con otros usuarios en una red
social como Twitter o Facebook, lo cual no necesariamente se traduce en que esas
personas sean realmente lderes o influenciadores sobre el resto de la poblacin:
una persona puede estar conectada con muchas otras dentro de una red social,
y no ejercer en ellas ningn grado de influencia.
A su vez, un lugar comn en el cual muchos procesos de marketing caen es
elegir individualmente, como disparadores de la campaa, a aquellas personas
con mayor nmero aparente de seguidores. Utilizando aspectos bsicos de la
teora de conjuntos, podemos inferir que seleccionar a los nodos iniciales de
forma individual nos puede llevar a un resultado final lejano al valor ptimo,
ya que la unin de los conjuntos de personas alcanzadas por cada uno de estos
nodos podran tener un grado de interseccin muy alto, lo cual implicara que la
diversidad del conjunto final es baja. De esta forma se estaran desperdiciando
recursos, eligiendo nodos disparadores que nos otorgan resultados muy similares.
Figura 1: Personas alcanzadas por dos nodos iniciales con un grado alto y bajo
de interseccin respectivamente.
En tercer lugar, poder direccionar la bsqueda de personas, o nodos hoja,
resulta muy valioso a la hora de encarar una campaa de marketing. Esto apunta
a poder encontrar aquellas personas que ms influencia ejercen sobre el resto de
la poblacin en una determinada rea, la cual obviamente estar relacionada con
8
2.3.
Proceso
Mapa de relaciones
Comnmente este mapa est formado por una tabla que contiene, para cada
persona de la red, todas aquellas personas con las cuales se relaciona. Dicha
relacin puede ser unidireccional (por ejemplo cuando una persona sigue a
otra) o bidireccional (dos personas que son amigas). Idealmente, la tabla podra
incluir informacin temporal que indique la fecha en que las personas iniciaron
dicha relacin.
Usuario
Amigo
Jos
Carlos
Jos
Mara
Mara
Pedro
Lucia
Damin
Lucia
Cecilia
Damin
Carlos
Damin
Cecilia
Pedro
Jos
Natalia
Diego
Carlos
Pedro
10
2.3.2.
Log de acciones
El log de acciones est formado por todas las acciones que, en el contexto
de la red social estudiada, las personas realizaron, y la fecha en que lo hicieron.
Con esta informacin es posible identificar la propagacin de acciones, lo cual,
de cumplirse ciertas condiciones, puede considerarse como un acto de influencia.
De esta forma, un modelo de clculo de influencia podra inferir que si cada vez
que el usuario A realiza una accin, frecuentemente el usuario B tambin lo
hace en un periodo de tiempo relativamente corto, entonces A est ejerciendo
influencia sobre B.
Dependiendo del origen de datos, estas acciones pueden resultar muy variadas y depender de quien est realizando el estudio determinar cules de ellas
se pueden considerar como una propagacin. Por ejemplo en una red social musical, podra considerarse como propagacin el hecho de escuchar una cancin
luego de que otro usuario lo haya hecho. O si analizamos una red de cocina,
aquellas personas que cocinen una receta que un maestro chef ha publicado recientemente podran considerarse bajo los efectos de la influencia del mismo.
A su vez, existen factores comunes a la hora de analizar la existencia o no de
propagacin, como por ejemplo que el tiempo entre una accin y otra sea relativamente corto, ya que tal cual se justifica en [5], a medida que transcurre,
la probabilidad de que la persona haya actuado por obra de la influencia y no
por propia iniciativa disminuye. Depender, como vemos, de cada caso en particular y ser quien est llevando adelante el estudio quien deba determinar las
condiciones para considerar que ha habido una propagacin.
Usuario
Accin
Tiempo
Jose
Accin A
t1
Pedro
Accin B
t2
Jose
Accin B
t3
Lucia
Accin B
t3
Damian
Accin A
t4
Diego
Accin C
t7
Lucia
Accin A
t8
11
Token Accion
Accin
Ubicacin
Estado
Fecha
Jose
G1sd89_9244
Accin A
43.07,-71.92
NULL
2014/08/21
Pedro
54rt8u_0932
Accin B
-39.21,-58.90
NULL
2014/08/21
NULL
4pkd21_2276
Accin B
48.87,10.32
NULL
2014/08/23
Lucia
Jf4sdr_5481
Accin B
48.33,32,91
NULL
2014/09/01
Juan
Yuk2de_7454
Accin A
40.02,-4.30
NULL
NULL
Diego
65re9q_9820
Accin C
-31.32,-59.20
NULL
2014/09/01
12
Usuario
Accin
Fecha
Jose
Accin A
2014/08/21
Pedro
Accin B
2014/08/21
Lucia
Accin B
2014/09/01
Juan
Accin A
2014/09/01
Diego
Accin C
2014/09/01
13
i. S
ii. while|S| < k
i. u argmax[wV \S] ((S{w}) (S) )
ii. S S {u}
Como vemos, el algoritmo parte de un conjunto de nodos S vaco y realiza
k iteraciones. En cada una de ellas agrega al conjunto S aquel nodo que, junto
con los nodos previamente agregados a S, maximiza la propagacin de influencia
dentro de la red.
14
Figura 5: Iteracin del algoritmo Greedy que resulta con la inclusin del nodo
D en el conjunto S.
Cmo determinar la cantidad de contagios que un nodo puede producir ha
sido un desafo recurrente para todos los estudios del clculo de Influencia en
redes sociales. Para atacar este problema, se han propuesto diversos modelos
de propagacin. Aquellos que mejores crticas han cosechado estn basados en
el concepto de threshold, como lo son el Linear Threshold Model (LTM)
y el Independent Cascade Model (ICM), abordados en detalle en [5]. En
estos modelos se parte del principio fundamental de que en un determinado
instante de tiempo existen solo dos estados en los cuales un nodo de la red
puede encontrarse: activo o inactivo. La forma en que un nodo pase de inactivo a
activo es a travs del contagio con sus nodos aledaos. Esto es, si en determinado
momento una cantidad considerable de sus vecinos se encuentran activos, muy
probablemente el nodo tambin lo haga. El mecanismo para determinar en qu
momento las condiciones invitan a que esto suceda es donde difieren LTM e
15
2.4.
2.4.1.
16
17
Por otro lado, determinar cules de todas las acciones que una persona realiza son consecuencia del contagio o propagacin de una accin realizada previamente por otro miembro de la comunidad, y cules son acciones independientes,
ajenas a cualquier tipo de influencia, resulta muchas veces complejo. Un ejemplo
de esto son las que llamaremos acciones masivas: en ocasiones, ocurren situaciones o eventos globales que llevan a que muchas personas adopten determinados
comportamientos similares, como cuando sucede una catstrofe natural y todos
los miembros de una comunidad pasan das hablando sobre este tema (en el
marco de las redes sociales on-line podramos decir que pasan das tweeteando). Quin o quines fueron los primeros en abordar el asunto es irrelevante, y
sera un error decir que esas personas influenciaron al resto de la comunidad a
realizar comentarios sobre el tema, ya que la propia naturaleza y magnitud del
evento fue lo que desencaden estos comportamientos. Determinar con precisin
cules acciones son fruto de la influencia y cules no es un desafo que no debe
ser subestimado a la hora de calcular las probabilidades de contagio dentro de
una red.
Durante el desarrollo de esta tesis proponemos nuestro enfoque respecto
de cmo optimizar esta etapa, buscando superar los problemas anteriormente
mencionados.
2.4.3.
El principal dficit de la tercera y ltima etapa del proceso es la performance del algoritmo utilizado. Como mencionamos, el algoritmo Greedy utilizado
para obtener a las k personas con mayor grado de influencia sobre el resto de
la comunidad otorga resultados de gran calidad. Sin embargo, la complejidad
computacional de obtener en cada iteracin el nodo que mayor ganancia otorga,
lo convierte inutilizable. El problema radica en que, para obtenerlo, el algoritmo
itera cada uno de los nodos de la red y la recorre en su totalidad, tratando de
establecer a qu porcentaje de la comunidad se propaga la activacin, en ese
momento, de un determinado nodo. Aplicar este algoritmo a una red de gran
tamao es prcticamente imposible, por lo cual es necesario encontrar alternativas que permitan reutilizar la base del mismo y aprovechar sus beneficios, pero
evitando replicar sus limitaciones.
Otro de los inconvenientes que presenta la utilizacin del algoritmo Greedy
es que en ocasiones puede llegar a elegir dentro del set final S a nodos que
18
tienen baja actividad dentro de la red, pero que en alguna ocasin han logrado
propagar una accin propia a un porcentaje alto de la comunidad. Su aplicacin en diversos set de datos experimentales ha demostrado que en ocasiones el
algoritmo puede llegar a elegir nodos que tienen una sola accin dentro del historial tomado como input. Por este motivo, es necesario establecer criterios que
permitan al algoritmo determinar en qu ocasiones un nodo debe ser excluido
del clculo de Influencia.
Por ltimo, el algoritmo no permite distinguir en qu reas ejercen influencia
cada uno de los nodos elegidos dentro de S; a su vez, tampoco permite realizar
esta distincin previamente a realizar los clculos. Esto apunta a que, en general,
quien desea conocer a aquellas personas con mayor grado de influencia dentro de
una red, est interesado en un nicho de la poblacin, y no en la totalidad de la
misma. Por ejemplo, si el interesado pretende utilizar los resultados para lanzar
una campaa electoral, probablemente quiera saber cules son las personas que
mayor influencia ejercen dentro de la poblacin en temas referidos a la poltica.
Por otro lado, si el contexto es el de un suplemento vitamnico, querr obtener
como resultado a las personas con mayor grado de influencia en aspectos deportivos. De esta forma, podemos ver la necesidad de aplicar el concepto de mbito
o contexto a la bsqueda de personas influenciadoras, cuestin que el algoritmo
Greedy hoy en da no contempla.
19
3.
Propuesta
3.1.
Enfoque de la propuesta
3.2.
Modelo de datos
20
Descripcin
UserId_str
FollowerId_str
String: identificador del usuario que se encuentra siguiendo (following) al usuario base.
21
Campo
Descripcin
Id_str
UserId_str
IsRetweet
RetweetedTweetId_str
Author
CreatedDate
Text
Language
Latitude
Longitude
InReplyToUserId_str
InReplyToStatusId_str
RetweetsCount
Place
22
Por ltimo, como anticipamos en II. Estado del arte. Dficits del proceso, incorporamos a nuestro set de datos informacin referida a los usuarios,
la cual Twitter provee a travs de su API [2].
Campo
Descripcin
Id_str
Name
ScreenName
Location
FollowersCount
FriendsCount
Language
StatusesCount
Verified
UtcTime
3.2.2.
Extraccin de datos
23
A_Cine
SOFILMEsp
altapeli
atresmediacine
CineHoy
cineespanol
A continuacin, extrajimos todos los followers de cada una de esas cuentas.
Como resultado obtuvimos 261.947 relaciones, de las cuales 239.521 pertenecan
a usuarios nicos dentro de la red. Analizando los datos pudimos tambin obtener la cantidad de usuarios que eran follower simultneamente de ms de uno
de los nodos iniciales. Los resultados arrojaron 2 cuentas que seguan a 11 de
los nodos iniciales, y 8 cuentas que seguan a 10 de ellos. Expondremos en la
siguiente tabla el anlisis completo:
#Friends
Cantidad de usuarios
11
10
8,35-6
3,34-5
21
40
76
162
3,17-4
6,76-4
312
0,0013026
782
0,0032648
2.254
0,0094104
12.518
0,0522626
223.364
0,9325445
8,76-5
1,67-4
24
User
Cantidad de followers
Cine_Y_Series
22.668
9,46
nosgustacine
10.140
4,23
Frases_del_Cine
56.773
23,70
cinesargentinos
26.666
11,13
TrailersyEstren
27.064
11,30
iYoVoyAlCine
19.226
8,03
A_Cine
15.623
6,52
SOFILMEsp
2.486
1,03
altapeli
17.792
7,43
atresmediacine
29.524
12,33
CineHoy
32.580
13,60
cineespanol
1.405
0,59
25
Id_str
Name
ScreenName
Location
1869530976
AltaGraciaBarComedia
AltaGraciaBC
Cordoba,
...
Ar-
...
gentina
1869977479
Nahomi fernanda ?
nahomipadin
Guatemala
...
1870581221
Alex Davila
brendan0097
Monterrey N.L
...
Mexico
187142576
PalaciodelCine_
Granada Espa-
...
a
1872200707
Hablame de Cine
Hablamedecine13
Universidad de
...
Navarra
1873106480
...
ChristchurchCars
Language
chccarrentals
Christchurch
Statuses
Verified
UtcTime
Followers
Friends
Count
Count
...
1128
1945
es
437
-10800
...
108
326
es
114
-18000
...
231
1974
es
145
-14400
...
187
231
es
767
7200
...
38
233
es
52
NULL
...
1183
1296
es
71
19800
Count
26
...
Id_str
UserId
Author Text
Created
_str
...
Date
496725833
90445
6509
RT @TrailersyEstren: Cinema
2014-08-05
504292864
9700
4819
18:34:02
...
40509
4050
2014-08-03
525808640
7141
97141
13:01:19
...
de Breaking Bad.
494439504
10049
10049
2014-07-30
854671363
24833
24833
11:08:58
...
...
Lang Latit.
Longit. Is
InReplyTo
InReplyTo
Rt
Rt
UserId_str
StatusId_str
Count
Place
...
es
NULL
NULL
NULL
NULL
13
NULL
...
es
40,389
-2,771
NULL
NULL
Buendia
...
es
NULL
NULL
248549886
494438558
NULL
992957440
3.3.
3.3.1.
27
28
Tipo de accion
Usuario
Comentario
RT
RT
Fav
Following
Foto
Comentario
RT
Fav
10
Following
11
Comentario
Tipo de accion
Usuario
RT
RT
Following
RT
10
Following
32
3.4.
3.4.1.
a. Incorporacin de Topics
Prcticamente todos los tipos de contagio o propagacin de acciones presentes en los modelos de clculo de influencia estn de alguna u otra manera
relacionados con un concepto al que llamaremos topic, y que ms all de algunos acercamientos planteados en [6] y [9], al da de hoy no ha sido debidamente
estudiado y explotado.
Un topic es un trmino o conjunto de trminos semnticamente relacionados,
que identifican un nico concepto. Por ejemplo, el trmino Batman identifica
unvocamente a la serie animada de igual nombre. Por otro lado, el conjunto de
trminos {Batman, Begins} refiere a la primer pelcula de la triloga dirigida
por Christopher Nolan, mientras que {Batman, Comics, Bolland} permite
identificar a las historietas publicadas en la dcada del 80 por la editorial DC
Comics.
Dentro del estudio de la influencia en las redes sociales, este concepto puede
utilizarse para mejorar la eficiencia del clculo de probabilidades de contagio
entre personas. Particularmente, en las redes de publicacin de contenidos no
solo nos otorga un nuevo tipo de propagacin de acciones, sino que tambin nos
permite obviar del proceso una tarea sumamente costosa en cuanto a performance como es la deteccin y eliminacin de trminos frecuentes del lenguaje.
Detallamos a continuacin nuestra propuesta para la incorporacin de los topics
en el proceso de deteccin de usuarios influenciadores.
Como dijimos, un topic es un trmino o conjunto de trminos que identifica
un nico concepto. A su vez, podemos intuir que la posibilidad de conocer
cules son los topics que se hacen presente en las acciones detectadas en una red
social en un determinado perodo de tiempo resulta de gran valor a la hora de
identificar cules de ellas son fruto de la propagacin, cules son origen de una
cadena de contagio, cules son acciones masivas repetidas por un gran porcentaje
de la poblacin y cules son acciones aisladas del resto. En sintona con esto,
es necesario incluir el concepto de frecuencia a la definicin de topics: dentro
33
de una red social, un topic puede ser frecuente durante un perodo acotado de
tiempo o puede estar presente en todo momento; a su vez, la frecuencia puede
definirse para un conjunto de la poblacin o para la totalidad de la misma.
En base a esta definicin podemos identificar tres tipos de topic distintos:
1. Frecuente slo durante un perodo de tiempo especfico, para toda la poblacin: son sucesos globales que ocurren en algn momento determinado
e involucran a prcticamente la totalidad de la poblacin. Las llamaremos
acciones masivas, y las mismas no sern consideradas en el clculo de
influencia ya que, ms all de que en el historial de acciones podemos
encontrar al primer usuario que hizo referencia a este tema, sera errneo
decir que dicho usuario origin una cadena de propagacin, cuando en
realidad la naturaleza misma del evento fue lo que gener que se haga tan
popular. Esto es fcilmente comprobable ya que podremos encontrar, para
este tipo de acciones, muchos otros nodos iniciadores (tambin llamados
nodo origen) que no tienen relacin con aquel encontrado previamente, con
lo cual podemos afirmar que no ha habido una propagacin entre ellos.
Un ejemplo de esto fue el Tsunami que tuviera lugar en Japn en el ao
2004. Durante varios das el tema estuvo a la cabeza de todos los diarios a
nivel mundial y fue motivo de conversacin de millones de personas. Previo
a esto, mucha gente ni siquiera conoca el trmino tsunami, y pasadas
unas semanas el tema fue perdiendo protagonismo al punto de recuperar
valores de popularidad cercanos a los que tena antes de este suceso.
Uno de los aportes de esta tesis es detectar las acciones masivas del historial y excluirlas del clculo de probabilidades de contagio, evitando asignar
a una persona un nivel de influencia sobre el resto de la comunidad que
no tiene.
34
35
36
37
probabilidades de contagio, y su eventual aparicin tendr una ponderacin muy alta dentro de los clculos que se realicen.
3.4.2.
38
de datos. a. Definicin temprana de mltiples acciones propagadas utilizamos valores numricos, con una escala de entre 1 y 15, siendo
1 un tipo de propagacin dbil y 15 el ms fuerte. En este punto es importante destacar que la escala a utilizar puede ser redefinida en cada
implementacin, no siendo relevante los valores utilizados para los mnimos y mximos, sino la relacin entre ellos.
Tipo de propagacin
Factor de ponderacin
Retweets
15
10
k=
1
2t1
39
Como podemos ver, si la repeticin ocurre en el intervalo inmediatamente posterior a la accin, el valor de k ser igual a 1, mientras que para
repeticiones muy lejanas en el tiempo, el valor de k tiende a 0.
Cantidad de personas vinculadas que realizaron la accin previamente:
este ltimo factor surge del hecho de que, tal cual se demuestra en [6],
cuanto mayor es la cantidad de contactos de una persona que han realizado previamente la accin analizada, resulta ms difcil determinar si
el individuo actu imitando a alguno de ellos en particular, y en caso de
que as fuera, cul de todos ellos fue el que lo influenci a actuar de esa
forma, o si fue el hecho de que muchos de sus contactos repitieran una
accin lo que lo gener, lo cual resulta ms probable. Considerando esto,
podemos decir que el peso de propagacin de una accin que fue realizada
previamente por un solo contacto debe ser ms alto que el de una que fue
realizada por varios miembros de la red.
En sintona con el factor de ponderacin definido en la seccin anterior,
proponemos la utilizacin de un multiplicador p, cuyo valor disminuya a
medida que aumenta la cantidad de predecesores de una accin.
p=
1
n+1
41
Accin
Tipo de accin
Tiempo de
Tiempo
ocurrencia
propagacin
A1
Retweet
08:22 hs
A2
Retweet
08:24 hs
2 minutos
B1
Mismo topic
08:36 hs
A3
Retweet
08:37 hs
15 minutos
B2
Mismo topic
08:39 hs
3 minutos
C1
Comentario en tweet
08:40 hs
B3
Mismo topic
08:41 hs
5 minutos
B4
Mismo topic
08:42 hs
6 minutos
C2
Comentario en tweet
08:44 hs
4 minutos
D1
Mismo topic
08:46 hs
C3
Comentario en tweet
08:47 hs
7 minutos
D2
Mismo topic
08:49 hs
3 minutos
D3
Mismo topic
08:50 hs
4 minutos
E1
Retweet
09:03 hs
E2
Retweet
09:04 hs
1 minuto
E3
Retweet
09:05 hs
2 minutos
F1
Comentario en tweet
09:07 hs
F2
Comentario en tweet
09:09 hs
2 minutos
E4
Retweet
09:09 hs
6 minutos
de
tpp =
tpi
i=1
1 + 2 + 2 + 2 + 3 + 3 + 4 + 4 + 5 + 5 + 6 + 7 + 15
13
tpp = 4, 53 min.
tpp =
43
Accin
Tiempo de
Tiempo dis-
Tiempo
ocurrencia
cretizado
propagacin
de
t0 = 08:00 hs
A1
08:22 hs
t10
A2
08:24 hs
t11
B1
08:36 hs
t16
A3
08:37 hs
t17
B2
08:39 hs
t18
C1
08:40 hs
t18
B3
08:41 hs
t19
B4
08:42 hs
t19
C2
08:44 hs
t20
D1
08:46 hs
t21
C3
08:47 hs
t21
D2
08:49 hs
t22
D3
08:50 hs
t23
E1
09:03 hs
t28
E2
09:04 hs
t29
E3
09:05 hs
t29
F1
09:07 hs
t30
F2
09:09 hs
t31
E4
09:09 hs
t31
Una vez finalizado el proceso habremos transformado todos los valores continuos de nuestro modelo en valores discretos, lo cual mejora notablemente la
performance del mtodo: ahora la distancia entre acciones propagadas est dada por la cantidad de intervalos entre ellas, es decir nmeros enteros, y no es
necesario calcular y luego comparar para cada una el tiempo transcurrido, en
horas, minutos y segundos.
A su vez, el hecho de haber utilizado para los clculos nicamente aquellas
acciones enmarcadas dentro de las definidas en la Etapa 1: Formacin de
datos. a. Definicin temprana de mltiples acciones propagadas le
44
3.5.
45
ser recorrida en su totalidad para cada iteracin del algoritmo, sino que solo un
nmero reducido de nodos (aquellos que lograron transmitir un acto suyo a otra
persona) deben ser procesados en cada una de ellas.
Teniendo en cuenta que el nmero de acciones propagadas es un porcentaje
menor dentro de la totalidad de registros del historial y que los propagadores de
estas acciones en muchas ocasiones se repiten, la cantidad de nodos a procesar
por el algoritmo Greedy se reduce notablemente, haciendo factible su aplicacin
dentro de sets de datos de gran volumen, tal cual se presentan en la prctica.
En el siguiente ejemplo podemos ver los beneficios de aplicar este filtro previo
al procesamiento de los nodos:
Disponemos de una red con 25.942 nodos, y un historial de acciones con
1.815.560 registros, de las cuales 31.248 fueron propagadas. Si analizamos los
nodos origen de cada una de esas propagaciones, encontramos que participaron
un total de 2.720 usuarios distintos. De esta forma, y tal cual podemos observar
en la Figura 13, la cantidad de nodos a procesar por el algoritmo en cada
iteracin se reduce casi en un 90 %.
Figura 13: Grfico con el porcentaje de acciones propagadas del total de acciones del historial (izquierda), y el porcentaje de usuarios propagadores de la
comunidad (derecha).
3.5.2.
46
47
Usuario B
Usuario C
Usuario D
Usuario E
Usuario A
0,00
0,01
0,04
0,15
Usuario B
0,20
0,08
0,62
0,21
Usuario C
0,00
0,41
0,00
0,00
Usuario D
0,37
0,00
0,14
0,06
Usuario E
0,12
0,11
0,00
0,09
49
50
actividad, aquellos casos en que el resultado de dicha funcin de propagacin sea similar. El valor de a para una persona ser igual a la cantidad
de acciones realizadas por ella, sobre el total de acciones realizadas por
toda la comunidad.
Adicionalmente, se permite al usuario final definir un nivel de influencia
de a en los clculos realizados por el algoritmo, al cual llamaremos h. Esto
significa que el usuario puede indicar si desea que la frecuencia de participacin (a) tenga ms o menos peso a la hora de seleccionar los nodos del
conjunto S, pudiendo incluso establecer que la misma no tenga influencia
alguna, es decir que no se tome en cuenta la frecuencia de participacin
de los usuarios a la hora de seleccionar los nodos del conjunto S.
De esta forma, el resultado final de (S) para el usuario i est dado por:
(S) = a h (S)
a = acciones propagadas por i / total de acciones propagadas de la red
h = nivel de influencia de a definido por el usuario final (valores posibles:
alto, medio, bajo o nulo).
Umbral de actividad: en segundo lugar, tal cual se observara en numerosos casos prcticos estudiados, es frecuente que el conjunto final S incluya
nodos con muy baja actividad en la red, muchas veces con solo una o
muy pocas acciones registradas en el historial, en los casos en que la propagacin de las mismas es alta. Para evitar esta situacin, proponemos
establecer un umbral de actividad que permita definir un sub-conjunto
de personas a utilizar en el clculo de influencia, priorizando aquellas que
mayor actividad registran respecto de las que solo han tenido participacin activa en la red social en contadas ocasiones. De esta forma, se ofrece
al usuario final la posibilidad de definir qu porcentaje de las personas
con mayor actividad se tendrn en cuenta en los clculos. Si, por ejemplo,
en una red con 1.500 nodos, el usuario definiese trabajar con el 25 % que
mayor actividad registra, se tomaran los 375 nodos con mayor cantidad
de acciones propagadas, y se procesara y seleccionara a los miembros del
conjunto S considerando slo esos 375 nodos y no toda la red.
Esta restriccin es introducida previo al inicio del procesamiento del algoritmo, eliminando del set de nodos candidatos a todos aquellos que no
51
superen este umbral, de forma que no solo mejore la calidad de los resultados finales, sino tambin la performance del mtodo, que se ve beneficiada
por la omisin de un nuevo grupo de nodos, tal cual ocurriera en los puntos
a. y b. de esta seccin, y por lo tanto la posibilidad de trabajar con menor
cantidad de registros, lo cual se traduce directamente en menor cantidad
de iteraciones para encontrar el mejor nodo de cada ronda de seleccin.
Por supuesto, si el usuario define utilizar el 100 % de la red, no se produce
en esta etapa reduccin alguna del set de datos.
52
4.
Implementacin
4.1.
Plataforma desarrollada
1. Modelo de negocio
4.1.2.
2. Acceso a datos
Contiene la lgica para acceder a los datos del origen utilizado. Este mdulo
debe ser construido en su totalidad por el usuario, de acuerdo a la adaptacin
que se desea realizar. Debe disponibilizar al menos 3 conexiones bsicas que la
aplicacin utilizar como input:
Vnculos entre usuarios de la red.
Historial de acciones.
Informacin de los usuarios.
Adicionalmente, la aplicacin requerir 2 conexiones relacionadas a la lgica
de procesamiento del algoritmo Greedy:
Terms/Topics.
Discretizacin del tiempo.
Para el presente trabajo se decidi conectar con la aplicacin una base de
datos extrada de Twitter mediante el ORM Entity Framework 5.0.0. De
acuerdo al modelo de datos definido en la etapa III, las 5 conexiones requeridas
se mapean con las tablas de la base de datos de la siguiente forma:
Vnculos entre usuarios de la red [Relations].
Historial de acciones [Tweets].
Informacin de los usuarios [Users].
Terms/Topics [Terms].
Discretizacin del tiempo [DiscretizedTimeInterval].
Presentamos a continuacin un diagrama representando las entidades de
acceso a datos y sus relaciones, de acuerdo al ORM utilizado para la presente
aplicacin:
55
3. Modelo de entidades
Este mdulo contiene tanto las entidades propias del modelo como las extensiones definidas por el usuario. A partir de cuatro entidades bsicas que el
algoritmo en este trabajo definido y los procesos involucrados necesitan, el usuario debe implementar las extensiones que se definieron durante el diseo de la
adaptacin a realizar, de modo que el algoritmo Greedy pueda ejecutar en el origen de datos utilizado toda la lgica genrica definida en el mdulo 1. Modelo
de negocio.
Detallaremos a continuacin las 4 entidades genricas del modelo, su significado dentro de la aplicacin y las extensiones realizadas para el trabajo sobre
la base de datos de Twitter.
56
58
4. Aplicacin Web
59
en la red social).
Seleccin de pesos especficos de tipos de accin: permite al
usuario asignar un peso a cada tipo de accin definido en la Etapa
1.a Definicin temprana de mltiples acciones propagadas.
Opciones avanzadas: permite al usuario elegir la cantidad de clusters a utilizar en el procesamiento, y la probabilidad de contagio
mnima para activar un nodo.
Resultados: ofrece al usuario los resultados de haber ejecutado el
algoritmo Greedy utilizando los parmetros definidos en las pantallas
previas. Se informa quienes son los usuarios influenciadores encontrados, y el alcance conjunto de su influencia (a qu cantidad de usuarios
llegan).
Soporte: Incluye documentacin de ayuda para el uso de la aplicacin, e
informacin acerca de la misma (autor, propsito, versin, etc).
A continuacin se muestran, a modo de ejemplo, dos pantallas de la aplicacin. En primer lugar, en la figura 18 se puede ver una de las pantallas de
configuracin, en la cual el usuario final puede definir sus propios valores para
cada uno de los parmetros de bsqueda, de acuerdo al propsito de su investigacin. En segundo lugar, la figura 19 ofrece los resultados luego de haberse
ejecutado el algoritmo Greedy con los parmetros previamente definidos.
60
61
62
5.
Validacin
5.1.
5.2.
5.2.1.
Modelo de datos
Definicin del modelo de datos
63
la tabla.
Por ltimo, la tabla Users contiene nicamente informacin extrada de la
plataforma, como el nickname del usuario en la aplicacin, su ubicacin geogrfica, la cantidad de seguidores, etc.
5.2.2.
Extraccin de datos
5.3.
5.3.1.
Cantidad de registros
Tweet Reply
11.419
Retweet
30.921
Topic
4.194
No class
71.382
64
5.3.2.
Gracias a que la definicin de datos realizada logr alinearse a los tres principios enunciados en la propuesta de mejora (seccion 3.3.2), fue posible omitir
del proceso la fecha de inicio del vnculo formal entre los distintos usuarios de la
red. Repasamos a continuacin estas tres consignas, y detallamos de qu forma
se logra la mencionada alineacin.
En principio, la naturaleza de la red social estudiada (Twitter) cumple con
la consigna de ser masiva y pblica. De esta forma, las acciones realizadas por
sus miembros, y ms especficamente por aquellos de inters para este trabajo
(las figuras pblicas), son accesibles para cualquier integrante de la red social.
Ms an, la mayora de estas acciones logran viralizarse rpidamente y terminan
siendo conocidas por toda la comunidad, ms all de la existencia o no de una
relacin social entre ellos (en nuestro caso, ser follower del otro usuario). Por este
motivo podemos afirmar que no resulta necesario que dos personas mantengan
un vnculo formal para que uno de ellos logre propagar una accin, y por ende
ejercer influencia sobre el otro.
En segundo lugar, de los tres tipos de accin definidos, dos de ellos nos
garantizan la existencia del vnculo social entre los usuarios. Ellos son el Retweet
y el Tweet Reply: el hecho de que un usuario retwitee o comente el estado de
otro implica que lo conoce y que su accin lleg hasta l, ya sea de manera
formal o casual. Por otro lado, ms all de que las acciones de tipo Topic no nos
permiten realizar esta afirmacin, s podemos sostener la teora enunciada en
el prrafo anterior: sea de manera directa o por un canal alternativo, la accin
iniciada por un usuario logr llegar al restante, y de esta forma su influencia fue
ejercida.
Por ltimo, resulta evidente que el nivel de procesamiento se redujo al omitir
del clculo las validaciones correspondientes a la fecha de inicio del vnculo
formal entre los usuarios de la red.
5.4.
5.4.1.
65
(es decir, la accin que inici la propagacin). Luego de analizar los resultados,
pudimos comprobar que tanto las llamadas acciones masivas como los trminos
frecuentes haban sido debidamente excluidos por el algoritmo, a excepcin de
un nmero menor de registros. De esta forma y en sintona con el objetivo
perseguido en esta etapa, el subconjunto de acciones de tipo Topic creado por
la aplicacin qued conformado en su mayora por los llamados topics locales.
A continuacin se incluyen dos propagaciones de tipo topic local detectadas
por la aplicacin:
Figura 21: Accin de tipo Topic propagada desde el usuario @altapeli al usuario
@vecine.
66
5.4.2.
De acuerdo a la propuesta presentada, al momento de calcular las probabilidades de contagio entre usuarios vinculados de la red se aplicaron sobre todas
las acciones propagadas tres factores de ponderacin.
El primero de ellos refiere al criterio del usuario final. A modo de referencia, y utilizando un anlisis realizado al momento de adaptar el template para
el origen de datos de la plataforma Twitter, se definieron los pesos especficos
de cada uno de los tipos de accin, habilitando al usuario final la posibilidad de
modificar dichos valores en la primer pantalla de la aplicacin. Los valores de
referencia utilizados fueron:
Tipo de accin
Peso especfico
Tweet Reply
10
Retweet
15
Topic
67
68
BaseTime
IntervalLengthInMinutes
2014-07-30 09:27:07.000
32
5.5.
5.5.1.
71
de contagio saliente es muy baja. Al momento de procesar un nodo aleatoriamente elegido por cluster y luego procesar todos los nodos del cluster ganador
(aquel que mayor valor de spread obtuvo), las chances de que este sub-conjunto
sea elegido son practicamente cero, ya que como mencionamos la probabilidad
de contagio saliente promedio es muy baja. De esta forma, el algoritmo se evita
procesar el cluster que contiene la mayor cantidad de nodos agrupados, generando un ahorro de procesamiento mucho mayor al que tendramos si la distribucin
de nodos por cluster fuera pareja.
Para justificar lo anteriormente expuesto, exponemos los resultados de una
ejecucin del algoritmo Greedy para la bsqueda de 5 usuarios influenciadores,
utilizando 25 clusters. En primer lugar ensearemos la distribucin de nodos
por cluster, y a continuacin la cantidad de nodos procesados en cada una de
las 5 iteraciones.
Distribucin de nodos por cluster:
Cluster
Cantidad de nodos
Cluster
Cantidad de nodos
14
15
16
14
17
14
18
19
20
11
21
12
10
22
10
23
11
24
12
500
25
14
13
72
Nodos procesados
Porcentaje de la poblacin
39
2,25 %
27
1,55 %
26
1,50 %
30
1,73 %
32
1,84 %
73
Participation
frequency weight
High
85 / 1732
4,90 %
Medium
153 / 1732
8,83 %
Low
162 / 1732
9,35 %
No
913 / 1732
52,71 %
5.6.
Nodos
procesados
Nodos
procesados
(modelo base)
1732
28
1731
34
1730
26
1729
29
1728
31
75
Cantidad de acciones
Trailers y Estrenos
368
Atresmedia Cine
35
Actualidad Cine
125
Leandro Almeida
34
Solamente Cine
Cuenta
Cantidad de acciones
Trailers y Estrenos
368
775
Darwin-The Movie
919
mercedes ruiz
837
Caro
444
76
6.
Conclusiones
En este trabajo nos propusimos analizar y mejorar los mecanismos utilizados
77
7.
Trabajo futuro
El desarrollo de esta tesis arroj, adems de valiosas conclusiones, una serie
de desafos e interrogantes que abren la puerta a nuevas investigaciones. Detallaremos a continuacin dos de los que consideramos ms valiosos y con mayor
78
79
Referencias
[1] .NET Framework, http://www.microsoft.com/net
[2] Twitter API, https://dev.twitter.com
[3] TweetSharp, https://github.com/danielcrenna/tweetsharp
[4] James McCaffrey, K-means Data Clustering using C#, Visual Studio
Magazine, 2013.
[5] Francesco Bonchi, Influence Propagation in Social Networks: A Data
Mining Perspective, IEEE Intelligent Informatics Bulletin, 2011.
[6] Amit Goyal, Francesco Bonchi y Laks V. S. Lakshmanan, Learning Influence Probabilities In Social Networks, Third ACM International
Conference on Web Search and Data Mining, 2010.
[7] Wei Chen, Yajun Wang y Siyu Yang, Efficient Influence Maximization in Social Networks, 15th ACM International Conference on Knowledge Discovery and Data Mining, 2009.
[8] Wei Chen, Yifei Yuan y Li Zhang, Scalable Influence Maximization
in Social Networks under the Linear Threshold Model, 10th IEEE International Conference on Data Mining, 2010.
[9] Mario Cataldi, Luigi Di Caro y Claudio Schifanella, Emerging
Topic Detection on Twitter based on Temporal and Social Terms Evaluation, 10th International Workshop on Multimedia Data Mining, 2010.
[10] Usama M. Fayyad y Keki B. Irani, Multi-Interval Discretization of
Continuous-Valued Attributes for Classification Learning, International
Joint Conference on Uncertainty in AI, 1993.
[11] H. Liu, F. Hussain y C.L. Tan, M. Dash, Discretization: An Enabling
Technique, Data Mining and Knowledge Discovery, 2002.
[12] L. Mora y R. Morales, Modelling time series with data mining, MOISES Project of the CICYT, 2002.
[13] Adrien Guille y Hakim Hacid, A Predictive Model for the Temporal Dynamics of Information Diffusion in Online Social Networks, 21st
International Conference Companion on World Wide Web, 2012.
80
81