Sie sind auf Seite 1von 10

Dtection des communauts dans les rseaux sociaux

Introduction :
La science moderne de rseaux a apport des avances significatives notre comprhension des systmes complexes. Une des caractristiques les plus pertinentes de graphiques reprsentant des systmes rels est la structure des communauts ou clustering. Communaut ou cluster reprsente un sous ensemble de sommets plus fortement connects entre eux quau reste du graphe, mais pas de dfinition formelle gnrale.

Problmatique :
Dans ce papier, nous nous intressons au problme de la dtection des communauts dans les rseaux sociaux. Ces rseaux peuvent tre modliss par des graphes dont les sommets reprsentent les acteurs du phnomne et les liens reprsentent les interactions entre eux.

La

dtection des

collectivits est les

d'une

grande

importance en

sociologie,

biologie de

et l'informatique, disciplines o

systmes sont

souvent reprsents sous

forme

graphiques. Ce problme est trs difficile et non encore rsolu de faon satisfaisante, en dpit de l'norme effort dune grande communaut interdisciplinaire de chercheurs qui travaillaient sur elle au cours des dernires annes. Cependant une des proprits essentielles des grands graphes de terrain qui joue un rle essentiel est l'existence d'une forte densit locale qui s'oppose la faible densit globale du graphe. La diffrence entre forte densit locale et faible densit globale fonde la problmatique de dtection de communauts. Les grands graphes de terrain rencontrs dans diffrentes disciplines possdent des caractristiques communes non-triviales. Ils possdent en particulier un faible degr moyen, une forte htrognit des degrs, des chemins courts entre tous les sommets et une faible densit globale couple une forte densit locale. Cette dernire caractristique, souvent

mesure par le coefficient de clustering, est essentielle pour la problmatique qui traduit l'existence de zones denses faiblement interconnectes appeles communauts. L'tude de ces grands rseaux d'interactions soulve de nombreux problmes algorithmique qui deviennent rapidement de vritables des vues les tailles des graphes rencontres (jusqu'a quelques milliards de sommets pour le graphe du Web). Pour s'adapter ces tailles, il est ncessaire de dvelopper une algorithmique spcifique aux grands rseaux d'interactions pouvant tirer parti de leurs proprits communes. Nous allons proposer dans cette optique un algorithme de dtection de structure de communauts. L'existence dans les rseaux d'interactions de zones plus densement connectes que d'autres dcoule souvent de la prsence dans le graphe d'une structure de communauts. Cette notion correspond intuitivement l'existence de groupes de sommets plus fortement connects entre eux que vers les autres sommets. La dtection de communauts est donc un outil important pour la comprhension de la structure et du fonctionnement des grands rseaux d'interactions. La notion de communaut dans un graphe est cependant difficile dfinir formellement, il n'existe pas ce jour de dfinition satisfaisante.

Nous verrons ensuite un algorithme rcent spcialement dvelopps pour la dtection de communauts.

Domaines dapplications :
De nombreux domaines concerns, Nous allons maintenant prsenter quelques exemples dans lesquels des graphes sont utiliss comme outil de modlisation de phnomnes complexes. Ces exemples vont illustrer la diversit des domaines d'applications possibles. Pour chaque cas, nous identifierons les acteurs du phnomne, modliss par les sommets du graphe, et les interactions entre eux, modlises par des liens ou artes entre les sommets. L'ensemble de ces domaines fait l'objet d'une littrature trs abondante, nous nous contenterons de donner des pointeurs vers certaines publications cls. Les rseaux sociaux constituent un champ d'application ancien et important dans lequel les acteurs sont des individus ou entits sociales (associations, entreprises, pays, etc). Les liens

entre eux peuvent tre de diffrentes natures. Nous pouvons ainsi observer plusieurs types de rseaux : les rseaux de connaissance (deux individus sont relis s'ils se connaissent), les rseaux de contact physique (deux individus sont relis s'ils ont t physiquement en contact), les rseaux de collaboration (deux individus sont relis s'ils ont travaill ensemble, en particulier de nombreux travaux ont tudi les collaborations scientifiques ), les rseaux d'appels tlphoniques (deux individus ou numros de tlphones sont relis s'il y a eu un appel entre eux), les rseaux d'changes (deux entits sont relies si elles ont chang un chier ou un courrier lectronique par exemple). Alors on peut citer : Recherche d'amis sur les rseaux sociaux : On recherche la communaut locale d'un individu et on lui propose comme nouveaux amis tous les membres de sa communaut locale avec lesquels il n'a pas encore de lien.

Recommandation dans les rseaux sociaux: On propose un membre d'une communaut des articles en fonction des choix des autres membres de la communaut.

Propagation d'pidmies (ou diffusion d'information) : La communaut locale d'un individu infect donne une ide sur les personnes qu'il pourrait contaminer dans un rseau de contact.

Les rseaux sociaux sont tels que : Des rseaux de connaissances Des rseaux de collaboration scientifique Des rseaux des appels tlphoniques

Algorithme Girvan et Newman bas sur la centralit d'intermdiarit :

Principe de lalgorithme :
Cest un algorithme rcent de dtection de communauts appartenant lapproche sparative, bas sur la mthode qui essaye de scinder le graphe en plusieurs communauts en retirant

progressivement les artes reliant deux communauts distinctes. Les artes sont retires une une, a chaque tape les composantes connexes du graphe obtenu sont identifies des communauts. Le processus est rpt jusqu'au retrait de toutes les artes. On obtient alors une structure hirarchique de communauts. Les mthodes existantes diffrent par la faon de choisir les artes retirer, par exemple l'algorithme de Girvan et Newman bas sur la centralit d'intermdiarit [1, 2] son approche retire les artes de plus forte centralit d'intermdiarit. Cette centralit est dfinie pour une arte comme le nombre de plus courts chemins passant par cette arte. Il existe en effet peu d'arrtes reliant les diffrentes communauts et les plus courts chemins entre deux sommets de deux communauts diffrentes ont de grandes chances de passer par ces artes. Un algorithme calculant la centralit de toutes les artes en O (mn) est propos. Ce calcul est effectu chaque tape sur le graphe obtenu aprs retrait des artes. La complexit de l'algorithme est donc O (m2n). Une variante considrant des marches alatoires la place des plus courts chemins est aussi introduite. Elle donne des rsultats lgrement meilleurs mais demande encore plus de calculs. Notre algorithme est une gnralisation du fameux algorithme de Girvan et Newman [NG04] aux hypergraphes. Leur algorithme retire itrativement les artes de plus forte centralit dintermdiarit. Cette centralit est dfinie pour une arte comme le nombre de plus courts chemins passant par cette arte. Il existe en effet peu dartes reliant les diffrentes communauts et les plus courts chemins entre deux sommets de deux communauts diffrentes ont de grandes chances de passer par ces artes. En supprimant ces artes, les composantes connexes du graphe rsultant sont assimiles des communauts. A chaque tape, la qualit de la partition du graphe est calcule. Lalgorithme retourne la partition du graphe possdant la meilleure qualit.

Algorithme :
L'algorithme le plus populaire est celle propose par Girvan et Newman [1, 2]. La mthode est historiquement important, car il a marqu le dbut d'une nouvelle re dans le domaine de la dtection communaut en et a ouvert ce sujet pour les physiciens. Ici les centralit de bords

sont slectionns

fonction

des valeurs

de mesures de

bord, estimer

l'importance de bords selon l'une ou une proprit processus s'excutant sur le graphique. Les tapes de lalgorithme sont :

1. Calcul de la centralit pour tous les bords 2. Enlvement de bord avec la plus grande centrale : dans le cas des liens avec dautres bords, lun dentre eux est choisi au hasard 3. Recalcul des centralits sur le graphique en cours dexcution 4. Itration du cycle de ltape 2

Nous allons partir de la partition de lhypergraphe contenant une seule communaut (correspondant lhypergraphe entier) et scinder successivement les communauts jusqu obtenir n communauts contenant chacune un seul sommet de la faon suivante : Calculer la centralit dintermdiarit de chaque sommet et de chaque hyperarte (complexit : O (nk)) Retirer lhyperarte de centralit maximale (complexit : O(k)) Calculer une partition de lhypergraphe en communauts (complexit : O(k)) Calculer et mmoriser un paramtre de qualit Q prsent (complexit : O(k log k) ) Nous obtenons ainsi, aprs m itrations, une suite de m partitions des sommets en communauts P0, ...Pm1 parmi lesquelles il va falloir choisir la meilleure (maximisant Q). La complexit dune itration tant en O (nk+k log k) temps, il en dcoule donc que la complexit totale de lalgorithme est en O ( m(nk+k log k)) temps dans le pire des cas.

Calcul de la centralit dintermdiarit :


La centralit dintermdiarit dun sommet ou dune hyperarte u (que lon notera B(u)) est le nombre de plus courts hyperchemins passant par u. Adoptant une approche similaire Girvan et Newman, nous allons calculer pour chaque sommet et chaque hyperarte de lhypergraphe sa centralit dintermdiarit dite locale v. La centralit dintermdiarit locale v dun sommet ou dune hyperarte u (que lon notera Bv(u)) est le nombre de plus courts hyperchemins partant de v passant par u. On en dduit que : B(u)= B v(u) avec v appartient
V.

Cela revient en fait faire circuler un flot gal 1 le long des hyperchemins de u v pour tout sommet u. Les valeurs de flots obtenues pour chaque sommet et chaque hyperarte correspondent aux centralits locales recherches. Lalgorithme effectue donc n itrations correspondant au calcul de la centralit dintermdiarit locale v de chaque sommet et de chaque hyperarte de lhypergraphe de la faon suivante : 1. on calcule dans un premier temps, en O(k) temps, lensemble des plus courts hyperchemins partant de v laide dun parcours en largeur modifi de lhypergraphe H. La figure 1.b montre lensemble des hyperchemins partant de a dans lhypergraphe reprsent la figure 1.a. Plus prcisment, on associe chaque sommet et chaque hyperarte de lhypergraphe lensemble de ses prdcesseurs sur ces hyperchemins. On peut constater par exemple que lhyperarte D a pour prdcesseurs c et d. 2. on calcule dans un second temps, en O(k) temps, les centralits locales de chaque hyper arte et de chaque sommet qui sont respectivement initialises 0 et 1. Plus prcisment, on traite lensemble des sommets et des hyperartes u dans lordre inverse du parcours en largeur ( f g D C e d c b B A a dans notre cas reprsent la figure 1.c) : (a) la centralit locale Bv(u) est tout dabord ajoute la centralit dintermdiarit globale B(u) : B(u)B(u)+Bv(u). Lorsquon traite par exemple lhyperarte D, on ajoute sa centralit locale Ba(D) (qui naugmentera plus dans la suite du parcours) `a sa centralit globale B(D). (b) Bv(u) est ensuite distribue de manire quitable entre ses prdcesseurs w : Bv(w) Bv(w)+ (Bv(u)/nu) o nu dsigne le nombre de prdcesseurs de u. Lhyper arte D distribue par exemple sa centralit locale Ba(D) = 1quitablement entre ses prdcesseurs c et d qui recevront donc chacun 0.5. Les figures 1.b et 1.c illustrent donc une itration de lalgorithme. Aprs n itrations, nous obtenons comme rsultat de lalgorithme les centralits dintermdiarit globales pour tous les sommets et les hyperartes de lhypergraphe H. La complexit de cet algorithme est donc en O(nk).

FIG. 1: Calcul de la centralit dintermdiarit

Evaluation de la qualit dune partition dun hypergraphe en communauts :


Afin dvaluer la qualit dune partition P dun hypergraphe H en communauts, nous proposons lhypermodularit o e(C) est la fraction des hyperartes internes la communaut C et at (C) est la fraction des hyperartes de taille t ayant au moins une extrmit dans la communaut C. Cette mesure de qualit est une gnralisation de la modularit introduite par Girvan et Newman dans leur algorithme de dtection de communauts. Une hyperarte est dite interne une communaut C si toutes ses extrmits sont dans la communaut C. Une hyperarte de taille t est dite lie une communaut C si au moins lune de ses t extrmits appartient la communaut C. Ainsi,

les hyperartes de taille 4 ayant 2 extrmits dans C comptent pour moiti ( 2/4 ) par rapport aux hyperartes de taille 4 ayant toutes leurs extrmits dans C. Lobjectif est davoir des communauts de forte densit interne mesure par e(C). Les grosses communauts ont cependant mcaniquement une proportion dartes internes plus leve : si Cest un ensemble alatoire de sommets et si les hyperartes sont aussi alatoires alors la proportion dhyperartes de taille t internes attendue est at (C)t . Comme la modularit, lhypermodularit compare la proportion effective dhyperartes internes aux communauts la proportion attendue selon ce schma. Une communaut est dautant plus pertinente que sa proportion dhyperartes internes sera suprieure sa proportion attendue dhyper artes. Nous retenons donc comme rsultat de notre algorithme la partition de lhypergraphe H possdant la meilleure hypermodularit.

Exprimentation :
Voici ci-dessous un Tableau qui prsente la Liste des algorithmes utiliss dans l'analyse comparative de Danon et al. [3]. La premire colonne indique les noms des concepteurs d'algorithmes, la seconde la rfrence originale de l'uvre, le troisime le symbole utilis pour indiquer l'algorithme et le dernier de la complexit de calcul de la technique. Adapt partir de Rf. [3].

Ainsi la figure ci-dessous reprsente les performances relatives des algorithmes numrs dans le tableau 1 sur le point de repre Girvan Newman, pour trois valeurs. Figure Reproduit avec la permission de la rfrence. [3].

Bibographie :
[1] M. Girvan, M.E.J. Newman, Community structure in social and biological networks, Proc. Natl. Acad. Sci. USA 99 (12) (2002) 7821_7826. [2] M.E.J. Newman, M. Girvan, Finding and evaluating community structure in networks, Phys. Rev. E 69 (2) (2004) 026113. [3] L. Danon, A. Daz-Guilera, J. Duch, A. Arenas, Comparing community structure identification, J. Stat. Mech. P09008 (2005). Physics Reports ( ) _ Contents lists available at ScienceDirect Physics Reports journal homepage: www.elsevier.com/locate/physrep

Das könnte Ihnen auch gefallen