Erschließung Und Analyse Von Twitter Analyse Tools

Erschließung und Analyse
von Twitter Analyse Tools
Bakkalaureatsarbeit an der
Technischen Universität Graz,
Institut für Informationssysteme
und Computer Medien
23.11.2010
Thomas Altmann
thomas.altmann@student.tugraz.at
Betreuer: Martin Ebner

0 Abstract
Twitter ist ein konstanter Informationsstream von einzelnen Postings, sogenannten Tweets. Es
ist schwierig, aus diesen vielen einzelnen Postings und Meinungen allgemeine Aussagen zu
einem bestimmten Thema zu treffen. Auch das Analysieren einer einzelnen Person erfordert
bis jetzt das Lesen aller Tweets dieses Users.
Bisherige Twitter Analyse Tools beschäftigen sich entweder auf numerischer Ebene mit der
Anzahl von Followern und Tweets, oder sind bei der semantischen Analyse zu grob, mit einer
Einteilung in positive/negative Tweets oder grob abgegrenzte Gebiete.
Das semantische Twitter Analyse Tool STAT leistet einen Beitrag zur Verbesserung dieser
Analyse. STAT analysiert, was am meisten zu einem bestimmten Thema geschrieben wird,
wer am meisten zu einem bestimmten Thema schreibt, oder worüber und mit wem eine
Person am meisten twittert.
Mit STAT können Events mittels Schlagwörtern (Hashtags) analysiert werden und die
Meinungen der Twitteruser zu einem bestimmten Thema herausgefunden werden. User
können sich oder auch andere Twitter User analysieren und sehen, was diese User am meisten
interessiert.
1 Einleitung und Problembeschreibung
Twitter ist der beliebteste Microbloggingdienst. Microblogging ist eine Form von schriftlicher
Kommunikation die auf kurze Beiträge beschränkt ist. Im Fall von Twitter werden diese
Beiträge Tweets genannt und sind auf 140 Zeichen beschränkt. Bild 1 zeigt einen solchen
Beitrag.
Zusätzlich bietet Twitter die Möglichkeit, sich mit anderen Benutzern zu vernetzen. Man kann
Usern folgen und ein sogenannter Follower werden, um deren Beiträge zu abbonieren.
Bild 1 – Die Anatomie eines Tweets (Quelle: Flickr L3T Gruppe,

http://www.flickr.com/groups/l3t/)
In Bild 1 lassen sich noch einige andere Merkmale von Tweets erkennen:
1. Der ganze Tweet, der alle nachfolgenden Merkmale hat
2. Dieser Tweet ist ein Retweet, gekennzeichnet durch die Buchstaben „RT“. Das
bedeutet, dass ein User einen Tweet eines anderen Users in seine eigenen Tweets
aufnimmt und alle Follower des Users diesen Tweet auch sehen.
3. Dieser Tweet ist an einen bestimmten anderen User gerichtet, erkennbar an der
Erwähnung des anderen Users mit „@“.
4. In Tweets enhalten Links sind meist gekürzt, um noch Platz für anderen Inhalt zu
lassen.
5. Hashtags sind erkennbar an dem Symbol „#“ und kennzeichnen, dass der Tweet zu
einem bestimmten Thema gemacht wurde.
6. Jeder Tweet enthält Metadaten wie Datum, Ort oder Programm, mit dem getweetet
wurde.
7. Hier sieht man den User, der den Tweet verfasst hat.
Twitter erfreut sich zur Zeit enormer Beliebtheit. Die Anzahl der Benutzer und damit Anzahl
der Tweets ist seit dem Start der Plattform im Juli 2006 konstant gestiegen. Mittlerweile hat
Twitter über 21 Milliarden Tweets. Derzeit kommen täglich etwa 80 Millionen Tweets dazu.
Bei Twitter gibt es das Follower-System. Jedem Benutzer werden in seiner persönlichen
chronologischen Ansicht nur die Tweets von den Benutzern angezeigt, denen er folgt. Diese
erste Stufe der Filterung ist scheinbar effektiv, doch bei einer großen Anzahl von Personen,
die man liest, versagt dieser Mechanismus.
Noch einen Schritt weiter gehen hier die Listen. Die Organisation von Usern in Listen lässt
eine weitere Verfeinerung des Filterns zu. Man kann die User in Bereiche wie „Privat“ und
„Beruf“ einteilen, oder auch nach Themen wie „Technik“ und „Umwelt“.
Die letzte Stufe der Gliederung nach Usern sind die einzelnen Seiten anderer Benutzer, die
man unter twitter.com/username finden kann.
Um nach bestimmten Begriffen zu suchen oder Sortierungen vorzunehmen, lässt sich die
Suchfunktion von Twitter benutzen. Nach der Eingabe von einem Keyword oder Hashtag
lässt sich die Suche speichern, und bildet so eine Referenz für alle Tweets über ein
bestimmtes Thema.
All diese Werkzeuge sind hilfreich, um den großen Informationsfluss aller Tweets in
schmälere Streams aufzuteilen, die so aus der Unmenge an Daten sinnvoll nutzbare
Informationen machen sollen.
Das ändert allerdings nichts an der Tatsache, dass diese Streams aus einzelnen Tweets
bestehen, die von verschiedenen Personen kommen.
In dieser Arbeit soll ein Tool entwickelt werden welches folgende Forschungfragen
beantworten kann:
• Was ist die Gesamtaussage aller Tweets zu einem bestimmten Thema?

• Worüber twittert eine Person am meisten?
• Was denkt eine Person zu einem bestimmten Thema?
• Welche Personen finden ein bestimmtes Thema interessant?
Die von Twitter zur Verfügung gestellten Tools decken diese Aufgabenstellung nicht ab.
Twitter ist als Forschungsobjekt besonders interessant, da es gänzlich neue Art der
Kommunikation darstellt. Es wurden bereits viele Aspekte dieses neuen Mediums untersucht,
um die Tauglichkeit für verschiedene Einsatzzwecke zu prüfen:
• Der Einsatz von Twitter in wissenschaftlichen Prozess und dem Verfassen von
wissenschaftlichen Arbeiten. Die Frage ist, wie ändert Twitter diesen Prozess und wie
verändert sich das Modell zur Kollaboration. [1]
• Der Einsatz von Twitter auf wissenschaflichen Konferenzen und Tagungen.
Teilnehmer dieser Veranstaltungen können Tweets mit Hashtags kennzeichnen und so
der Veranstaltung zuordnen. [2] [3] [4]
• Twitter bei Lehrveranstaltungen und Vorträgen. Wie kann Microblogging die
Interaktivität erhöhen? [5]
• Die Verwendung von Twitter auf Universitäten. [6]
• Warum User tweeten und retweeten. Microblogging wirft wie jede andere
Kommunikationsform gewissen soziologische und sozialpsychologische
Fragestellungen auf. [7] [8]
Alle diese Themen würden von einer Möglichkeit profitieren, die oben gestellten Fragen
zu beantworten. Eine semantische Analyse von Tweets wäre sehr nützlich für diese
Bereiche.
2 Stand der Technik
Es gibt im Internet bereits viele Seiten, die es sich zur Aufgabe gemacht haben, Twitter zu
analysieren. Im ersten Schritt werden bestehende Tools angesehen und kategorisiert.
Man kann diese Tools grob in 2 Kategorien einteilen:
• Quantitative Tools
• Qualitative Tools
Quantitative Tools beschäftigen sich mit Twitter auf numerischer Ebene. Sie analysieren die
Anzahl der Tweets, Followers und Followees, oder sogar die Uhrzeit wann Tweets verfasst
wurden. Durch diese Analyse von Zahlen sollen neue Aussagen gewonnen werden.
Qualitative Tools konzentrieren sich auf den Inhalt der Tweets.
Followers von User X sind definiert als die Twitter User, die User X folgen.
Followees von User X sind definiert als die Twitter User, denen User X folgt.
2.1 Quantitative Tools
2.1.1 GigaTweet [http://popacular.com/gigatweet/]
Bild 2 – Homepage von Gigatweet
GigaTweet ist die simpelste und beispielhafteste Variante eines quantitativen Tools. Diese
Website ist ein globaler Zähler aller Tweets. Zum Zeitpunkt dieses Screenshots waren es über
19 Milliarden Tweets, und die Anzahl steigt stetig.
Als zusätzliche Information zeigt GigaTweet Graphen über die zeitliche Verteilung der
Tweets aufgetragen über Stunden oder Tage. [Bild 2]
2.1.2 Twittercounter [http://twittercounter.com/]
Twittercounter zählt die Followers, Followees und Tweets seiner registrierten User. Diese
Zahlen lassen sich dann als Graphen darstellen und vergleichen.
Bild 3 – Top 5 der Rangliste von Twittercounter
Eine weitere Implementation von Twittercounter ist die Rangliste. User werden nach der
Anzahl ihrer Follower gerankt. [Bild 3] [http://twittercounter.com/pages/100]
Twittercounter ist ein rein quantitatives Tool, da nur die Anzahl der Followers, Followees und
Tweets als Faktoren herangezogen werden.
2.1.3 SleepingTime [http://www.sleepingtime.org/]

Bild 4 – Bill Gates analysiert durch SleepingTime
SleepingTime benutzt die Uhrzeit der Tweets und die bei Twitter eingestellte Zeitzone eines
Users um vorherzusagen, wann dieser User schläft. Dies ist ein weiteres Beispiel für ein rein
quantitatives Tool. [Bild 4]
2.1.4 FRIENDorFOLLOW [http://friendorfollow.com/]
Bild 5 – Homepage von FRIENDorFOLLOW
FRIENDorFOLLOW beschäftigt sich nicht mit Tweets, sondern nur mit Followers und
Followees. [Bild 5]
Dieses Tool vergleicht die Liste der Followers mit der Liste der Followees eines Users und
listet alle Followees auf, die keine Followers von diesem User sind. User, zu denen eine
beidseitige Follower-Beziehung besteht, werden in diesem Zusammenhang als Friends
bezeichnet.
So zeigen sich die zwei unterschiedlichen Ausprägungen von Twitter. Die meisten User
vernetzten sich mit ihren Freunden und folgen sich gegenseitig. Diese Nutzung ist ähnlich wie
bei anderen sozialen Netzwerken wie Facebook, wo das Schließen einer bidirektionalen
Verbindung die einzige Möglichkeit ist. Zusätzlich benutzen sie Twitter auch als
Informationsmedium und folgen Accounts von Nachrichtendiensten, Firmen oder Celebrities.
Diese Accounts haben meiste viele Followers, werden für Broadcasting von Nachrichten und
PR verwendet und haben in der Regel kein Interesse daran, ihren Followers zu folgen. Hier
kann man eine Parallele zu Pages von Facebook ziehen. Twitter bietet seinen Usern so die
Möglichkeit, rein passiv, rein aktiv oder auf beide Arten zu kommunizieren.
2.2 Qualitative Tools
2.2.1 Google Follow Finder [http://www.followfinder.googlelabs.com/]
Bild 6 – Vorschläge für einen bestimmten User bei Follow Finder
Follow Finder bildet einen Übergang zwischen den qualitativen und den quantitativen Tools.
Die Idee hinter Follow Finder ist, dass User mit ähnlichen Followers und Followees auch
ähnliche Interessen haben, und man dieses Wissen nutzen kann, um neue User kennen zu
lernen.
Follow Finder erhält einen Twitter Username und generiert daraus zwei Vorschlag-Listen.
[Bild 6] [http://followfinder.googlelabs.com/static/about.html]
• „Tweeps you might like“ entsteht durch Analyse der Followees eines Users. Die
Followee-Liste des analysierten Users wird mit den Listen anderer User verglichen,
und User, die in anderen Listen vorkommen, aber nicht in der Liste des analysierten
Users sind, werden vorgeschlagen. So lassen sich Twitter User finden, die über
ähnliche Themen wie die User tweeten, denen man bereits folgt.
• „Tweeps with similar followers“ entsteht durch Analyse der Followers eines Users.
Die Follower-Liste des analysierten Users wird mit den Listen anderer User
verglichen, und User mit ähnlichen Followers werden vorgeschlagen. So lassen sich
Twitter User finden, die über ähnliche Themen wie der analysierte User tweeten und
daher die gleichen Followers anziehen.
Der Sinn von Follow Finder ist es, neue User zu entdecken, denen man folgen möchte, indem
die Interessen des analysierten User in Beziehung zu anderen Usern gesetzt wird. Somit
beginnt Follow Finder mit einer quantitativen Analyse, aber präsentiert Resultate auf einer
qualitativen, semantischen Ebene.
2.2.2 TweetPsych [http://tweetpsych.com/]
Bild 7 – Ausschnitt der Analyse eines Users bei TweetPsych

TweetPsych analysiert alle Tweets eines Users um ein psychologisches Profil des Users
anhand des Inhalts seiner Tweets zu erstellen.
Das Profil ist aufgeschlüsselt in Kategorien wie Work, Leisure, Learning, Money, Time,
Future, Present, Past, Media, Emotions, Positive, Negative und einige weitere Themen.
Der User wird dann mit dem Durchschnitt der bereits analysierten und dem System bekannten
User verglichen, und die Themen werden nach Häufigkeit der Tweets gereiht. Ein Beispiel:
„User X schreibt 150% mehr über Money als der durchschnittliche User“. [Bild 7]
Als zusätzliches Feature werden Twitter User vorgeschlagen, die ähnliche

Persönlichkeitsprofile wie der analysierte User erhalten haben.
TweetPsych benutzt zwei verschiedene linguistische Analysealgorithmen namens RID und

LIWC [http://www.liwc.net/] um ein psychologisches Profil einer Person basierend auf dem
Inhalt ihrer Tweets aufzubauen. [http://tweetpsych.com/site.php]
Durch die Analyse des Inhalts der Tweets reiht sich TweetPsych in die Reihe der
semantischen Tools ein.
2.2.3 Tweet Sentiments [http://tweetsentiments.com/]
Tweet Sentiments analysiert einzelne Tweets und teilt sie in positive, negative und neutrale
Tweets ein.
Die Startseite zweigt ein Dashboard, das ständig aktuelle Tweets zeigt, jeweils mit einer rot,
gelb oder grün gefärbten Sprechblase, die die Stimmung ausdrückt.
Unter „Analyze“ kann man die Tweets zu einem bestimmten User oder Keyword/Hashtag
analysieren lassen. Bei der Analyse eines Users wird zusätzlich versucht, Informationen zu
Ausbildung, Schreibstil, Geschlecht und Alter aus den Tweets zu extrahieren.
Das Ergebnis der Analyse ist nur wenig zufriedenstellend. Bild 8 zeigt ein Negativbeispiel.
Der aktuellste Tweet wurde trotz „looking forward to this“ wegen dem Wort „madness“ im
Text als negativ eingestuft. Auch der Tweet über Firefox wurde trotz „loving“, „working“ und
„quicker“ als negativ befunden.
Bild 8 – Tweet Sentiments Analyse eines Users
3 Umsetzung
3.1 Theorie
Alle Tweets auf Twitter gemeinsam zu analysieren macht keinen Sinn. Die User tweeten zu
jedem vorstellbaren Thema, und eine Analyse dieses ungefilterten Datenstroms würde keine
sinnvollen Ergebnisse liefern. Es soll eine Aussage zu einem bestimmten Thema oder über
eine bestimmte Person getroffen werden. Man darf in einem Analysedurchgang nur Tweets
von einer bestimmten Person, oder mit einem bestimmten Keyword oder Hashtag im Text
betrachten. Eine Filterung ist notwendig.
Der erste Ansatz von STAT ist, die Wörter in Tweets zu zählen. Durch die große Anzahl der
Tweets soll es möglich sein, durch das Herausfiltern der meistbenutzten Begriffe einen
Überblick über Aussagen hinter den Tweets zu bekommen. Die Ergebnisse sollen dann
wieder in Kategorien aufgeteilt werden können: Benutzer, Hashtags und Keywords. Ein
Keyword ist definiert als jedes Wort in einem Tweet, das kein Hashtag oder Username ist.
Durch das Aufspalten in diese Kategorien wird versucht konkrete Aussagen nach der Analyse
treffen.
Das Zählen der Wörter stellt eine Herausforderung dar. Der Aufbau der natürlichen Sprache
führt zu einem hohen Anteil an Bindewörtern und Pronomen. Zusätzlich werden in Tweets
häufig anderen Konstrukte verwendet, die als Wörter klassifiziert werden und keine wirklich
Aussagekraft haben. Beispiele hierfür sind freistehende Bindestriche oder Punkte. Diese
wenig aussagekräftigen Komponenten müssen herausgefiltert werden um die Analyse
sinnvoller zu machen.
Somit kommen wir zu folgendem Ablauf, den das Programm erfüllen muss:
Schritt 1: Filterung und Download von Tweets

Schritt 2: Analyse der Tweets durch Wörterzählen und Aufbereitung der Ergebnisse
3.2 Filterung und Download von Tweets – Twapper Keeper [11]
STAT kommuniziert nicht direkt mit Twitter, sondern nutzt die Drittanwendung Twapper
Keeper um relevante Tweets zu finden.
Twapper Keeper ist eine webbasierte Applikation, die Archive von Tweets für einen
bestimmten Hashtag, ein bestimmtes Keyword oder für eine bestimmte Person anlegen kann.
Twapper Keeper sammelt dann alle Tweets mit diesen Keywords/Hashtags oder von dieser
Person.
Eine von der TU Graz entwickelte Applikation namens Grabeeter funktioniert ähnlich.
Grabeeter kann jedoch nur die Tweets von Personen archivieren, die Filterung nach Hashtags
oder Keywords fehlt hier. [10]
Für Hashtags und Keywords lassen sich bis zu 1500 Tweets finden, die vor dem Anlegen des
Archivs geschrieben wurden. Diese dürfen maximal 7-10 Tage vorher verfasst worden sein.
Für Personen können bis zu 3200 bereits geschriebene Tweets ohne zeitliche Einschränkung
gefunden werden. Diese Grenzen ergeben sich durch das Twitter Advanced Programming
Interface (API), das keinen Zugriff auf ältere Tweets ermöglich.
Wenn das Archiv erstellt ist, werden die betreffenden Tweets ständig überwacht und alle
neuen Tweets von dieser Person oder mit diesem Keyword/Hashtag werden automatisch zum
Archiv hinzugefügt.
Die Archive von Twapper Keeper erfüllen die erste Anforderung des Programms: Sie
beschränken sich auf eine Person, ein Hashtag oder ein Keyword. Mit diesen Ausgangsdaten
kann eine weitere Analyse gestartet werden.
Twapper Keeper bietet eine einfache API an. Man kann damit auf die Tweets in Archiven
zugreifen, Information über die Archive selbst erhalten oder neue Archive erstellen. Die
Antworten werden als JSON zurückgeliefert. [12]
Folgende drei Funktionen stellt die Twapper Keeper API zur Verfügung:
3.2.1 Informationen über ein Archiv

http://api.twapperkeeper.com/notebook/info/?apikey=xxxx&type=xxxx&name=xxxx&nameli
ke=xxxx&desclike=xxxx
Mit dem Parameter „name“ wird ein bestimmtes Archiv abgefragt, mit „namelike“ lässt sich
nach Archiven suchen. STAT verwendet den Parameter „name“. Der für STAT relevante
Rückgabewert ist ob das Archiv existiert und wenn ja, wie viele Tweets es enthält.
3.2.2 Tweets in einem Archiv

http://api.twapperkeeper.com/notebook/tweets/?apikey=xxxx&name=xxxxx&type=xxxx&star
t=0&end=1266825684
Dieser Aufruf liefert die Tweets in einem Archiv zurück. Mit „start“ und „end“ lässt sich der
Zeitraum eingrenzen. Das Limit von abrufbaren Tweets pro Aufruf ist 10000. Wenn die
Anzahl der abgefragten Tweets höher ist, werden die aktuellsten 10000 zurückgeliefert. STAT
verwendet diese Abfrage, um Tweets herunterzuladen und lokal zu speichern.
3.2.3 Ein neues Archiv erstellen

http://api.twapperkeeper.com/notebook/create/?apikey=xxx&name=abcdefg&type=hashtag&
description=test&created_by=jobrieniii&user_id=1234
Erstellt ein neues Archiv für die übergebenen Parameter.
Durch Verwendung dieser drei Funktionen haben wir eine einfache Möglichkeit, die für die
Analyse nötigen Tweets zu sammeln und abzurufen.
3.3 Die Implementation von STAT
STAT verwendet eine Kombination aus verschiedenen Technologien und

Programmiersprachen, um dem Benutzer ein Tool zur Verfügung zu stellen, dass sich leicht
bedienen lässt. Die beiden Hauptkomponenten des Programms sind ein Command Line Tool
in Python und eine Weboberfläche in PHP.
Bild 9 – Ordnerstruktur von STAT

In Bild 9 ist die Ordnerstruktur von STAT zu sehen. Im Hauptordner liegt das Python Script
„twitter.py“, in dem die Programmlogik enthalten ist. Ebenfalls hier zu finden sind einige
HTML und PHP Dateien so wie ein CSS Stylesheet. Diese Dateien stellen die Weboberfläche
von STAT zur Verfügung.
Im Ordner „data“ werden in den Unterordnern „hashtag“, „keyword“ und „person“ die JSON
Files gespeichert. Diese enthalten die nach Hashtag, Keyword oder Benutzer sortieren
Tweets.
Das Verzeichnis „languages“ enthält Textdateien zu verschiedenen Sprachen mit Blacklist-

Einträgen für die Analyse.
3.3.1 Command Line Tool
Das Command Line Tool “twitter.py” beherrscht folgende Funktionen („value“ kann jeweils
ein Keyword, Hashtag oder User sein):
python twitter.py info „value“

Die Info-Funktion überprüft, ob es ein Twapper Keeper Archiv des eingegebenen Parameters
“value” gibt. Wenn es ein Archiv gibt, wird die Anzahl der enthaltenen Tweets gezählt. Für
diese beiden Schritte wird die Info-API von Twapper Keeper benutzt (siehe 3.2.1).
Danach wird überprüft, ob es bereits ein lokales Archiv des Parameters „value“ gibt, und die
Tweetanzahl mit dem Twapper Keeper Archiv verglichen. [Bild 10]
Der Zweck dieser Funktion ist es, schnell festzustellen ob ein lokales Archiv aktuell ist.
Bild 10 – Info Funktion des Command Line Tools
python twitter.py update „value“

Update verwendet die Tweets-API (siehe 3.2.1) von Twapper Keeper um die Tweets eines
Archivs lokal zu speichern.
Zuerst wird mit der Info-API überprüft, ob das gewünschte Archiv existiert und Tweets
enthält.
Bei einem positiven Ergebnis wird die Tweets-API aufgerufen und die resultierende JSON-
Antwort als „value.json“ Datei in das passende Unterverzeichnis von „data“ gespeichert. [Bild
11]
Bild 11 – Update Funktion des Command Line Tools
python twitter.py create „value“

Create erstellt eine neues Twapper Keeper Archiv mit Hilfe der Create-API (siehe 3.2.1).
Zuerst wird mit der Info-API geprüft, ob das Archiv nicht bereits existiert.
Danach wird die Create-API aufgerufen und ein neues Archiv erstellt. [Bild 12]
Bild 12 – Create Funktion des Command Line Tools
python twitter.py analyze „value“ oder python twitter.py analyze „value1“ “value2”
Die Analyze-Funktion ist das Kernstück von STAT. Analyze nimmt entweder einen oder zwei
Parameter entgegen, je nachdem ob eine generelle oder eine spezifischere Analyse gewünscht
wird.
Der erste Parameter ist immer ein lokales Archiv. Zuerst wird überprüft, ob das gewünschte
Archiv vorhanden ist. Danach werden alle Tweets des Archivs in eine Liste geladen. [Bild 13]
Bild 13 – Erster Teil der Analyze Funktion des Command Line Tools
Das weitere Vorgehen hängt vom Anzahl und Typ der Parameter ab. Je nachdem ob ein
Keyword, Hashtag oder Username übergeben wird analysiert STAT andere Aspekte.
Folgende Ergebnisse können für die spezifischen Aufrufe generiert werden:
X: Person, Y: (leer)
• Which persons does X correspond with?
• Which keywords does X use?
• Which hashtags does X use?
X: Person, Y: Keyword oder Hashtag

• Who does X talk to about Y?
• Which keywords does X write together with Y?
• Which hashtags does X write together with Y?
X: Person, Y: Person
• Which other persons are addressed by X together with Y?
• Which keywords does X use when addressing Y?
• Which hashtags does X use when addressing Y?
X: Keyword oder Hashtag, Y: (leer)

• Which persons write about X?
• Which keywords are used with X?
• Which hashtags are used with ?
X: Keyword oder Hashtag, Y: Keyword oder Hashtag

• Which persons write X together with Y?
• Which keywords are used with X and Y?
• Which hashtags are used with X and Y?
X: Keyword oder Hashtag, Y: Person

• Which persons write about X with Y?
• Who does Y talk to about X?
• Who else is addressed with Y about X?
• Which keywords are used by Y about X?
• Which hashtags are used by Y about X?
Jede dieser Fragen wird durch eine Liste von Keywords, Hashtags oder Namen beantwortet,
die nach Anzahl der Verwendung absteigend sortiert ist.
In Bild 14 ist Code zur Beantwortung der ersten zwei Fragen einer Keyword/Hashtag Analyse
mit einem Parameter zu sehen.
Bild 14 – Ein Teil der Analyse Funktion des Command Line Tools
3.3.2 Die Implementation von STAT – Web Interface

Um STAT auch ohne Command Line benutzbar zu machen wurde das Python Tool mit einer
Weboberfläche ausgestattet.
Bild 15 – Startseite von STAT
Bild 15 zeigt die Startseite von STAT. Diese Seite enthält Links zur Analyse, der Liste lokaler
Archive und der Update/Create Funktion. Zusätzlich ist noch eine kurze Beschreibung der
einzelnen Funktionen vorhanden.
Bild 16 – Analyse Seite von STAT

Bild 17 – Analyse Ergebnis Seite von STAT
Die Analyse Seite enthält ein Formular zur Eingabe von einem oder zwei Parametern. Mit
dem „submit“-Button werden die Parameter per POST an ein PHP Script übergeben. Dieses
führt per „exec“ das Python Programm mit den übergebenen Parametern aus. Die Ergebnisse
werden dann auf der Seite angezeigt. [Bild 16] [Bild 17]
Bild 18 – Lokale Archive Seite von STAT
STAT hat eine Seite die Archive auflistet, die lokal gespeichert sind und somit zur Analyse
bereit stehen. Ein Link neben jedem Archiv ermöglicht die direkte Analyse. [Bild 18]
Bild 19 – Update/Create Seite von STAT
Die Update/Create Seite stellt nur ein Feld zur Eingabe zur Verfügung [Bild 19]. Das
Ergebnis ist je nach Status des Twapper Keeper Archivs und des lokalen Archivs verschieden:
Kein Twapper Keeper Archiv, daher auch kein lokales Archiv
• Das Python Script wird mit „create“ aufgerufen um ein neues Twapper Keeper Archiv
zu erstellen.
• Der User wird gebeten zu warten, damit sich das Archiv mit Tweets füllen kann.
Danach kann er noch einmal diese Seite verwenden.
Twapper Keeper Archiv existiert aber kein lokales Archiv

• Das Python Script wird mit „update“ aufgerufen um das Archiv herunterzuladen.
• Der User wird über ein erfolgreiches Update informiert.
Twapper Keeper Archiv hat gleich viele Tweets wie lokales Archiv
• User wird informiert dass das lokale Archiv bereits auf dem aktuellsten Stand ist.
Twapper Keeper Archiv hat mehr Tweets als lokales Archiv

• Das Python Script wird mit „update“ aufgerufen um die neuesten Tweets
herunterzuladen.
• Der User wird über ein erfolgreiches Update informiert.
4 Diskussion
Welche Aussagen lassen sich aus den gelieferten Ergebnissen von STAT generieren? Im
folgenden wird an zwei Beispielen gezeigt, wie man STAT anwenden kann.
4.1 Analyse ED-MEDIA Konferenz 2010
ED-MEDIA ist eine jährliche internationale Konferenz der AACE (Association for the
Advancement of Computing in Education). Themen dieser Konferenz sind „Educational
Multimedia, Hypermedia & Telecommunication“ [13].
Das offizielle Hashtag für Tweets zu ED-MEDIA ist „#edmedia“. Durch dieses Tagging ist es
möglich, mit STAT die Tweets betreffend ED-MEDIA zu analysieren.
Eine erste Analyse mit dem Parameter „#edmedia“ liefert folgendes Ergebnis:
which @persons write about #edmedia
mebner (235), gsiemens (112), walthern (108), CosmoCat (72), Nona_Muldoon (66),
ProfBravus (61), benbull (57), NancyWhite (49), psychemedia (45), LisaMLane (45), Downes
(38), schwier (37), klconover (36), cogdog (36), cosmo07 (32), gconole (29), anitsirk (27),
mdrapp (24), aoyamassi (22), LizFalconer (20), ...
which keywords are used with #edmedia
rt (452), is (352), i (237), from (190), my (155), about (147), with (122), that (120), learning
(120), it (120), this (119), are (117), we (112), be (111), your (104), have (100), not (99),
great (97), social (94), presentation (93), media (87), will (86), all (84), what (83), but (82),
as (79), by (78), out (77), use (76), how (73), talk (72), good (71), our (70), keynote (67),
twitter (67), can (66), me (66), online (65), now (63), so (62), & (60), thanks (59), just
(58), get (57), more (56), web (56), if (56), paper (54), ideas (54), do (53), ...
which #hashtags are used with #edmedia
#toronto (20), #ple (19), #hermannmaurer (18), #whoweare (9), #highered (8),
#travelbacktoaustria (7), #keynote (7), #poster (6), #grabeeter (6), #frank (6), #roombay (6),
#elearning (6), #ple_bcn (6), #ukoer (5), #audioboo (5), #xphone (4), #graz (4),
#twitterstream (4), #oer (4), #edtech (4), #uoit5199 (4), #mlearning (4), #film (3), #edreform
(3), #equity (3), #moodle (2), #scmedu (2), #workshop (2), #secondlife (2), # (2), #colaab (2),
#downes (2), #iste10 (2), #digitalworld (2), #mebner (2), #education (2), #digitalnatives (2),
#sakai (2), #electricity (2), #mustsee (2), #stat2 (2), #telbib... (2), #digcult10 (2), #maurer (2),
#toronto; (2), #allhailtonyhirst (2), #virtual (1), #aloha09 (1), #m-learning (1), #iphone (1),
...
Die erste Gruppe von Ergebnissen zeigt, welche User die meisten Tweets zu diesem Thema
gemacht haben. Man kann sehen, wer sich besonders für dieses Thema interessiert und wer
viel zu diesem Thema twittert. Besonders interessant ist diese Kategorie, wenn man die
gelisteten Personen kennt.
Zusätzlich lassen sich diese Daten dazu benutzen, eine vertiefende Analyse zu machen, und
nur die Tweets einer bestimmten Person zu diesem Thema zu analysieren.
Die Gruppe der Keywords enhält alle normalen Wörter eines Tweets. Durch den Aufbau der
natürlichen Sprache kommt es hier zu den meisten Wörtern ohne großen Informationsgehalt.
Trotzdem lassen sich Aussagen treffen.
An erster Stelle steht „RT“. Das zeigt an, dass überdurchschnittlich viele User Tweets zu
diesem Thema retweeten. „is“ und „I“ an den Stellen 2 und 3 kommen häufig vor. Hier muss
man abwegen, ob man diese Wörter jedoch per Blacklisting aus den Analysen ausschließen
möchte.
Die Information, die uns diese Wörter liefern sind, dass die Benutzer viel über ihre
persönlichen Erfahrungen schreiben („I“), und viele Tweets über die Gegenwart verfassen
(„is“ statt „will“ oder „was“). „My“ an fünfter Stelle bekräftigt diesen Trend zu persönlichen
Tweets, und „will“ ist mit 86 Erwähnungen deutlich seltener vertreten als das oben genannte
„is“ mit 352.
Das erste Hauptwort in der Liste ist „learning“, was sehr gut mit dem Thema der Konferenz
korreliert. Das erste Eigenschaftswort ist „great“. Das zeigt, dass die User diese Konferenz
mögen, oder zumindest mehr über die positiven Erlebnisse twittern.
Die weiteren Wörter wie „social“, „media“, „presentation“, „talk“, „keynote“, „good“, „web“
und „twitter“ geben weitere Hinweise über die Themen und die Reaktionen auf die
Konferenz. Social Media und das Web scheinen wichtige Themen zu sein und es wird viel
über Keynotes und andere Talks getwittert. Es werden „papers“ präsentiert, „ideas“
ausgetauscht, und viele User sagen einfach „thanks“.
Die letzte Gruppe von Ergebnissen sind die Hashtags. Diese sind leichter zu interpretieren als
die Keywords, da sie dafür vorgesehen sind, auch alleine sinnvoll zu sein. Im Gegensatz zu
den Keywords muss man keine irrelevanten Ausdrücke herausfiltern, da die User nur Wörter
als Tags verwenden, die sie als relevant erachten.
Das meistverwendete Tag ist „#toronto“, der Veranstaltungsort der ED-MEDIA 2010. Die
Tags „#PLE“ und „#ple_bcn“ stehen für Personal Learning Environment, das offensichtlich
ein Thema bei der Konferenz ist. Auch „#grabeeter“, „#elearning“, „#audioboo“ und
„#edtech“ scheinen Themen bei der Konferenz zu sein. Es wird auch wieder über „#keynotes“
geschrieben. „#hermannmaurer“ ist ein oft verwendetes Tag, und scheint daher einen
wichtigen Beitrag zur Konferenz geleistet zu haben.
All diese Tags eignen sich zur weiteren, vertiefenden Analyse, oder auch nur zur einfachen
Internetsuche um mehr über das Thema zu erfahren.
Anhand dieser ersten Analyse zeigen sich bereits ein paar Aspekte von STAT sehr deutlich.
Die Analyse funktioniert am besten, wenn alle analysierten User ihre Tweets passend und
ausreichend taggen. Bei Konferenzen wie ED-MEDIA, die sich mit Social Media
beschäftigen, und deren Teilnehmer mit Twitter vertraut sind, kann man davon ausgehen, dass
das der Fall ist.
Man kann nun zum Beispiel ein Hashtag als Ausgangspunkt einer weiteren Analyse
verwenden. Das Tag „#hermannmaurer“ sticht heraus. Wenn man mit STAT weiter filtert
kann man folgendes herausfinden:
Hier das Ergebnis der Analyse mit „#edmedia“ und „#hermannmaurer“:
which @persons write #edmedia together with #hermannmaurer
mebner (11), digitisation (2), okinasevych (2), johnnigelcook (1), yvonhuybrechts (1),
ErikDuval (1)
which keywords are used with #edmedia and #hermannmaurer
is (9), rt (6), showing (6), http://bit.ly/az7zd0 (4), movie (4), this (4), as (3), flying (3), 's (3),
about (3), future (3), talk (3), credible (2), impression (2), me. (2), video (2), want (2), cars?
(2), [must (2), not (2), "nokia (2), source (2), audioboo: (2), disney (2), see: (2), mixed (2),
reality" (2), reference? (2), 20 (2), data (2), lost (2), i (2), http://bit.ly/9njwfp (2),
http://boo.fm/b146833 (2), media (2), popular (2), xphone!] (2), his (1), learning (1), just (1),
"any (1), precondition (1), years (1), topic (1), talking (1), session (1), thanks (1), second (1),
beyond (1), visions (1), ...
which #hashtags are used with #edmedia and #hermannmaurer
#keynote (5), #xphone (4), #toronto (2)
In der ersten Kategorie sieht man, welche Personen diese beiden Hashtags verwendet haben,
und es zeigt sich, dass die meisten dieser Paare von einem einzelnen Twitter User kommen.
Die Kategorie der Keywords zeigt wieder eine Mischung aus sinnvollen Wörtern, und aus
Wörtern die aus dem Kontext gerissen keinen Sinn machen. Nichtsdestotrotz erkennt man 6
Retweets (vielleicht von den anderen Personen, die weniger oft dieses Hashtag-Paar getwitter
haben?). Hinter dem Link können sich sinnvolle Informationen befinden. Die anderen Wörter
zeigen ein grobes Muster über den Inhalt der Tweets: „showing“, „movie“, „talk“, „future“,
„flying“, „cars“…
An den Hashtags lässt sich erkennen dass „#hermannmaurer“ anscheinend eine Keynote auf
der ED-MEDIA Konferenz in „#toronto“ gehalten hat, und dass zumindest eines der Themen
ein „#xphone“ war.
Anhand dieser Analyse hat man also schon eine gute Vorstellung vom Zusammenhang
zwischen „#edmedia“ und „#hermannmaurer“.
4.2 Analyse PLE2010 Konferenz
Die PLE2010 Konferenz beschäftigt sich mit Personal Learning Environments, und
Entwickler und Anwender von PLEs können dort ihre Ideen, Erfahrungen und Forschungen
austauschen und präsentieren. [14]
Das offizielle Hashtag der Konferenz ist „#ple_bcn“. Somit sind ideale Voraussetzungen
gegeben, um die Konferenz mit STAT zu analysieren.
which @persons write about #ple_bcn
catspyjamasnz (352), cristinacost (335), timbuckteeth (325), pgsimoes (305), mediendidaktik

(281), gemturfer (214), PLE_BCN (183), lindacq (182), eraser (171), torresk (138), MonVall
(126), wollepb (80), ainhoaeus (78), sguilana (76), suukii (75), petrushyna (74), josemota
(73), ggrosseck (69), pazinguez (65), ConnectIrmeli (65), ...
which keywords are used with #ple_bcn
rt (2829), ple (1062), is (845), i (669), conference (572), de (555), en (488), we (406),
learning (403), la (387), are (373), with (372), my (335), be (334), it (334), el (303), your
(300), have (277), about (272), from (262), just (240), not (239), :) (236), y (235), :-) (234),
great (228), as (226), now (225), this (221), by (220), no (218), will (218), personal (213), all
(209), barcelona (202), our (198), 2010 (192), can (187), but (187), me (186), so (181), ples
(179), & (178), that (176), what (172), how (166), new (165), workshop (164), ;-) (160), here
(156), ...
which #hashtags are used with #ple_bcn
#ple (509), #k2 (177), #twple (84), #s4 (78), #pledefinition (53), #citilab (36), #talkingabout
(31), #pln (30), #pechakucha (26), #mypln (24), #edtech (21), #yam (18), #ple2011 (18),
#role-eu (16), #prezi (14), #wave (13), #google (13), #worldcup (11), #s9 (11),
#courosbroseuro10 (11), #moodle (9), #esei (9), #sapocampus (9), #ple? (9), #tweeplelist (9),
#kn2 (9), #slideshare (9), #eite (8), # (8), #ple2010 (8), #unkeynote (8), #%*^ (8), #ukulele
(8), #talkingabout: (7), #edchat (7), #olpc (7), #esp (7), #role (7), #ff (6), #edmedia (6), #s10
(6), #s15 (6), #mpel3 (6), #ipad (6), #compartim (6), #twitter (6), #ger (5), #sorry (5),
#bcnsmc (5), #s8 (5), ...
Wie üblich listet die erste Kategorie die Twitter User auf, die dieses Hashtag am meisten
verwenden. Bemerkenswert ist hier, dass der offizielle Twitter Account der Konferenz
(@PLE_BCN) bereits an siebter Stelle steht, und somit sehr aktiv ist. Bei der ED-MEDIA
Konferenz ist der offizielle Account (@edmedia) nicht in den 20 aktivsten Usern.
Bei den Keywords findet sich wieder eine enorme Menge von Retweets an erster Stelle. An
zweiter Stelle, und somit das erste „echte“ Keyword ist „PLE“. Bei einer Konferenz mit
diesem Thema ist das nicht weiter verwunderlich.
Andere Keywords sind sehr ähnlich zur ED-MEDIA Konferenz: „personal“, „learning“,
„conference“, „workshop“.
Auch das Wort „great“ kommt wieder oft vor, genau wie zwei Arten von Smileys: :) und :-)
Das deutet darauf hin, dass auch hier die Teilnehmer sehr positiv zu ihrer Konferenz
eingestellt sind.
„Barcelona“ als diesjähriger Veranstaltungsort ist oft erwähnt. In Zusammenhang damit
finden sich auch viele spanische Zwischenwörter in dieser Liste: „el“, „la“, „en“ oder „de“.
Auch die offizielle Homepage der Konferenz sagt: „There will be a Spanish strand, so
contributions in Spanish are also welcome!“
STAT hat derzeit noch keine Blacklist für die spanische Sprache. Durch Einführung so einer
Liste würden sich diese Wörter ausschließen lassen und vielleicht mehr sinnvolle Wörter in
der Liste stehen.
Bei den Hashtags finden sich wieder Tags zu den diversen Themenbereichen der Konferenz.
Das bereits vond er ED-MEDIA bekannte Hashtag „#edtech“ ist hier vertreten. Google Wave
ist erwähnt und scheint als eine Art PLE angesehen zu werden. Auch das OLPC-Projekt hat
hier ein Tag.
Auch hier ist eine weiterführende Analyse möglich. Was haben PLEs und Google Wave
miteinander zu tun?
Analyse von „#ple_bcn“ und „#wave“:
which @persons write #ple_bcn together with #wave
suukii (4), Jeunito (3), catspyjamasnz (3), ggrosseck (2), hanspoldoja (1)
which keywords are used with #ple_bcn and #wave
is (7), not (5), google (5), we (3), it (3), all (2), looking (2), has (2), happened (2), workshop:
(2), good (2), now (2), team (2), are (2), rt (2), what (2), critical (2), first (2), company, (2),
point (2), your (2), company (2), -> (2), this (2), my (2), discussion (2), advertisement (2),
devt (2), software (2), just (1), session (1), re-orientation (1), prezi (1), get (1), queasy (1),
wave (1), know (1), nor (1), found (1), dump (1), back (1), design (1), sea.. (1), click (1),
research (1), contributing (1), wa (1), confusion (1), here (1), attending (1), ...
which #hashtags are used with #ple_bcn and #wave
#google (12), #sorry (1), #pln (1)
13 Tweets mit diesem beiden Tags existieren, und 12 davon enthalten ebenfalls das Hashtag
„#google“. Somit ist sichergestellt, dass auch wirklich über Google Wave und nicht eine
andere Applikation gesprochen wird.
Ein Blick auf die Keywords zeigt uns, dass „not“ sehr weit oben steht. Glauben die
Teilnehmer, dass Google Wave kein PLE ist? Sind sie „critical“? Man kann zwar im „team“
arbeiten, aber es ist von einer „company“ und hat „advertisement“.
Hier lässt sich leider keine verlässliche Aussage mehr treffen. Dieses Beispiel zeigt die
Grenzen von STAT auf. Wenn es zu wenige Tweets gibt, führt die Zerlegung in einzelne
Wörter nicht zu mehr Information, sondern zu weniger. 13 Tweets zu lesen wird hier
sinnvoller sein als deren Analyse. STAT ist primär ein Tool, um aus einer fast
unüberschaubar großen Menge von Tweets Informationen zu gewinnen.
Um STAT auch in diesem Rahmen sinnvoll einzusetzen, könnte man die Ergebnisse
verlinken. Bei einem Klick auf das Keyword „advertisement“ würden so die Tweets angezeigt
werden, die „#ple_bcn“ , „#wave“ und „advertisement“ enthalten. So lassen sich aus kleineren
Mengen von Tweets weiter Informationen gewinnen.
4.3 Probleme und Erweiterungen
STAT liefert bereits einige interessante Ergebnisse, doch dem Programm sind immer noch
Grenzen gesetzt. Manche dieser Einschränkungen sind durch die Verwendung von Twapper
Keeper bedingt. Andere können durch Änderungen in der Implementierung verbessert
werden.
Zusätzlich gibt es noch einige Features, die die Funktionalität von STAT sinnvoll erweitern
würden.
4.3.1 Probleme mit Twapper Keeper
Die API von Twapper Keeper liefert pro Anfrage maximal 10000 Tweets zurück. Wenn ein
Archiv größer als 10000 Tweets ist, werden die aktuellsten Tweets retourniert.
Aktuell könnte man dieses Problem lösen, indem man die API rekursiv aufrufen würde und
die erhaltenen JSON Files anschließend wieder zusammenfügt.
Allerdings soll diese Twapper Keeper API in nächster Zeit eine Änderung erfahren. Die
Ergebnisse werden seitenweise geliefert und durch geänderte Zugriffsmöglichkeiten abgefragt
werden.
Ein weiteres Problem von Twapper Keeper ist, dass Hashtag und Keyword Archive auch
Tweets enthalten können, in denen das gewünschte Hashtag/Keyword ein Teil des enthaltenen
Hashtags/Keywords ist. Als Beispiel dafür sei das Hashtag „#webm“ genannt, in dessen
Archiv sich viele Tweets mit dem Hashtag „#webmaster“ befinden.
Jeder Tweet muss daher von STAT überprüft werden, ob er auch wirklich das gewünschte
Hashtag/Keyword enthält.
Besonders kritisch wird es allerdings in Kombination mit dem ersten Problem, dem Limit auf
10000 Tweets. In unserem Beispiel ist das Tag „#webmaster“ um einiges beliebter als das Tag
„#webm“. Somit wird die Menge der analysierten Tweets um einiges geringer als 10000.
Durch die API Änderung wird dies allerdings gelöst.
Bleiben wird so allerdings das Problem des zusätzlichen Rechenaufwands und der JSON
Dateien, die viele nutzlose Tweets enthalten. Ein möglicher Lösungsansatz wäre hier,
Twapper Keeper um eine Änderung des verwendeten Algorithmus zu bitten.
4.3.2 Probleme mit der Implementierung von STAT
STAT ist mit dem Zerlegen eines Tweets in einzelne Keywords, Hashtags und User noch zu
umständlich.
Derzeit werden „@user“ und „@user:“ als 2 verschiedene User gezählt. Auch Wörter direkt
vor einem Beistrich, Punkt oder anderem Satzzeichen werden nicht mit den identischen
Wörtern ohne Satzzeichen gleichgesetzt. „hallo“ und „hallo!“ werden als 2 verschiedene
Wörter betrachtet.
Diese Probleme lassen sich durch Abfragen und Trimmen der Strings beheben, bedeuten aber
erhöhten Rechenaufwand für jedes einzelne Wort in der Analyse. Das Ergebnis ist jedoch eine
sinnvollere Analyse, in der mehr Wörter korrekt gezählt werden.
Allerdings kann es dadurch auch zu Fehlern in anderen Bereichen kommen. Wenn zum
Beispiel Doppelpunkte am Wortende generell abgeschnitten werden, kann es passieren, dass
manche Smileys (zum Beispiel dieser (-: ) zerstückelt werden und falsch dargestellt werden.
Bei der Implementierung dieser Überprüfung muss so genau überlegt werden, was
weggeschnitten wird und was bleiben soll.
Die Geschwindigkeit der Analyse stellt eine weitere Herausforderung dar. Bei der derzeitigen
maximalen Größe von 10000 Tweets kann die Analyse je nach verwendeter Hardware
teilweise sehr lange dauern. Wenn in zukünftigen Versionen noch mehr Tweets analysiert
werden können, steigt diese Zeit beträchtlich.
Die Effizienz der Implementierung ist hoch, aber die Datenmenge ist durch das Zerlegen der
Tweets in einzelne Wörter sehr groß. Daran lässt sich durch die Natur der Analyse nichts
ändern.
Aus diesem Grund muss dem User bewusst gemacht werden, dass der Server mit der
Bearbeitung der angeforderten Analyse beschäftigt ist. Derzeit wird die Analyse mit einem
einfachen „exec“ Befehl in PHP ausgeführt, und die Seite reagiert nicht, bis das Python Script
fertig ist.
In Zukunft sollte die Seite zumindest einen Indikator zeigen, dass die Analyse soeben
durchgeführt wird.
4.3.3 Mögliche Erweiterungen für die Zukunft
Eine sehr hilfreiche Erweiterung wäre es, die präsentierten Ergebnisse zu verlinken. Wenn ein
User also zum Beispiel auf „good (56)“ klickt, werden ihm die 56 Tweets angezeigt, in denen
das Wort „good“ vorkommt.
Dieses Ergänzung scheint sinnvoll, denn so lassen sich durch die Analyse zerstückelte Tweets
wieder zur Gänze anzeigen, und man würde in unserem Beispiel erfahren können, was genau
die Twitter User „good“ finden.
Tag-Clouds sind eine andere mögliche Erweiterung. So werden die oft geschriebenen
Keywords und Hashtags größer dargestellt, und die weniger oft verwendeten Begriffe kleiner.
Allerdings sollten die Tag Clouds nur als Alternative oder zusätzliche Darstellungsmethode
verwendet werden. Die reguläre Listenansicht bietet eine größere Fülle an Informationen.
5 Zusammenfassung und Ausblick
Twitter ist in verhältnismäßig kurzer Zeit sehr schnell gewachsen. Als Benutzer bietet sich
einem eine beinahe unüberschaubare Fülle an Daten. Die Herausforderung ist aus dem
endlosen Stream von Tweets sinnvolle Informationen zu gewinnen, und dazu gibt es
verschiedene Methoden.
Twitter selbst hat das Follower-System, mit dem man seine Informationsquellen einschränken
kann. Andere Tools von Drittanbietern schlagen vor, wem man folgen soll oder lassen feinere
Filterungen zu. Eine Vielzahl der Tools hat sich aber auf die Analyse von Twitter
spezialisiert.
Diese Analysetools lassen sich in zwei Kategorien einteilen: quantitative und qualitative
Tools.
Quantitative Tools beschäftigen sich mit der Anzahl der Tweets, Followers und Following
Users oder mit der Uhrzeit wann Tweets verfasst wurden. Es gibt einen globalen Tweet-
Zähler, eine Rangliste der meistgefolgten User, und ein Tool prognostiziert wann ein User
schläft.
Qualitative Tools analysieren den Inhalt der Tweets und die Art der Followers und Followees.
Es gibt Vorschlagsysteme für ähnliche User oder Analysetools für den Gemütszustand und
die allgemeine Psyche des Twitter Users.
Ein Tool, welches eine gezielte Analyse des Inhalts von Tweets einer bestimmten Person,
oder zu einem bestimmten Thema durchführen kann, fehlt jedoch. STAT, das semantische
Twitter Analyse Tool, schließt diese Lücke.
STAT sucht alle Tweets von einer bestimmten Person oder mit einem bestimmten Keyword
oder Hashtag. Diese Tweets können anschließend analysiert werden.
Das Ergebnis der Analyse sind Listen, die die meistverwendeten Wörter und Hashtags und
User in Zusammenhang mit den analysierten Parametern zeigen.
STAT kann auch zwei Parameter analysieren, und so tiefergehende Fragestellungen wie „Was
schreibt Person A zu Thema B?“ beantworten.
Dadurch lassen sich aus einer großen Menge von Tweets neue Erkenntnisse gewinnen, ohne
dass alle Tweets gelesen werden müssen.
In Zukunft wird STAT weiter verbessert werden und mehr Features anbieten, um die Analyse
sinnvoller, effizienter und einfacher zu gestalten. Es wird möglich sein, aus der Analyse
wieder zu den relevanten ursprünglichen Tweets zu navigieren und so einen tieferen Einblick
zu erhalten. Zusätzlich wird es graphische Darstellungen der Ergebnisse geben, um auf einen
Blick sofort wichtige Informationen erkennen zu können.
STAT kann ein wertvolles Werkzeug zur Analyse von Tweets für verschiedene Anwender
werden.
Referenzen
• [1] M. Ebner, H. Maurer (2009) Can Weblogs and Microblogs Change Traditional
Scientific Writing?, Future Internet 1, no. 1: 47-58.
• [2] M. Ebner, W. Reinhard (2009) Social networking in scientific conferences –
Twitter as tool for strengthen a scientific community, Workshop Science 2.0 for TEL,
ECTEL 2009
• [3] W. Reinhardt, M. Ebner, G. Beham, C. Costa (2009), How People are Using
Twitter during Conferences, Hornung-Prähauser, V., Luckmann, M. (Ed.), 5th
EduMedia conference, Salzburg
• [4] M. Ebner, H. Mühlburger, S. Schaffert, M. Schiefner, W. Reinhardt, S. Wheeler
(2010) Get Granular on Twitter - Tweets from a Conference and their Limited
Usefulness 1 for Non-Participants, Key competences in the knowledge society (2010),
S. 102 - 113 KCKS ; 2010
• [5] M. Ebner (2009) Introducing Live Microblogging: How Single Presentations Can
Be Enhanced by the Mass, Journal of Research in Innovative Teaching (JRIT)
• [6] M. Ebner, C. Lienhardt, M. Rohs, I. Meyer (2010) Microblogs in higher education
– a chance to facilitate informal and process oriented learning?, Computers &
Education
• [7] Java, X. Song, T. Finin, B. Tseng (2007) Why we twitter: understanding
microblogging usage and communities, In Proceedings of the 9th WebKDD and 1st
SNA-KDD 2007 workshop on Web mining and social network analysis, pages 56– 65.
ACM, 2007.
• [8] D. Boyd, S. Golder, G. Lotan (2010) Tweet, tweet, retweet: Conversational aspects
of retweeting on twitter, In Proceedings of the HICSS-43 Conference, January 2010.
• [9] M. Ebner, M. Schiefner (2008), Microblogging - more than fun?, In Proceedings of
IADIS Mobile Learning Conference 2008, Portugal
• [10] H. Mühlburger, M. Ebner, B. Taraghi (2010) @twitter Try out #Grabeeter to
Export, Archive and Search Your Tweets, in: Research 2.0 approaches to TEL. (2010),
S. 76 – 85
• [11] Twapper Keeper, http://twapperkeeper.com, Letzter Zugriff 2010-11-23
• [12] Twapper Keeper API, http://twapperkeeper.com/api.php, Letzter Zugriff 2010-
11-23
• [13] Association for the Advancement of Computing in Education,
http://www.aace.org/conf/edmedia/, Letzter Zugriff 2010-11-23
• [14] PLE Conference, http://pleconference.citilab.eu/, Letzter Zugriff 2010-11-23

Erschließung Und Analyse Von Twitter Analyse Tools

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Erschließung Und Analyse Von Twitter Analyse Tools

Hochgeladen von

Copyright:

Verfügbare Formate

Erschließung und Analyse

von Twitter Analyse Tools

Betreuer: Martin Ebner

Bild 1 – Die Anatomie eines Tweets (Quelle: Flickr L3T Gruppe,

• Was ist die Gesamtaussage aller Tweets zu einem bestimmten Thema?

Man kann diese Tools grob in 2 Kategorien einteilen:

2.1 Quantitative Tools

2.1.1 GigaTweet [http://popacular.com/gigatweet/]

Bild 2 – Homepage von Gigatweet

2.1.2 Twittercounter [http://twittercounter.com/]

Bild 3 – Top 5 der Rangliste von Twittercounter

2.1.3 SleepingTime [http://www.sleepingtime.org/]

2.1.4 FRIENDorFOLLOW [http://friendorfollow.com/]

Bild 5 – Homepage von FRIENDorFOLLOW

2.2 Qualitative Tools

2.2.1 Google Follow Finder [http://www.followfinder.googlelabs.com/]

Bild 6 – Vorschläge für einen bestimmten User bei Follow Finder

2.2.2 TweetPsych [http://tweetpsych.com/]

Bild 7 – Ausschnitt der Analyse eines Users bei TweetPsych

Als zusätzliches Feature werden Twitter User vorgeschlagen, die ähnliche

TweetPsych benutzt zwei verschiedene linguistische Analysealgorithmen namens RID und

2.2.3 Tweet Sentiments [http://tweetsentiments.com/]

Schritt 1: Filterung und Download von Tweets

3.2 Filterung und Download von Tweets – Twapper Keeper [11]

3.2.1 Informationen über ein Archiv

3.2.2 Tweets in einem Archiv

3.2.3 Ein neues Archiv erstellen

3.3 Die Implementation von STAT

STAT verwendet eine Kombination aus verschiedenen Technologien und

Bild 9 – Ordnerstruktur von STAT

Das Verzeichnis „languages“ enthält Textdateien zu verschiedenen Sprachen mit Blacklist-

3.3.1 Command Line Tool

python twitter.py info „value“

Bild 10 – Info Funktion des Command Line Tools

python twitter.py update „value“

Bild 11 – Update Funktion des Command Line Tools

python twitter.py create „value“

Bild 12 – Create Funktion des Command Line Tools

X: Person, Y: Keyword oder Hashtag

X: Keyword oder Hashtag, Y: (leer)

X: Keyword oder Hashtag, Y: Keyword oder Hashtag

X: Keyword oder Hashtag, Y: Person

3.3.2 Die Implementation von STAT – Web Interface

Bild 15 – Startseite von STAT

Bild 16 – Analyse Seite von STAT

Bild 19 – Update/Create Seite von STAT

Twapper Keeper Archiv existiert aber kein lokales Archiv

Twapper Keeper Archiv hat mehr Tweets als lokales Archiv

4.1 Analyse ED-MEDIA Konferenz 2010

which @persons write about #edmedia

which keywords are used with #edmedia

which #hashtags are used with #edmedia

Hier das Ergebnis der Analyse mit „#edmedia“ und „#hermannmaurer“:

which @persons write #edmedia together with #hermannmaurer

which keywords are used with #edmedia and #hermannmaurer

which #hashtags are used with #edmedia and #hermannmaurer

#keynote (5), #xphone (4), #toronto (2)

4.2 Analyse PLE2010 Konferenz

which @persons write about #ple_bcn

catspyjamasnz (352), cristinacost (335), timbuckteeth (325), pgsimoes (305), mediendidaktik

which keywords are used with #ple_bcn

which #hashtags are used with #ple_bcn

Analyse von „#ple_bcn“ und „#wave“: