Sie sind auf Seite 1von 19

Hochschule Offenburg, 05.12.

2006

Google Hacking
Referat im Seminar Medienintegration II bei Prof. MA Ralf Lankau von Michael Hlatky

:: What is Google ::

Google ist die heutzutage größte und am häufigsten Verwendete Suchmaschine des Internet. In
Google’s Datenbanken sind über acht Millionen Webseiten und mehr als eine Milliarde Bilder ge-
speichert. Google bietet Ergebnisse in mehr als 30 Sprachen an und Google selber besitzt mehr als
hundert Länderdomains. Die Firma wurde 1998 von Larry Page und Sergey Brin gegründet. Larry
Page hatte damals als Abschlussarbeit an seiner Universität den Suchalgorithmus entwickelt, mit
dem Google zum Teil heute noch arbeitet. Die Firma Google hat heute ihre Hauptniederlassung in
Mountain View, California und beschäftigt weltweit laut ihren Angaben mehr als 3000 Mitarbeiter.

Die Bedeutung des Wortes Google:

"Googol" ist der mathematische Fachbegriff für eine 1 gefolgt von 100 Nullen. Der Begriff wurde
von Milton Sirotta, einem Neffen des US-amerikanischen Mathematikers Edward Kasner, geprägt
und in dem Buch "Mathematics and the Imagination" von Kasner und James Newman verbreitet.
Google verwendet diesen Begriff, um das Ziel des Unternehmens zum Ausdruck zu bringen: die
Organisation der enormen Menge an Informationen, die im Web verfügbar ist.

Google Services?

Google bietet allein nur von ihrer deutschen Startseite www.google.de 17 Dienste an. Dazu zählen
neben der normalen Websuche unter anderem Suche nach Nachrichten, Stadtplänen, UPS- und
DHL-Tracking, Zugverbindungen und Definitionen. Google bietet noch mehr als 50 weitere Diens-
te an, dazu gehören auch das bekannte Google Earth, sowie Google Maps, Google Toolbar, Google
Translate u.v.m.

1
Hochschule Offenburg, 05.12.2006

2
Hochschule Offenburg, 05.12.2006

How Google Works?

Ranking?

• PageRank-Technologie: PageRank nimmt eine objektive Bewertung der Wichtigkeit von Websei-
ten vor. Dabei wird eine Gleichung mit 500 Millionen Variablen und über 2 Milliarden Begriffen
berechnet. Anstatt die direkten Links zu zählen, interpretiert Page Rank im Wesentlichen einen
Link von Seite A auf Seite B als "Votum" von Seite A für Seite B. PageRank bewertet dann die
Wichtigkeit einer Seite nach den erzielten Voten. PageRank berücksichtigt auch die Wichtigkeit
jeder Seite, die ein Votum abgibt, da Voten von einigen Seiten einen höheren Wert aufweisen und
deshalb auch der Seite, auf die der Link verweist, einen höheren Wert geben. Wichtige Seiten
werden von PageRank höher eingestuft und demnach auch in den Suchergebnissen an einer vor-
deren Position aufgeführt. Die Google-Technologie nutzt zur Ermittlung der Wichtigkeit einer
Seite die kollektive Intelligenz des Internets, keiner der Mitarbeiter greift persönlich in diesen
Prozess ein oder manipuliert die Ergebnisse

• Analyse von Hypertextübereinstimmung: Die Suchmaschine von Google analysiert auch den Con-
tent einer Seite. Es werden jedoch der gesamte Content einer Seite und Faktoren wie Schriftar-
ten, Unterteilungen und die genaue Position aller Begriffe auf der Seite analysiert, anstatt nur den
seitenbasierten Text zu scannen (der über Meta-Tags von Website-Publishern manipuliert werden
kann). Google analysiert außerdem den Content der benachbarten Webseiten, um sicherzustel-
len, dass die ausgegebenen Ergebnisse die relevantesten für die Suchanfrage eines Nutzers sind.

3
Hochschule Offenburg, 05.12.2006

Google selber nennt seine Ranking-Technologie “Pigeon-Ranking” in Anlehnung an einen Tauben-


schwarm, der aus einer großen Menge Körner die besten rauspickt.

Technik?

[...] Today even the closest Google watchers have lost precise count of how big the system is. The
best guess is that Google now has more than 450,000 servers spread over at least 25 locations a-
round the world. The company has major operations in Ireland, and a big computing center has re-
cently been completed in Atlanta. Connecting these centers is a high-capacity fiber optic network
that the company has assembled over the last few years. [...]

, 14. 06. 2005

:: Google Hacking ::

Google Hacking is a term that refers to the art of creating complex search engine queries in order
to filter through large amounts of search results for particular information. In its malicious format
it can be used to detect websites that are vulnerable to numerous exploits and vulnerabilities as
well as locate private, sensitive information about others, such as credit card numbers, social secu-
rity numbers, and passwords. This filtering is performed by using advanced Google operators.
(http://en.wikipedia.org/wiki/Google_Hacking)

Diese Definition von der englischsprachigen Wikipedia-Seite liest sich für den Laien erst einmal
etwas kryptisch, deswegen werde ich im folgenden versuchen sie der Reihe nach durch geeignete
Beispiele zu erklären: Zuerst möchte ich auf den Begriff Advanced Operators eingehen.

4
Hochschule Offenburg, 05.12.2006

Advanced Operators?

Google Advanced Operators helfen dem versierten User seine Suchergebnisse zu filtern. Sie sind
Teil jeder Standart-Anfrage bei der Suchmaschine, werden aber vom System übernommen. Die
Möglichkeit aber, gezielt auf einzelne Suchparameter einzuwirken ermöglicht ein sehr viel definier-
teres Suchen. Der Syntax für die auch für automatisierte Suchanfragen interessante Advanced O-
perators lautet:

operator:search_term

wobei zu beachten ist, dass zwischen dem Operator, dem Doppelpunkt und dem Suchbegriff kein
Leerzeichen stehen darf. Desweiteren helfen dem User auch noch folgende Möglichkeiten der
Sucheingabe zur Filterung seiner Ergebnisse:

• Stopwörter: Stopwörter, wie “and” und “.com” werden aus einer normalen Google-Suche ausge-
grenzt, da die Google-Suche im Normalfall mit einer OR-Verknüpfung arbeitet, das heißt es wer-
den alle Webseiten angezeigt, die einen oder mehrere eingegebe Suchbegriffe enthalten, so dass
eine Suche nach den oben genannten Beispielen die Ergebnismenge unskalierbar aufblähen
würde. Stellt man einem Google-Stopwort in der Suchmaske bei der Eingabe ein Plus (“+”) vo-
ran, werden diese von Google nicht ignoriert, was bei manchen Anfragen sinnvoll sein mag.

• Suche nach Wortgruppen: Wörter, die durch Anführungszeichen zusammengefasst werden, wer-
den von Google als ein einzelner Suchbegriff erkannt, es besteht somit eine AND-Verküpfung
zwischen den Suchbegriffen.

• Wörter ausschließen: Suchergebnisse, die ein in der Suche enthaltenes Wort mit vorangestelltem
Minus (“-”) enthalten werden nicht dargestellt. Dieses Ausschlussverfahren ist das nützlichste,
wenn man die Anzahl seiner Suchergebnisse reduzieren will.

Eine Überblick aller Advanced Operators und deren Verwendungsmöglichkeiten kann man sich in
den Support-Dokumenten von Google verschaffen. Ich will im Folgenden nur die wichtigsten nen-
nen und einen “Crash-Kurs” über deren Einsatz geben.

Die wichtigsten Advanced Operators:



cache:



intext:


link:



filetype:


related:


link:


info:



inanchor:


define:


numrange:


stocks:


daterange:


site:



author:


allintitle:


group:


allinurl:


insubject:


inurl:



msdid:

5
Hochschule Offenburg, 05.12.2006

Den möglichen Einsatz einiger Operatoren bei einer Suche will ich nun am Beispiel der Webseite
von Professor Lankau an der Hochschule Offenburg zeigen:

6
Hochschule Offenburg, 05.12.2006

Um die Wirksamkeit der Filterung zu verdeutlichen: Falls wir genau die oben gezeigte Seite suchen,
bringt eine Google-Suche nach “Lankau” ungefähr 117.000 Ergebnisse, mit der gesuchten Webseite
auf Rang 85. Eine Suche nach “intext:Mediengestaltung inurl:rlankau” bringt 6 Ergebnisse mit der
gesuchten Seite auf Rang 1. Wie an diesem Beispiel zu sehen ist, sind die Advanced Google Opera-
tors ein mächtiges Tool bei der Suche nach spezifischen Seiten oder Informationen im Netz.

Complex Search Engine Queries?

Im nun folgenden Kapitel möchte ich die Gefährlichkeit aufzeigen, die sich daraus ergibt, dass
Google mittlerweile den größten Teil des Internets indiziert hat und viele Administratoren einfach
nicht ihre Server unter sicherheitstechnischen Aspekten warten, geschweige denn darauf achten,
ob sie sensible Daten, wie Passwörter, private und geheime Daten der Öffentlichkeit zugänglich
machen. Oft ist es sogar so, dass diese Daten nur kurze Zeit frei zugänglich im Netz standen, bevor
sie in einen z.B. passwortgeschützten Bereich des Servers bewegt werden, die Robots von Google
haben aber “ihre Augen” immer überall, und es kann mit fast zu hundertprozentiger Wahrschein-
lichkeit davon ausgegangen werde, dass auch diese Seiten indiziert und von Google gespeichert
werden. Oft arbeiten viele Server auch nicht mit dem aktuellen Patch-Status der verwendeten
Software, und Hacker können genau diese über Google ausfindig machen und somit “interessante “
leicht crackbare Zielrechner sammeln.

Die noch sehr einfach anmutende Suchanfrage an Google nach einem bestimmten Dateityp und
einem im Webseitenext vorkommenden Datenbanknamen, wie z.B.

filetype:inc intext:mysql_connect

gibt aber schon sehr viel über damit gefundene Server preis, wie in folgendem Beispiel Username
und Passwort zu einer SQL-Datenbank.

7
Hochschule Offenburg, 05.12.2006

Weit kompliziertere Suchanfragen bergen auch die interessanteren Ergebnisse, wie z.B. die Query

intitle:phpMyAdmin “Welcome to phpMyAdmin ***” “running on * as root@*”

uns die Verwaltungsseite eines Webservers mit Datenbankzugriff und vollen Systemrechten gibt.

Wie oben schon erwähnt werden aber auch oft sensible oder persönliche Daten auf Webservern
in öffentlich zugänglichen Verzeichnissen abgelegt. Interessant für den nicht wohlwollenden Web-
Surfer könnten z.B private Fotos, aber auch Sozialversicherungsnummern, Versicherungsdaten, Kre-
ditkartennummern, Kontostände, Adressbücher und noch vieles mehr sein. Wie einfach sich Fotos
nicht nur über die Google-eigene Bildersuche finden lassen, sondern auch ganze Inhalte von Spei-
cherkarten, sogenannte Dump-Verzeichnisse, zeigt die Eingabe von

index.of.dcim

was dir Ordnerbezeichnung vieler Digital-Kameras für digitale Fotos ist. Wenn man den Aufnahme-
zeitpunkt der Fotos und Videos betrachtet, könnte man zum Schluss kommen, dass es sich hierbei
durchaus um private “Informationen” handelt;-)

8
Hochschule Offenburg, 05.12.2006

Die in letzter Zeit geführte Diskussion über die Vor- und Nachteile des Web 2.0 und die durch das
Web 2.0 neu entstandene Öffentlichkeit im Netz, dadurch dass der geneigte Nutzer jede Informa-
tion, die er von sich preisgeben will, auch preisgeben kann, in einem öffentlichen Forum seiner
Wahl, ob jetzt bei Youtube, Flickr, MySpace Facebook, oder dem deutschen Klon StudiVZ, hat auch
Google nicht unberührt gelassen. Zwar bietet Google unter seinem eigentlichen Namen nur einen
Dienst zum Bloggen, also zum öffentlichen Tagebuchführen im Internet an, hat aber in einer aufse-
henerregenden Aktion Youtube gekauft und die Erfinder der Webseite zu Milliardären gemacht.
Meist steht es in den genannten Beispielen dem User frei, was er für Inhalte im Netz präsentiert,
man könnte also davon sprechen, er sei “selbst schuld”, wenn er private Informationen ins Netz
stellt. Inwieweit dies auch auf Kinder und Jugendliche zutrifft, die den Gefahren noch nicht entge-
gensehen können, muss jedoch noch weitgehend diskutiert werden. Google selber bietet jedoch
auch Zugriff auf private Informationen, die unabhängig von der Zustimmung eines Nutzers ins Netz
gelangen. So ist es zum Baispiel auch wieder ein leichtes über eine geschickte Suchanfrage bei
Google Webcams zu finden, die dem Finder vollends die Kontrolle über sich überlassen, wie das
nun folgende Beispiel zeigt: In folgendem Screenshot ist das Bild einer Webcam zu erkennen, wel-
che über Scrollbalken im Webbrowser Zugriff über die Neigung und den Schwenkbereich, sowie
auf den Zoom der Linse erlaubt, und das auf einem viel frequentiertem Platz in einer Großstadt -
Stalkers Daylight! Die Suchanfrage dazu mutet schon fast minimalistisch an:

intitle:liveApplet

9
Hochschule Offenburg, 05.12.2006

Wie in den oben aufgeführten Beispielen zu sehen war, ist es mit Hilfe von Google sehr einfach mit
schon rudimentären Kenntnissen über komplexe Suchanfragen sensitive und private Informationen
im Netz zu finden. Man kann Google jedoch nicht verantwortlich dafür machen, dass diese Inhalte
im Netz stehen, weil es war ja nicht ein Mitarbeiter von Google, der die Information ins Netz ge-
stellt hat, sonder nur der Robot von Google, der sie gefunden hat. Google trägt also nur dazu bei,
dass die Anonymität im Netz abnimmt, der wahre “Bösewicht” ist immer ein Webmaster, der sei-
nen Server nicht absichert oder ein User, der unbewusst Daten in öffentlich Verzeichnisse spei-
chert. Wie man mithilfe von Google jedoch auch seine eigenen Ausritte ins WorldWideWeb ano-
nymisieren kann, will ich im folgenden Kapitel behandeln:

:: Google und Anonymität ::

Es gibt zwei Möglichkeiten Google zu nutzen, um seine Surfaktivitäten zu verschleiern, d.h. man will
nicht, dass seine eigene IP in den Logfiles eines Webservers auftritt. dazu kann man Google einmal
als Proxy nutzen, oder auf die Cache-Funktion von Google zurückgreifen:

10
Hochschule Offenburg, 05.12.2006

Google als Proxy:

Eine Möglichkeit seine IP in den Logs eines Webservers zu verschleiern ist über einen Proxy zu
surfen. Dies kann man sich so vorstellen, dass es irgendwo im Internet einen Rechner gibt, dem
man sagt, welche Seite man ansehen will, dieser Rechner lädt sich dann die dafür nötigen Informa-
tionen vom Server des Seitenbetreibers und leitet sie an uns weiter. In den Logs des Servers ist
somit unsere IP nicht aufgetreten, nur die des Proxy-Rechners, und wir haben trotzdem unsere
Informationen enthalten. Proxy-Rechner sind oftmals frei zugänglich im Netz verfügbar, oder wer-
den gegen Gebühr bereitgestellt, da die frei verfügbaren Rechner oftmals sehr stark ausgelastet
sind, und das eigen Surfen sich somit schon sehr verlangsamt. Firmen nutzen auch oft Proxys, um
nach außen hin mit nur einer IP aufzutreten, so dass man Surfaktivitäten aus einer Firma hinaus
nicht einzelnen Arbeitsplätzen zuordnen kann. Auch Google bietet einen Proxy-Service an, natür-
lich nicht mit dem Zweck der Anonymisierung von Surfaktivitäten, sondern um Webseiten zu über-
setzen. Aber dieser Service kann mit einem kleinen Hack ausgehebelt werden: Man surft zuerst auf
die Seite “http://translate.google.com/translate_t” und gibt dort in der Eingabemaske “Translate a
Web Page” die Seite ein, die man eigentlich besuchen will. Die angegeben Übersetzungsoptionen
sollten der Originalsprache der Webseite entsprechen, also wenn man eine englischsprachige Seite
ansurfen will, sollte man die Einstellung z.B. auf “English to German” stellen. Nach Bestätigen des
“Translate”- Buttons übersetzt die Google-Engine jetzt im Hintergrund die von uns angeforderte
Webseite in die eingestellte Sprache und stellt sie uns dar, mit teilweise sehr lustigen Ergebnissen.

11
Hochschule Offenburg, 05.12.2006

Wenn man sich nun die URL der dargestellten Seite ansieht, kann man erkennen, des die Überset-
zungsoptionen in der URL an die Google-Engine übergeben werden. Man kann so auch nicht im
Drop-Down-Menü angegebene “Übersetzungen” einstellen, wie etwa von Englisch nach Englisch:

Somit wird die angeforderte Webseite wieder in der Originalsprache dargestellt:

Die Verbindung zu dem Webserver ist aber immer noch transparent und funktioniert anonym nur
für reine HTML-Inhalte, MIME-Objekte wie Bilder werden immer noch direkt von Webserver gela-
den. Unsere eigene IP kann somit immer noch in den Logs des Webservers auftreten. Eine wirklich
anonyme Surfmethode ist das Ausnützen der Cache-Funktion von Google:

12
Hochschule Offenburg, 05.12.2006

Googles gespeicherten Webseiten:

Hierbei wird die Webseite garnicht erst vom seiteneigenen Webserver angefordert, sondern aus
dem Cache von Google geladen. Auch hier ist die Verbindung wiederum transparent, aber es lassen
sich über einen sehr einfachen Hack das Laden von Bildern und ähnlichem unterbinden. Bei der
oben vorgestellten Möglichkeit zum anonymen surfen müsste man dies noch mit einem geeigneten
Browser bewerkstelligen. So wird zwar nur der HTML-Text dargestellt, aber oft ist dies schon aus-
reichend. Außerdem, wenn man wirklich anonym im Netz bleiben will, wird man sich eher auf wirk-
liche Anonymisierungslösungen wie Tor oder Ähnliches verlassen. Um eine Seite aus dem Google-
Cache anzeigen zu lassen, sucht man sie zuerst über Google, und kann im einfachen Fall über den
“Im Cache”-link den HTML-Inhalt der Seite von Google, MIME-Objekte wiederum vom Original-
server laden lassen. Auf der dargestellten Seite im Google-Banner gibt es einen “Text im Cache”-
Link, der nur den gecacheten Text darstellt, und das Laden von Bildern unterbindet. vergleicht man
nun die URL der “Im Cache”-Version mit der “Text im Cache”-Version, fällt auf, dass lediglich
“&strip=1” an die URL angefügt worden ist. Dies kann man natürlich auch manuell machen, indem
man den Link der “Im Cache”-Version kopiert, in die URL-Leiste des Browsers pastet und dann
“&strip=1! hinzufügt. Die nun dargestellte Webseite hat keine Verbindung zum Original-Webserver
aufgebaut:

www.heise.de hat es somit nicht mitbekommen, dass wir uns gerade über das neueste in der IT-
Welt informiert haben.

13
Hochschule Offenburg, 05.12.2006

:: Google und digitale Identitäten ::

Das digitale Zeitalter hat uns beschert, dass immer mehr Informationen über uns in Datenbanken
gespeichert werden. Sozialversicherungsnummer und Krankendaten waren nur der Anfang. In Zu-
kunft, wenn man einem Konservativen aus Gengenbach weiterhin wählt, könnte es passieren, dass
wir keinen Schritt mehr machen können, ohne das unser Standort, unsere aktuelle Gemütsverfas-
sung, unser Konsumverhalten, unsere intimsten Gespräche in staatlichen Datenbanken landet und
dort für immer gespeichert werden, alles unter dem Deckmantel der Terrorbekämpfung. Inwieweit
dies heut schon geschieht ist auch noch unklar, man kann nur mutmaßen inwieweit der Staat schon
Hacker anstellt, um unbemerkt Online-Hausdurchsuchungen durchzuführen. Dass Telefonate abge-
hört, Verbindungsprotokolle erstellt und eMails gelesen werden gilt mittlerweile anscheinend im
Boulevard-Bürgertum schon als selbstverständlich, dass die Stasi früher Briefe geöffnet hat, ist je-
doch unvorstellbar und verwerflich. Damals hat man ja auch nicht Terror, Killerspiele und Kinder-
pornographie bekämpfen müssen. Doch was geschieht mit den ganzen Daten, wer hat darauf Zu-
griff, wie gut sind sie gegen Fremdzugriff geschützt, wer kann sie manipulieren, wer manipuliert sie?
Über dies alles hat sich Schäuble, der anscheinend immer noch nicht verstanden hat, wie das Inter-
net funktioniert, anscheinend keine Gedanken gemacht, als er schnell und medienwirksam auf einen
Amokläufe reagieren musste. Der normale Bürger, der keinen Dreck am Stecken hat, hat ja auch
nichts zu befürchten. Was geschieht jedoch, wenn die Daten von Otto-Normal-Bürger plötzlich so
verändert werden, dass er ins Fadenkreuz der Terrorfahndung gerät? Man könnte sich ein Szenario
vorstellen, in dem der biedere Familienvater am Frühstückstisch vom SEK überwältigt wird - keine
schöne Konsequenz der digitalen Datenspeicherung. Doch man braucht nicht einmal Zugriff auf
staatliche Datenbanken, um private Informationen über den Nachbar oder den zukünftigen Ange-
stellten zu finden, wiederum macht Google hier vieles möglich. Ein Hacker hat 2005 auf der Black
Hat Convention vorgestellt, wie er nur mit Hilfe von Google gefundenen Informationen sich eine
komplette Identität gestohlen hat. In der Tat ist es wirklich ein Kinderspiel über Google an Namen,
eMailadressen, digitale Tagebücher, Fotos, Kreditkartennummer, Sozialversicherungsnummer und
Lebensläufe zu gelangen. Dazu braucht es nicht einmal komplizierte Suchanfragen. In den Google
Groups, dem weltgrößten Newsgroupverzeichnis sind Millionen reale Namen vorhanden, allein die
Suche nach “@gmail.com” -www.gmail.com erbringt über 80 Millionen potenzielle eMail-
adressen, unter blogsearch.google.com sind weltweit die meisten Weblogs findbar und es ist un-
glaublich, wieviele Passfotos in Googles Bildersuche auftauchen:

14
Hochschule Offenburg, 05.12.2006

15
Hochschule Offenburg, 05.12.2006

16
Hochschule Offenburg, 05.12.2006

:: Google als professionelles Hackertool ::

In dem bisherigen Teil der Ausarbeitung bin ich darauf eingegangen, wie man mit Google unerkannt
im Netz surfen kann, bzw. wie man mit Google an “interessante” Inhalte des Internets gelangt. Da
das Thema des Referates jedoch “Google Hacking” ist, möchte ich noch kurz jedenfalls auf die Ver-
wendung von Google als Hackingtool in einem professionellem Umfeld ansprechen. Auch hier gibt
es vielfältige Möglichkeiten: ich möchte im folgenden auf die Verwendung von Google als Tool zum
Network Mapping eingehen, weil dies noch relativ einfach und ohne viel Aufwand auch von einem
Laien zu bewerkstelligen ist. Unter Network Mapping versteht man die Untersuchung eines Netz-
werkes nach darin vorhandenen Rechnern. Dies macht man im Normalfall mit einem Scanner, dem
man den IP-Bereich des Netzwerkes untersuchen lässt. Netzwerkadministratoren haben in der Re-
gel sich gegen den Einsatz eines solchen Scannens gewappnet und zumindest sollten schon sehr
helle Lampen am Schreibtisch des Admins angehen, wenn sein Netzwerk gescannt wird, dient dies
ja im “Normalfall” zur Vorbereitung eines Angriffs auf einen seiner Rechner. Unbemerkter kann man
hier unter der Verwendung von Google vorgehen. Wie wir mittlerweile wissen, hat Google im
Normalfall einmal das Netzwerk gescannt, also uns, falls wir uns für eine bestimmte Netzwerkto-
pologie interessieren, im Bestfall die “Drecksarbeit” schon abgenommen. Das Problem von Google
bei der Verwendung als Scanner ist jetzt nur, dass Google aufgrund des PageRankings bekannte und
oft frequentierte Rechner natürlich als erstes aufführen wird. Wir interessieren uns jedoch bei der
Angriffsvorbereitung auf ein Netzwerk für Rechner, die nicht oft frequentiert werden, und allein
schon deswegen vom Administrator nicht so sehr unter Beobachtung stehen. Man wird also mit
der normalen Google-Suchmaske nicht schnell zu zufriedenstellenden Ergebnissen kommen. Des-
wegen benutzt man in diesem Fall noch weitere Hilfsmittel, nämlich einen skriptbaren Browser, in
diesem Fall Lynx (http://www.lynx.browser.org), und reguläre Ausdrücke in der Unix-Shell. Mit fol-
gendem Befehl:

lynx -dump "http://www.google.com/search?


q=site:apple.com+-www.apple.com&num=100" > test.html

in der Unix-Shell erstellen wir eine Datei “test.html” und schreiben in diese die ersten 100 Sucher-
gebnisse von Google nach “apple.com” ohne Ergebnisse, die den String “www.apple.com” enthal-
ten. Diese Datei enthält jetzt zwar unsere gewünschten Ergebnisse, ist aber fast nicht lesbar, weil
sie ja nur einen Dump der Browserausgabe enthält. Wir müssen also den Inhalt der Datei wieder in
ein lesbares Format bringen, wobei uns reguläre Ausdrücke helfen: Mit dem Unix Streameditor

sed -n 's/\. http:\/\/[[:alpha:]]*.apple.com\//& /p' test.html |


awk '{print $2}' | sort -u

sed extrahieren wir aus der im vorhergehenden Schritt erstellten Datei “test.html” Strings, die das
Muster “*.apple.com” erhalten also einen Rechner im Subnetz von “apple.com” geben sie mit dem
Programm “awk” an den Unix-Sortieralgorithmus weiter, der uns die gefundenen Hostnamen wie-
derum auf die Standartausgabe, in dem Fall das Terminalfenster schreibt:

17
Hochschule Offenburg, 05.12.2006

Der erste Schitt für einen Angriff auf einen Rechner im Netzwerk der Firma Aplle wäre gemacht,
wir haben uns schon einmal potentielle Ziele herausgesucht. Im nächsten Schritt könnte (!) man
jetzt mit Google nach der Version der Serversoftware suchen und nach bekannten Exploits für die-
se Versionen, um dann in einen der Rechner einzubrechen...

18
Hochschule Offenburg, 05.12.2006

:: quod erat demonstrandum ::

Lasst uns wachsam sein: Im Netz gibt es private Daten (auch von uns?) und Google findet sie. Die
Menge an Information, die man mit Google finden kann ist schier unendlich, wenn man nur die
richtigen Fragen kennt. Von Benutzernamen über Passwörter, Kreditkarten- und Sozialversiche-
rungsnummern bis hin zu persönlichen Finanzdaten, alles mögliche wartet in den Weiten des
worldwide Web auf uns. Mit Wissen über die vielfältigen Möglichkeiten von Google kann man sich
über die Dummheit der anderen freuen. Dabei interessiert sich Google (noch) nicht für das, was
wir fragen, obwohl in der Firmanzentrale in Montain View seit dem Kauf des Web2.0 Startups You-
tube laut über ein mitloggen der Suchanfragen und daraus generierte personalisierte Werbung
nachgedacht wird. Wir werden sehen, ob der Benutzer sich dies gefallen lassen wird oder ob sich
daraus eine Chance für kleinere Suchmaschinen ergeben wird, das Monopol des Giganten zu bre-
chen.

19