You are on page 1of 4

Roland Kaiser

Deep Web

Medienkompetenz

Deep Web
(Invisible Web, Hidden Web) vs. Surface Web, Visible Web

Gre
Gro, viel zu gro und z. T. zu wertvoller Inhalt, um das Deep Web zu ignorieren. Sowohl wachsend (Datenbanken, dynamische Inhalte, Social Web, Internet der Dinge, Datenschutz, konomie) als auch schrumpfend (Google wird immer besser, intelligenter, tiefschrfender, vielseitiger, schneller, semantischer); sowohl ber- als auch unterschtzt. Be aware that the Deep Web exists.

Einteilung
(vgl. Wikipedia Deep Web) Inhalte, die nicht frei zugnglich sind und Inhalte, die nicht von Suchmaschinen indiziert werden Opaque Web (nicht indiziert) Knnte indiziert sein, ist aber aus technischen oder wirtschaftlichen (Aufwand/Nutzen) Grnden nicht oder nicht vollstndig indiziert - Suchtiefe (Tiefe des Crawlings) Such(Crawl)frequenz. Private Web (nicht frei zugnglich) Knnte indiziert werden, ist aber zugangsbeschrnkt (Kennwort, Login, Registrierung, Intranet, technischer Schutz vor Indizierung) - beschrnkt aus Grnden der Privatheit, des Datenschutzes, Vollstndigkeit gar nicht wnschenswert. Proprietary Web (nicht frei zugnglich) Knnte indiziert werden, ist aber zugangsbeschrnkt - beschrnkt aus konomischen, eignentumsrechtlichen Grnden, wegen Nutzungsbedingungen. Invisible Web (nicht indiziert) Unsichtbar, obwohl Sichtbarkeit mglich wre. Truly Invisible Web (nicht indiziert) Unsichtbar, weil Sichtbarkeit technisch unmglich.

UM - MuID - CH 07-12

19.10.2012

Roland Kaiser

Deep Web

Medienkompetenz

Inhalte
Nichtverlinkte Seiten (es sei denn, manuell zu Indizes hinzugefgt). Container Nicht direkt nach Text durchsuchbare Inhalte, Nicht-Standardformate, nicht (so ohne weiteres) indizierbare Dateiformate. Videos, Tondateien, Flash, Shockwave, komprimierte Daten (z. B. Zip), JavaScript, FTP (Tauschbrsen), Cloud-Dienste, z. T. PDFs, Bilder, Multimediainhalte, Software, RSS Feeds, Dubletten, Spam, Pr-Web-Datenbanken, (Fach-)Datenbanken (Hosts), Telefon-, Wrter- u. Branchenbcher, Spiele. Der Index von Google (von Suchmaschinen) und die zugehrigen Algorithmen. Dynamische Inhalte, Echtzeitinhalte, u. U. mit Geotagging (Ortsverknpfung), personenbezogene, situationsbezogene Inhalte. Wetter, Flugdaten, Verkehrsverbindungen, Brsenkurse, Stellenmarkt, NewsAggregatoren Social Web (Web 2.0) Facebook-Posts, Tweets, Googel+ Posts, Instagram, Pinterest, Flickr, Picasa, YouTubeVideos. Inhalte, die genau in dieser Form nur fr einen/wenige Nutzer in einem bestimmten Kontext generiert werden. Timelines in sozialen Netzwerkem, Twitter. Aber auch (personalisierte) Suchergebnisse von z. B. Google nach Anmeldung und/oder mit aktivierten Webprotokoll sind anders, als solche mit neutralem Zugang. Sitzungsinterne vs. -externe Adressen, dynamische Adressen. Forenbeitrge und -diskussionen, z. T. Blogs und Diskussionen auf Blogs, Kommentare, Bewertungen. Schlechtes Ranking auf Ergebnislisten Internet der Dinge Zensur und Filter und Bewertungen Urheberrecht und sonstige Rechtsgrnde, Inhalte hinter Bezahlschranken Wirklich dunkle Seiten (Dark Web) - Illegalitt Waffen(handel), Drogen(handel), Kinderpornografie, Hacker, Nazis, Terroristen Tor-Browser, Hidden Wiki, .onion-web, Silk Road, Geschfte mit Bitcoins usw. Natrlich auch Folge legitimer Anonymittsbedrfnisse.

UM - MuID - CH 07-12

19.10.2012

Roland Kaiser

Deep Web

Medienkompetenz

Suchstrategie
Eine gestufte Suchstrategie fhrt in die tieferen Regionen des Webs: 1 2 3 Einen inhaltlich-thematisch passenden aber breiten Suchbegriff whlen. Den Typ der Information spezifizieren (Dokument, Buch, Skript, Statistik, Bild, Video usw.). Einen Deep Web Bezeichner (Bennenner, Indikator, Designator) beifgen (Datenbank, [Fach]portal, Katalog, Suchmaschine, Verzeichnis, Archiv, Sammlung usw.). Dann in der/in dem gefunden Datenbank, Portal, Katalog, Verzeichnis, Archiv weitersuchen. Auf interessanten Seiten zustzlich Seitensuche und -navigation benutzen. Ggf. sich bei bestimmten Anbietern registrieren. Service und Informationsdienste von Hochschulen, Bibliotheken und Bildungseinrichtungen nutzen.

4 5 6

Beispiel: Die Eingabe von Architektur - Bilder - Datenbank fhrt zu http://www.bildindex.de

Zukunft/Perspektive
Semantic Web (Semantik = Bedeutungslehre)

Schlussfolgerung
Google kennt nicht das gesamte Web, jedenfalls nicht im ersten Schritt. Unsichtbar bedeutet jedoch nicht unerreichbar. Nur, weil ein Inhalt zunchst nicht in den Suchergebnissen auftaucht, heit das nicht, dass er nicht auffindbar ist.

Schlussbemerkung
Es gibt berschneidungen mit den Themen Recherche und Web 2.0/Social Web.

UM - MuID - CH 07-12

19.10.2012

Roland Kaiser

Deep Web

Medienkompetenz

Literatur
Lewandowski, Dirk: Das Invisible Web. In: Web Information Retrieval. Technologien zur Informationssuche im Internet. DGI-Schrift (Reihe Informationswissenschaft, Band 7), Frankfurt am Main, 2005, S. 51 - 58. http://durchdenken.de/lewandowski/web-ir/?35_Das_Invisible_Web.html

Links
Dieses Dokument: http://goo.gl/Pc2cR HTML: http://goo.gl/44p3r

Die Prsentation: http://goo.gl/qNS9p Bookmarks auf Diigo (erstellt am 15.10.2012, ergnzt am 17.10.2012): http://www.diigo.com/list/rolkai Deep Web allgemein: http://www.diigo.com/list/rolkai/deepweballg Prsentationen (Slideshare): http://www.diigo.com/list/rolkai/praesdw Magazine - Dokumente - Bcher: http://www.diigo.com/list/rolkai/magazine Datenbanken - Kataloge - Portale - suchen - recherchieren: http://www.diigo.com/list/rolkai/katportsuch

Sebastian Wolf, Uni Bielefeld: http://www.diigo.com/list/bibliothekswelt/suchmaschinen_tutorial

Bienefeld - Brutigam - Sthe: http://www.diigo.com/list/rolkai/bibrso

UM - MuID - CH 07-12

19.10.2012