Tief im Deep Web versunken

Habt Ihr schon mal vom “Deep Web” gehört?

Das Deep Web (auch Hidden Web oder Invisible Web) bzw. Verstecktes Web bezeichnet den Teil des Internets, der bei einer Recherche über normale Suchmaschinen nicht auffindbar ist. Im Gegensatz zum Deep Web werden die über Suchmaschinen zugänglichen Webseiten Visible Web (Sichtbares Web) oder Surface Web (Oberflächenweb) genannt. Das Deep Web besteht zu großen Teilen aus themenspezifischen Datenbanken (Fachdatenbanken) und Webseiten, die erst durch Anfragen dynamisch aus Datenbanken generiert werden. Grob kann das Deep Web unterschieden werden in „Inhalte, die nicht frei zugänglich sind“ und „Inhalte, die nicht von Suchmaschinen indiziert werden“. Die Größe des Deep Web kann nur geschätzt werden – es wird davon ausgegangen, dass es ein Vielfaches des direkt zugänglichen Webs umfasst. Suchmaschinen werden ständig weiterentwickelt, daher können Webseiten, die gestern noch zum Deep Web gehörten, heute schon Teil des Oberflächenwebs sein.

So stehts bei Wikipedia. Erstaunlich. Das Deep Web ist anscheinend 50-60 mal so groß wie das Web an der Oberfläche. Da bewegt sich eine immense Datenflut unter der Oberfläche, die sich in keiner Weise komplett erfassen lässt. Allerdings ist auch fraglich, ob es sinnvoll ist, diese Datenmengen zu erfassen, denn es werden sich auch viele “user generated” Inhalte unter den vielen vielen Terabyte befinden. Private Homepages (teilweise aus altem HTML-Style bestehend, da jahrelang ungepflegt) endlos Urlaubsphotos – oder neuerdings auch -videos. Ebenfalls ungepflegt, diesmal aber eher aus dem einen Grund, dass das neue “web 2.0” einen gewissen Hang zur Messiness fördert.

Wie viele Terabyte da wirklich herum liegen, hat die Universität Berkeley in Kalifornien aus irgendeinem nicht näher genannten Grund ermittelt:

Surface Web – 167 Terabyte, Deep Web – 91.850 Terabyte. Die gedruckten Bestände der Library of Congress in Washington, eine der größten Bibliotheken der Welt, umfassen 10 Terabyte. (nochmal Wikipedia)

Das Deep Web wird nämlich in mehreren Unterarten klassifiziert. Für alle SEOs oder ähnlich gepolten Marketingstrategen sind einige Eigenschaften des “Opaque Net” sicherlich sehr interessant:

Suchmaschinen berücksichtigen nicht alle Verzeichnisebenen und Unterseiten einer Webseite. Beim Erfassen von Webseiten steuern Webcrawler über Links zu den folgenden Webseiten. Webcrawler selbst können nicht navigieren, sich sogar in tiefen Verzeichnisstrukturen verlaufen, Seiten nicht erfassen und nicht zurück zur Startseite finden. Aus diesem Grund berücksichtigen Suchmaschinen oft höchstens fünf oder sechs Verzeichnisebenen. Umfangreiche und somit relevante Dokumente können in tieferen Hierarchieebenen liegen und wegen der beschränkten Erschließungstiefe von Suchmaschinen nicht gefunden werden.

Dazu kommen Dateiformate, die nur teilweise erfasst werden können (zum Beispiel PDF, Google indiziert immer nur die ersten 120 kB – etwa 100.000 Textzeichen – einer PDF-Datei).

Will heissen: versteck keine wichtigen Inhalte in der Tiefe Deines Webauftritts. Hätte ich eh nicht gemacht. Heisst aber auch: stell sicher, dass sich in den PDFs die wichtigsten Stichworte innerhalb der erst 100.000 Textzeichen befinden.

Das “truly invisible Web” bezeichnet die Daten, die in keinem Fall von einer Suchmaschine erfasst werden können. Das ist unter anderem für Webdesigner und andere Flash Liebhaber relevant:

Mit Truly Invisible Web werden Webseiten bezeichnet, die nicht indiziert werden können. Das können Datenbankformate sein, die vor dem WWW entstanden sind (einige Hosts), Dokumente, die nicht direkt im Browser angezeigt werden können, Nicht-Standardformate genauso wie Dateiformate, die nicht erfasst werden können (zum Beispiel Flash und Grafikformate). Dazu kommen komprimierte Daten, oder Webseiten, die nur über eine Benutzernavigation, die Grafiken (Image Maps) oder Scripte (Frames) benutzt, zu bedienen sind.

Man muss sich also wahrlich fragen, was im Deep Web alles an unbekannten Schätzen verborgen sein könnte. Und um wieviele Informationen die Welt reicher aber auch verzettelter wäre, wenn die Suchmaschinen erst mal in der Lage sind, das Deep Web komplett zu erfassen. Denn anscheinend wird ja momentan daran gearbeitet. Wenn allerdings das semantische Web bis dahin soweit ist, die Intention der User in Suchergebnisse zu übersetzen, dann spielt es auch keinerlei Rolle mehr, ob die Menge an Inhalten für Menschen handhabbar ist oder nicht.

So, ich muss hier aufhören – ich hab damals nur einen Küstenschifferschein gemacht und darf so stille Wasser gar nicht befahren.



Ähnliche Beiträge

6 Kommentare zu „Tief im Deep Web versunken“

  • Hallo Flachlandmatrose,
    angesichts des zuletzt erwähnten Küstenschifferscheins bin ich doch recht blaß geworden vor Neid. Wow! Aber das muss wohl bei Netzfischern so sein. Als Landei ohne Meeresanbindung habe ich nur die Seepferdchen-Prüfung abgelegt. Bevor ich jetzt zu weit abschweife: Danke für die Aufschlauung zum Deep web, konnte damit schon am Samstag brillieren. Weiter so. Gerne auch als Podcast.

  • Roland:

    Gepodcastet wird erstmal nix. Will doch nicht meine einzigen drei LeserInnen vergraulen.
    Da ich die letzten Jahre ebenfalls als Landei ohne Meeresanbindung verbracht hab, frage ich mich mittlerweile, ob es über sinnvoll war, diesen Schein zu machen. Aber egal, was man hat, das hat man.

  • Spannend, hatte das Deep Web noch nicht so auf meinem Radar (was man uebrigens von Parcour nicht sagen kann, da war Paris dann doch ziemlich praegend, schliesslich haben’s die Franzosen wohl erfunden).
    Hier noch ein Link von einem Deiner Kollegen (und meiner Exkollegen) in Paris ueber Interactive Advertising (Achtung, in franzoesisch): http://spinfaya.blogspot.com/

    Gruss aus Seattle

  • Roland:

    HHm, den Kollegen kenne ich allerdings noch nicht … Leider kann ich dann doch nicht so viel Französisch, als dass ich das Blog geniessen könnte…

  • [...] anhand des Kommentarfeeds mitverfolgen: RSS 2.0. Du kannst natürlich auch mitschnacken, oder ein Trackback von Deiner eigenen Seite setzen. Mitschnacken [...]

  • [...] wir zu Informations-Messies. Die Fülle an Informationen im Netz geht in die zig-Terabyte (“deep web”), jeden Tag kommen unzählige Gigabyte hinzu, insbesondere seitdem es immer mehr “user [...]

Kommentieren

Feeds
Atom | RSS 2 | Kommentare

  Subscribe



re:publica 12
Mein Fotoalbum
www.flickr.com
Blogzeugs