Search (1 results, page 1 of 1)

Did you mean:
rswk_00%3a%22World wide web %2f elektronische bibliothek %2f information retrieval %2f kongress %2f trondheim %3.2003%3E%22 1
rswk_00%3a%22World wide web %2f elektronische bibliothek %2f information retrieval %2f kongress %2f trondheim %32003%3E%22 1
rswk_00%3a%22World wide web %2f elektronische bibliothek %2f information retrieval %2f kongresse %2f trondheim %3.2003%3E%22 1
rswk_00%3a%22World wide web %2f elektronische bibliothek %2f information retrieval %2f kongress %2f trondheim %3.2008%3E%22 1
rswk_00%3a%22World wide web %2f elektronische bibliothek %2f information retrieval %2f kongresu %2f trondheim %3.2003%3E%22 1

Blittkowsky, R.: ¬Das World Wide Web gleicht einer Fliege : Studien versuchen zu erklären, warum Suchmaschinen nicht immer fündig werden (2001) 0.01
```
0.006466719 = product of:
  0.04526703 = sum of:
    0.027831879 = weight(_text_:wide in 1090) [ClassicSimilarity], result of:
      0.027831879 = score(doc=1090,freq=6.0), product of:
        0.1312982 = queryWeight, product of:
          4.4307585 = idf(docFreq=1430, maxDocs=44218)
          0.029633347 = queryNorm
        0.21197456 = fieldWeight in 1090, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          4.4307585 = idf(docFreq=1430, maxDocs=44218)
          0.01953125 = fieldNorm(doc=1090)
    0.017435152 = weight(_text_:web in 1090) [ClassicSimilarity], result of:
      0.017435152 = score(doc=1090,freq=8.0), product of:
        0.09670874 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.029633347 = queryNorm
        0.18028519 = fieldWeight in 1090, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.01953125 = fieldNorm(doc=1090)
  0.14285715 = coord(2/14)
```
Abstract

Einer möchte wissen, auf welchen Webseiten sein Name vorkommt. Die andere sucht nach den neusten Sportergebnissen. Ein Dritter recherchiert den Wissensstand über Schrödingers Katze. Internetnutzer befragen jede Minute zu Hunderttausenden Suchmaschinen und Webkataloge. Die wurden, seit das Internet zum Masseninedium herangereift ist, zu Info- (Mono-) Polen für den Zugang zur heterogenen Welt des Web. Dahinter steckt viel Arbeit. Die Suchmaschinen schicken unentwegt Roboter und Agenten los, die Seiten lesen - und Inhalte oder Verweise an mächtige Datenbankservermelden. Täglich entstehen mehrere hunderttausend Webseiten; die Zahl der Adressen, die verarbeitet werden müsste, ist mittlerweile auf mehr als eine Milliarde gewachsen. Nicht nur deshalb wird die automatische Recherche zunehmend schwierig. Eine Untersuchung der Firmen Altavista, Compac und IBM, die die Verbindungen auf 500 Millionen Seiten auswertete, ergab: Im WWW wächst ein Bereich heran, den konventionelle Suchtechnologien nicht erfassen können. Das widerspricht früheren Studien, nach denen zwei beliebige Webadressen höchstens 19 Hyperlinks voneinander entfernt liegen - sich prinzipiell also alles finden lässt. Die Forscher um Altavista-Chefwissenschaftler Andrei Broder vergleichen den Aufbau des World Wide Weh mit der Form einer Fliege. Das Netz gliedert sich demnach in vier Bereiche. Etwa ein Drittel der Seiten fügen den zentralen Kein, um den sich die anderen Gebiete lagern. Den Knoten beschreiben die Fachleute als Giant Strongly Connected Components (SCC): Die Seiten sind untereinander eng verknüpft; es bestehen gute Linkverbindungen zwischen den Angeboten; sie sind leicht zu finden. Ein Viertel der Adressen macht eine Schicht aus, die sich als eine Schleife der Fliege sehen lässt. Es handelt sich vorwiegend um Anfangsseiten, Einstiegspunkte zu Webseiten und inhaltlich sortierende Kataloge.
Von dort aus sind die zentralen Seiten im Knoten gut erreichbar. Eine zweite Schleife, ein weiteres Viertel aller Webseiten, bilden die Endpunkte - Angebote ohne Links. Sie sind nur über den Knoten erreichbar. Verbleibt etwa ein Fünftel aller Seiten, die gar nicht oder nur indirekt mit dem Knoten verknüpft sind. Letztere werden als Tendrils bezeichnet. Diese Webangebote basieren beispielsweise auf Datenbanken von Unternehmen, Verbänden oder Organisationen. Sie entstehen erst in den wenn sie abgerufen werden - oft in kryptischen Dateiformaten und mit Animationen, Bildern oder Audiodateien angereichert. Surfer können diese Informationen mit Recherchen in den Webseiten der Schleifen aufspüren. Die Agenten der Suchmaschinen dagegen sind darauf trainiert, ständig verfügbare Dokumente im html-Format zu finden. Ihnen entgeht dieser Teil des World Wide Web. Das US-Softwareunternehmen Bright Planet schätzt, das WWW umfasst 2000-mal so viele Seiten, wie alle Suchsysteme zusammen glauben. Auch wenn sie systembedingt nicht alle Seiten kennen: Insgesamt liefern die automatischen Maschinen mehr Ergebnisse als Kataloge wie Yahoo, Dino-Online oder Looksmart. Deren Macher beschäftigen Redaktionsstäbe, die Inhalte recherchieren, sichten und in die Verzeichnisse einordnen. Webkataloge bauen also auf die humane Intelligenz ihrer Rechercheure, die Themen und Seiten verknüpfen sowie Inhalte kommentieren und einordnen. Yahoo, Lieblingskind der New Economy, bringt es indes gerade einmal auf 15 Millionen katalogisierter Webseiten. Gleichwohl kauft Yahoo bei einigen Themen mancher Suchmaschine den Schneid ab: Eine vorstrukturierte, handverlesene Einarbeitung von Inhalten in die Rubriken eines Katalogs kann genauer Auskunft geben.

Content

Mit einer Abbildung zur Visualisierung des Invisible Web