Document (#25559)

Author
Pawlak, A.
Title
Durch das Internet mit Links
Source
Spektrum der Wissenschaft. 2002, H.5, S.111
Year
2002
Content
"Wie findet der einzelne Nutzer in der "allwissenden Müllhalde" Internet genau die verlässliche Information, die er sucht? Immerhin stehen dem wissbegierigen User auf über 36 Millionen Web-Angeboten (Sites) mehr als vier Milliarden Einzelseiten zur Verfügung. Deshalb gibt er meist in ein eigens dafür konzipiertes Internet-Programm, eine so genannte Suchmaschine, eine Kombination von Suchwörten ein und erhält eine Liste von Webseiten, in denen diese Wörter vorkommen. Nur allzuoft enthält diese Liste einen hohen Anteil Unbrauchbares, denn aus dem bloßen Vorhandensein eines Wortes geht nicht hervor, ob die Webseite zu dem zugehörigen Begriff etwas zu sagen hat. Mehr Sinn steckt schon in den in Hyperlinks, anklickbaren Verweisen, die der Autor der Webseite selbst in diese eingefügt hat. Das Web lässt sich als ein riesiges Netz aus Knoten auffassen, die durch die Hyperlinks miteinander verknüpft sind. Spezielle Computerprogramme sind in der Lage, in diesem unübersehbaren, zufällig erscheinenden Fadengewirr eine gewisse Ordnung zu finden (Spektrum der Wissenschaft 8/1999, S.44). Dabei erweist sich die Hyperlink-Struktur oftmals als ein deutlicheres Kennzeichen für die inhaltliche Verwandtschaft von Webseiten als noch so geschickt gewählte Suchbegriffe. Alle Verknüpfungen im gesamten Internet unter die Lupe zu nehmen scheitert jedoch an ihrer riesigen Menge. Deshalb haben Gary Flake und seine Kollegen vom Forschungsinstitut der amerikanischen Firma NEC in Princeton einen eiwas anderen Weg gewählt. Sie beschränken sich nicht auf eine vorgegebene Menge von Seiten, sondern wählen zunächst eine aus, die als Keimzelle für eine so genannte Commu nity (Gemeinschaft) dient. Kandidaten für die Community sind zunächst die Webseiten, die mit der Keimzelle direkt oder indirekt über (einoder ausgehende) Hyperlinks verknüpft sind. Durch einen raffinierten Algorithmus wird dann bestimmt, welche Webseiten endgültig zur Community gehören: Per Definition ist jedes Mitglied einer Community mit mehr Mitgliedern als Nicht-Mitgliedern verbunden. Das Computer-Programm der NEC-Forscher identifiziert somit ausgehend vom gewählten Startpunkt die Gemeinschaft, die sich selbstorganisiert über die Hyperlinks im Internet gebildet hat (IEEE Computer, Bd. 35, S. 66, 2002). Ein Beispiel für diese Methode findet sich unter http://webselforganization.corn/example.html. Dort hat der Algorithmus der NEC-Forscher einer Internetseite mit Themen zum 11. September eine Gemeinschaft von mehr als 6000 weiteren Seiten zugeordnet - nur auf grund der Verknüpfungen über Hyperlinks und ohne Zuhilfenahme von Textinformationen. Innerhalb dieser Community führt das Suchwort "why" nun sofort auf Seiten, die sich mit der Frage "Why did it happen and why did the buildings collapse?" beschäftigen. Auch die ansonsten mehrdeutigen Begriffe "bin" und "laden" führen nicht mehr in die Irre, sondern auf Informationen über Usama Bin Laden. Filtersoftware zur Abwehr pornografischer oder anderer anstößiger Web-Inhalte könnte mit dem Community-Algorithmus noch treffsicherer werden. Wie sich herausstellt, ist eine Pornografie-Seite nicht unbedingt am Vorhandensein gewisser Reizwörter zu erkennen, die von den Betreibern vielleicht mit Fleiß vermieden werden, sondern weit zuverlässiger daran, dass sie auf andere Pornografie-Seiten verweist oder auf sie von diesen verwiesen wird. Auch sind effektivere Suchmaschinen denkbar, bei denen sich text- und linkbasierte Methoden geschickt ergänzen.
Allerdings läuft man im kurzlebigen Internet oft ins Leere. Was nützt der schönste Fund, wenn die zugehörige Internetseite nicht mehr existiert? John Markwell und David Brooks von der Universität von Nebraska in Lincoln haben das bei den von ihnen entwickelten Web-basierten Kursen zur Biochemie (http: //dwb.unl.edu/Teacher/NSF/C10/C10.html, -C11/C11.html und -C08/C08.html) schmerzlich zu spüren bekommen: Häufig fielen Hyperlinks aus - als würden aus einem Lehrbuch immer wieder Seiten ausgerissen. Einen vorläufigen Bericht dazu haben Markwell und Brooks unter http://www-eiass.unl.edu// biochem/url/broken_links.html veröffentlicht. Ihr Ergebnis: Hyperlinks haben eine Halbwertszeit von etwa 55 Monaten. Nach dieser Zeit sind somit die Hälfte von ihnen "zerbrochen", nach 13 Monaten schon 16,5 Prozent. Dabei erwiesen sich die Links von Regierungsstellen (Kürzel .gov) mit nur vier Prozent Verlust als einigermaßen robust, solche von Bildungsstätten (.edu) mit 17,5 Prozent als besonders kurzlebig. Diese Resultate haben die Begeisterung von Markwell und Brooks für die Verwendung von Hyperlinks erheblich gedämpft. Der Psychologe Ulf-Dietrich Reips von der Universität Zürich hat das Problem bereits seit längerem erkannt und für sich gelöst. Der Spezialist für psychologische Web-Experimente verweist nicht nur auf die Experimente seiner Kollegen, sondern archiviert sie gleich komplett unter der Adresse http://130.60. 239.96/wexlist/, um sie so langfristig verfügbar zu halten.
Footnote
Vgl. auch: http://mappa.mundi.net/maps/maps_008/
Theme
Internet

Similar documents (content)

  1. Dresler, S.; Grosse, A.G.; Rösner, A.: Realisierung und Optimierung der Informationsbeschaffung von Internet-Suchmaschinen am Beispiel von www.crawler.de (1997) 0.78
    0.7792617 = sum of:
      0.7792617 = sum of:
        0.22688214 = weight(abstract_txt:internet in 716) [ClassicSimilarity], result of:
          0.22688214 = score(doc=716,freq=4.0), product of:
            0.38958257 = queryWeight, product of:
              3.7271836 = idf(docFreq=2891, maxDocs=44218)
              0.10452466 = queryNorm
            0.5823724 = fieldWeight in 716, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.7271836 = idf(docFreq=2891, maxDocs=44218)
              0.078125 = fieldNorm(doc=716)
        0.23741557 = weight(abstract_txt:durch in 716) [ClassicSimilarity], result of:
          0.23741557 = score(doc=716,freq=2.0), product of:
            0.5059203 = queryWeight, product of:
              1.1395707 = boost
              4.2473893 = idf(docFreq=1718, maxDocs=44218)
              0.10452466 = queryNorm
            0.46927464 = fieldWeight in 716, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              4.2473893 = idf(docFreq=1718, maxDocs=44218)
              0.078125 = fieldNorm(doc=716)
        0.31496403 = weight(abstract_txt:links in 716) [ClassicSimilarity], result of:
          0.31496403 = score(doc=716,freq=1.0), product of:
            0.7695909 = queryWeight, product of:
              1.4054979 = boost
              5.2385488 = idf(docFreq=637, maxDocs=44218)
              0.10452466 = queryNorm
            0.4092616 = fieldWeight in 716, product of:
              1.0 = tf(freq=1.0), with freq of:
                1.0 = termFreq=1.0
              5.2385488 = idf(docFreq=637, maxDocs=44218)
              0.078125 = fieldNorm(doc=716)
    
  2. Poulin, M.: Electronic journals : a bibliography (1998) 0.69
    0.68544817 = sum of:
      0.68544817 = product of:
        1.0281723 = sum of:
          0.27225858 = weight(abstract_txt:internet in 774) [ClassicSimilarity], result of:
            0.27225858 = score(doc=774,freq=1.0), product of:
              0.38958257 = queryWeight, product of:
                3.7271836 = idf(docFreq=2891, maxDocs=44218)
                0.10452466 = queryNorm
              0.69884694 = fieldWeight in 774, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                3.7271836 = idf(docFreq=2891, maxDocs=44218)
                0.1875 = fieldNorm(doc=774)
          0.7559137 = weight(abstract_txt:links in 774) [ClassicSimilarity], result of:
            0.7559137 = score(doc=774,freq=1.0), product of:
              0.7695909 = queryWeight, product of:
                1.4054979 = boost
                5.2385488 = idf(docFreq=637, maxDocs=44218)
                0.10452466 = queryNorm
              0.9822279 = fieldWeight in 774, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                5.2385488 = idf(docFreq=637, maxDocs=44218)
                0.1875 = fieldNorm(doc=774)
        0.6666667 = coord(2/3)
    
  3. Arnold, A.: Google undokumentiert : Geheim: Google-Suche, wie Sie sie noch nicht kennen (2003) 0.69
    0.68544817 = sum of:
      0.68544817 = product of:
        1.0281723 = sum of:
          0.27225858 = weight(abstract_txt:internet in 2085) [ClassicSimilarity], result of:
            0.27225858 = score(doc=2085,freq=1.0), product of:
              0.38958257 = queryWeight, product of:
                3.7271836 = idf(docFreq=2891, maxDocs=44218)
                0.10452466 = queryNorm
              0.69884694 = fieldWeight in 2085, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                3.7271836 = idf(docFreq=2891, maxDocs=44218)
                0.1875 = fieldNorm(doc=2085)
          0.7559137 = weight(abstract_txt:links in 2085) [ClassicSimilarity], result of:
            0.7559137 = score(doc=2085,freq=1.0), product of:
              0.7695909 = queryWeight, product of:
                1.4054979 = boost
                5.2385488 = idf(docFreq=637, maxDocs=44218)
                0.10452466 = queryNorm
              0.9822279 = fieldWeight in 2085, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                5.2385488 = idf(docFreq=637, maxDocs=44218)
                0.1875 = fieldNorm(doc=2085)
        0.6666667 = coord(2/3)
    
  4. Humphreys, N.: Putting our heads together : reference librarians and indexers (1996) 0.63
    0.6338586 = sum of:
      0.6338586 = product of:
        0.9507879 = sum of:
          0.32085982 = weight(abstract_txt:internet in 6842) [ClassicSimilarity], result of:
            0.32085982 = score(doc=6842,freq=2.0), product of:
              0.38958257 = queryWeight, product of:
                3.7271836 = idf(docFreq=2891, maxDocs=44218)
                0.10452466 = queryNorm
              0.823599 = fieldWeight in 6842, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                3.7271836 = idf(docFreq=2891, maxDocs=44218)
                0.15625 = fieldNorm(doc=6842)
          0.62992805 = weight(abstract_txt:links in 6842) [ClassicSimilarity], result of:
            0.62992805 = score(doc=6842,freq=1.0), product of:
              0.7695909 = queryWeight, product of:
                1.4054979 = boost
                5.2385488 = idf(docFreq=637, maxDocs=44218)
                0.10452466 = queryNorm
              0.8185232 = fieldWeight in 6842, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                5.2385488 = idf(docFreq=637, maxDocs=44218)
                0.15625 = fieldNorm(doc=6842)
        0.6666667 = coord(2/3)
    
  5. Bei Fragen des Anstandes scheiden sich die Geister (1996) 0.60
    0.6001477 = sum of:
      0.6001477 = product of:
        0.9002216 = sum of:
          0.36301145 = weight(abstract_txt:internet in 3253) [ClassicSimilarity], result of:
            0.36301145 = score(doc=3253,freq=1.0), product of:
              0.38958257 = queryWeight, product of:
                3.7271836 = idf(docFreq=2891, maxDocs=44218)
                0.10452466 = queryNorm
              0.9317959 = fieldWeight in 3253, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                3.7271836 = idf(docFreq=2891, maxDocs=44218)
                0.25 = fieldNorm(doc=3253)
          0.5372101 = weight(abstract_txt:durch in 3253) [ClassicSimilarity], result of:
            0.5372101 = score(doc=3253,freq=1.0), product of:
              0.5059203 = queryWeight, product of:
                1.1395707 = boost
                4.2473893 = idf(docFreq=1718, maxDocs=44218)
                0.10452466 = queryNorm
              1.0618473 = fieldWeight in 3253, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                4.2473893 = idf(docFreq=1718, maxDocs=44218)
                0.25 = fieldNorm(doc=3253)
        0.6666667 = coord(2/3)