Search (784 results, page 1 of 40)

Li, L.; Shang, Y.; Zhang, W.: Improvement of HITS-based algorithms on Web documents 0.25

0.24539435 = product of:
  0.32719246 = sum of:
    0.058879625 = product of:
      0.17663887 = sum of:
        0.17663887 = weight(_text_:3a in 2514) [ClassicSimilarity], result of:
          0.17663887 = score(doc=2514,freq=2.0), product of:
            0.31429395 = queryWeight, product of:
              8.478011 = idf(docFreq=24, maxDocs=44218)
              0.03707166 = queryNorm
            0.56201804 = fieldWeight in 2514, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              8.478011 = idf(docFreq=24, maxDocs=44218)
              0.046875 = fieldNorm(doc=2514)
      0.33333334 = coord(1/3)
    0.24980508 = weight(_text_:2f in 2514) [ClassicSimilarity], result of:
      0.24980508 = score(doc=2514,freq=4.0), product of:
        0.31429395 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.03707166 = queryNorm
        0.7948135 = fieldWeight in 2514, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.046875 = fieldNorm(doc=2514)
    0.018507738 = product of:
      0.037015475 = sum of:
        0.037015475 = weight(_text_:web in 2514) [ClassicSimilarity], result of:
          0.037015475 = score(doc=2514,freq=4.0), product of:
            0.12098375 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.03707166 = queryNorm
            0.3059541 = fieldWeight in 2514, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.046875 = fieldNorm(doc=2514)
      0.5 = coord(1/2)
  0.75 = coord(3/4)

Content: Vgl.: http%3A%2F%2Fdelab.csd.auth.gr%2F~dimitris%2Fcourses%2Fir_spring06%2Fpage_rank_computing%2Fp527-li.pdf. Vgl. auch: http://www2002.org/CDROM/refereed/643/.
Source: WWW '02: Proceedings of the 11th International Conference on World Wide Web, May 7-11, 2002, Honolulu, Hawaii, USA

Glogau, R.: Suchmaschine mit Köpfchen (1996) 0.10

0.09801662 = product of:
  0.19603324 = sum of:
    0.18552108 = sum of:
      0.061692458 = weight(_text_:web in 4835) [ClassicSimilarity], result of:
        0.061692458 = score(doc=4835,freq=4.0), product of:
          0.12098375 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03707166 = queryNorm
          0.5099235 = fieldWeight in 4835, product of:
            2.0 = tf(freq=4.0), with freq of:
              4.0 = termFreq=4.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.078125 = fieldNorm(doc=4835)
      0.12382862 = weight(_text_:seiten in 4835) [ClassicSimilarity], result of:
        0.12382862 = score(doc=4835,freq=2.0), product of:
          0.20383513 = queryWeight, product of:
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03707166 = queryNorm
          0.607494 = fieldWeight in 4835, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.078125 = fieldNorm(doc=4835)
    0.010512163 = product of:
      0.052560814 = sum of:
        0.052560814 = weight(_text_:28 in 4835) [ClassicSimilarity], result of:
          0.052560814 = score(doc=4835,freq=2.0), product of:
            0.13280044 = queryWeight, product of:
              3.5822632 = idf(docFreq=3342, maxDocs=44218)
              0.03707166 = queryNorm
            0.39578792 = fieldWeight in 4835, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5822632 = idf(docFreq=3342, maxDocs=44218)
              0.078125 = fieldNorm(doc=4835)
      0.2 = coord(1/5)
  0.5 = coord(2/4)

Abstract: Der Begriff 'Volltextsuche im Web' klingt langweilig. Doch wer möchte nicht gerne wissen, welche WWW-Seiten ein Link auf die eigene Homepage enthalten. Was sich alles finden läßt, zeigt dieser Crashkurs anhand der schnellsten Suchmaschine im Web
Date: 26.12.1998 13:28:03

Machill, M.; Beiler, M.; Neumann, U.: Leistungsfähigkeit von wissenschaftlichen Suchmaschinen. : ein Experiment am Beispiel von Google Scholar (2007) 0.08

0.08301051 = product of:
  0.16602102 = sum of:
    0.15741985 = sum of:
      0.052347783 = weight(_text_:web in 389) [ClassicSimilarity], result of:
        0.052347783 = score(doc=389,freq=8.0), product of:
          0.12098375 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03707166 = queryNorm
          0.43268442 = fieldWeight in 389, product of:
            2.828427 = tf(freq=8.0), with freq of:
              8.0 = termFreq=8.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.046875 = fieldNorm(doc=389)
      0.105072066 = weight(_text_:seiten in 389) [ClassicSimilarity], result of:
        0.105072066 = score(doc=389,freq=4.0), product of:
          0.20383513 = queryWeight, product of:
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03707166 = queryNorm
          0.51547575 = fieldWeight in 389, product of:
            2.0 = tf(freq=4.0), with freq of:
              4.0 = termFreq=4.0
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.046875 = fieldNorm(doc=389)
    0.008601176 = product of:
      0.043005876 = sum of:
        0.043005876 = weight(_text_:29 in 389) [ClassicSimilarity], result of:
          0.043005876 = score(doc=389,freq=4.0), product of:
            0.13040651 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.03707166 = queryNorm
            0.3297832 = fieldWeight in 389, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.046875 = fieldNorm(doc=389)
      0.2 = coord(1/5)
  0.5 = coord(2/4)

Abstract: Das Internet wurde schon seit seinen ersten Anfängen 1969 wissenschaftlich genutzt und war bis zu seiner Kommerzialisierung Mitte der 1990er-Jahre ein akademisch geprägtes Netz. In Deutschland informieren sich 42 Prozent der Nutzer im Internet häufig oder gelegentlich über Wissenschaft, Forschung und Bildung. Damit stehen wissenschaftliche Informationen gleich hinter aktuellen Nachrichten (45%) an zweiter Stelle der meistgenutzten Internetinhalte. Das World Wide Web ist heute ein riesiges, schnell wachsendes und den Globus umspannendes Informationsreservoir. Verschiedene Studien schätzen das Oberflächen-Web auf bis zu über elf Milliarden Seiten. Für wissenschaftliche Recherchen ist vor allem das 550 Milliarden Seiten umfassende Deep Web interessant, da es zahlreiche qualitativ hochwertige Fachtexte enthält. Das Deep Web ist jedoch schwer zugänglich, da es aus dynamisch aus Datenbanken generierten und zugangsbeschränkten oder kostenpflichtigen Informationen besteht. Die meisten herkömmlichen, allgemeinen Internet-Suchmaschinen haben auf diese Inhalte keinen Zugriff und können diese nicht indexieren; für Nutzer sind sie somit nicht auffindbar. Daher sind gesonderte Suchmaschinen zur gezielten Vermittlung und Selektion von akademischen Informationen notwendig.
Date: 13. 5.2007 10:29:29

Rieder, B.: Demokratisierung der Suche? : von der Kritik zum gesellschaftlich orientierten Design (2009) 0.07

0.070794165 = product of:
  0.14158833 = sum of:
    0.13633224 = sum of:
      0.04877217 = weight(_text_:web in 24) [ClassicSimilarity], result of:
        0.04877217 = score(doc=24,freq=10.0), product of:
          0.12098375 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03707166 = queryNorm
          0.40312994 = fieldWeight in 24, product of:
            3.1622777 = tf(freq=10.0), with freq of:
              10.0 = termFreq=10.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.0390625 = fieldNorm(doc=24)
      0.087560065 = weight(_text_:seiten in 24) [ClassicSimilarity], result of:
        0.087560065 = score(doc=24,freq=4.0), product of:
          0.20383513 = queryWeight, product of:
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03707166 = queryNorm
          0.42956316 = fieldWeight in 24, product of:
            2.0 = tf(freq=4.0), with freq of:
              4.0 = termFreq=4.0
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.0390625 = fieldNorm(doc=24)
    0.0052560815 = product of:
      0.026280407 = sum of:
        0.026280407 = weight(_text_:28 in 24) [ClassicSimilarity], result of:
          0.026280407 = score(doc=24,freq=2.0), product of:
            0.13280044 = queryWeight, product of:
              3.5822632 = idf(docFreq=3342, maxDocs=44218)
              0.03707166 = queryNorm
            0.19789396 = fieldWeight in 24, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5822632 = idf(docFreq=3342, maxDocs=44218)
              0.0390625 = fieldNorm(doc=24)
      0.2 = coord(1/5)
  0.5 = coord(2/4)

Abstract: Seit die Techniker der Digital Equipment Company 1995 AltaVista einführten, die erste große Suchmaschine für das World Wide Web, hat sich vieles verändert. 2009 ist das Web die zentrale Plattform für alles, was mit Information und Kommunikation zu tun hat: es bietet Raum für eine Vielfalt von Aktivitäten und Vorgängen, die früher über zahlreiche verschiedene Kanäle verteilt waren. Mit 1,5 Milliarden Nutzern, mehr als einer Trillion Seiten und einer Palette von Services, die von der einfachen Darstellung von Text-basierter Information bis zu hoch entwickelten Applikationen und Multimedia-Technologien reichen, ist das Web der Gegenwart ein Informationsgigant und außerdem zentraler Bestandteil einer kapitalistischen Ökonomie, die sich von einem industriellen zu einem kognitiven Produktionsmodus entwickelt. Da das Web kein eigenes Index- oder Katalogsystem mitbringt, liegt es an den Suchmaschinen, die unübersichtliche Struktur des Web den Nutzern zu erschließen. Obwohl Suchmaschinen komplexe Werkzeuge sind, ist ihre Handhabung überraschend einfach: Eine aus einem oder mehreren Wörtern bestehende Suchanfrage führt zu einer geordneten Liste von Seiten, welche die angegebenen Begriffe enthalten. Es ist kein Wunder, dass Suchmaschinen zu den beliebtesten Internet-Diensten gehören.
Date: 28. 8.2011 19:39:26

Stock, M.; Stock, W.G.: Internet-Suchwerkzeuge im Vergleich (IV) : Relevance Ranking nach "Popularität" von Webseiten: Google (2001) 0.06

0.0629695 = product of:
  0.125939 = sum of:
    0.11963169 = sum of:
      0.045334514 = weight(_text_:web in 5771) [ClassicSimilarity], result of:
        0.045334514 = score(doc=5771,freq=6.0), product of:
          0.12098375 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03707166 = queryNorm
          0.37471575 = fieldWeight in 5771, product of:
            2.4494898 = tf(freq=6.0), with freq of:
              6.0 = termFreq=6.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.046875 = fieldNorm(doc=5771)
      0.074297175 = weight(_text_:seiten in 5771) [ClassicSimilarity], result of:
        0.074297175 = score(doc=5771,freq=2.0), product of:
          0.20383513 = queryWeight, product of:
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03707166 = queryNorm
          0.3644964 = fieldWeight in 5771, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.046875 = fieldNorm(doc=5771)
    0.0063072974 = product of:
      0.031536486 = sum of:
        0.031536486 = weight(_text_:28 in 5771) [ClassicSimilarity], result of:
          0.031536486 = score(doc=5771,freq=2.0), product of:
            0.13280044 = queryWeight, product of:
              3.5822632 = idf(docFreq=3342, maxDocs=44218)
              0.03707166 = queryNorm
            0.23747274 = fieldWeight in 5771, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5822632 = idf(docFreq=3342, maxDocs=44218)
              0.046875 = fieldNorm(doc=5771)
      0.2 = coord(1/5)
  0.5 = coord(2/4)

Abstract: In unserem Retrievaltest von Suchwerkzeugen im World Wide Web (Password 11/2000) schnitt die Suchmaschine Google am besten ab. Im Vergleich zu anderen Search Engines setzt Google kaum auf Informationslinguistik, sondern auf Algorithmen, die sich aus den Besonderheiten der Web-Dokumente ableiten lassen. Kernstück der informationsstatistischen Technik ist das "PageRank"- Verfahren (benannt nach dem Entwickler Larry Page), das aus der Hypertextstruktur des Web die "Popularität" von Seiten anhand ihrer ein- und ausgehenden Links berechnet. Google besticht durch das Angebot intuitiv verstehbarer Suchbildschirme sowie durch einige sehr nützliche "Kleinigkeiten" wie die Angabe des Rangs einer Seite, Highlighting, Suchen in der Seite, Suchen innerhalb eines Suchergebnisses usw., alles verstaut in einer eigenen Befehlsleiste innerhalb des Browsers. Ähnlich wie RealNames bietet Google mit dem Produkt "AdWords" den Aufkauf von Suchtermen an. Nach einer Reihe von nunmehr vier Password-Artikeln über InternetSuchwerkzeugen im Vergleich wollen wir abschließend zu einer Bewertung kommen. Wie ist der Stand der Technik bei Directories und Search Engines aus informationswissenschaftlicher Sicht einzuschätzen? Werden die "typischen" Internetnutzer, die ja in der Regel keine Information Professionals sind, adäquat bedient? Und können auch Informationsfachleute von den Suchwerkzeugen profitieren?
Date: 28. 4.2001 14:47:21

Fordahl, M.: Mit Google den PC durchforsten : Kleines Programm erstellt in rechenfreien Zeiten einen Index (2004) 0.06
```
0.062754735 = product of:
  0.12550947 = sum of:
    0.118406296 = sum of:
      0.030846229 = weight(_text_:web in 4209) [ClassicSimilarity], result of:
        0.030846229 = score(doc=4209,freq=4.0), product of:
          0.12098375 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03707166 = queryNorm
          0.25496176 = fieldWeight in 4209, product of:
            2.0 = tf(freq=4.0), with freq of:
              4.0 = termFreq=4.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.0390625 = fieldNorm(doc=4209)
      0.087560065 = weight(_text_:seiten in 4209) [ClassicSimilarity], result of:
        0.087560065 = score(doc=4209,freq=4.0), product of:
          0.20383513 = queryWeight, product of:
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03707166 = queryNorm
          0.42956316 = fieldWeight in 4209, product of:
            2.0 = tf(freq=4.0), with freq of:
              4.0 = termFreq=4.0
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.0390625 = fieldNorm(doc=4209)
    0.0071031675 = product of:
      0.035515837 = sum of:
        0.035515837 = weight(_text_:22 in 4209) [ClassicSimilarity], result of:
          0.035515837 = score(doc=4209,freq=4.0), product of:
            0.12981863 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.03707166 = queryNorm
            0.27358043 = fieldWeight in 4209, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0390625 = fieldNorm(doc=4209)
      0.2 = coord(1/5)
  0.5 = coord(2/4)
```
Content

"Die Google-Suche nach Dateien im Internet kann nun auch auf en eigenen PC ausgedehnt werden. Ein kleines kostenloses Programm, das sich am unteren Bildschirmrand einnistet, startet die Volltextsuche auf der Festplatte. Google erfasst den Inhalt aller Web-Seiten und Dokumente im Microsoft-Office-Format sowie die Namen sonstiger Dateien und zeigt die Trefferliste im Browser in der vertrauten Liste an - allerdings nur auf Computern mit Windows 2000 oder Windows XE Bei der Entwicklung dieses Werkzeugs hat Google sowohl die eigene Suchtechnologie als auch eine Schwäche von Windows ausgenutzt. Bei der "Desktop-Suche" kommt der gleiche Algorithmus zum Einsatz wie bei der Internet-Suche. Für die dazu benötigte Datenbank wird der Index-Dienst von Windows verwendet, der nur wenigen Anwendern bekannt ist, weil er etwas kompliziert und obendrein ziemlich langsam ist. Das neue Google Tool erstellt selbst diesen Suchindex für die Dateien in der Zeit, wenn der Computer gerade untätig ist. Sobald das 400 KB große Programm heruntergeladen und installiert ist, fängt es damit an, den PC zu durchforsten. Bei gut gefüllten Festplatten dauert es ein paar Stunden oder auch ein paar Tage, bis dieser Vorgang abgeschlossen ist. Sobald der Prozessor 30 Sekunden nichts zu tun hat, wird die Arbeit am Index aufgenommen beziehungsweise fortgesetzt. Ist er fertig, bietet diese Datenbank das Material, auf den sich der Google- Algorithmus stürzt, sobald eine Suchanfrage gestartet wird. Die meisten Google-Tricks für die Suche nach Web-Seiten, Bildern oder Beiträgen in Newsgroups funktionieren auch bei der Desktop-Suche."

Date

3. 5.1997 8:44:22

Source

Bergische Landeszeitung. Nr.247 vom 21.10.2004, S.22
Henzinger, M.; Pöppe, C.: "Qualität der Suchergebnisse ist unser höchstes Ziel" : Suchmaschine Google (2002) 0.06
```
0.06207456 = product of:
  0.12414912 = sum of:
    0.10924065 = sum of:
      0.026173891 = weight(_text_:web in 851) [ClassicSimilarity], result of:
        0.026173891 = score(doc=851,freq=8.0), product of:
          0.12098375 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03707166 = queryNorm
          0.21634221 = fieldWeight in 851, product of:
            2.828427 = tf(freq=8.0), with freq of:
              8.0 = termFreq=8.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.0234375 = fieldNorm(doc=851)
      0.08306676 = weight(_text_:seiten in 851) [ClassicSimilarity], result of:
        0.08306676 = score(doc=851,freq=10.0), product of:
          0.20383513 = queryWeight, product of:
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03707166 = queryNorm
          0.40751937 = fieldWeight in 851, product of:
            3.1622777 = tf(freq=10.0), with freq of:
              10.0 = termFreq=10.0
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.0234375 = fieldNorm(doc=851)
    0.014908472 = product of:
      0.03727118 = sum of:
        0.015768243 = weight(_text_:28 in 851) [ClassicSimilarity], result of:
          0.015768243 = score(doc=851,freq=2.0), product of:
            0.13280044 = queryWeight, product of:
              3.5822632 = idf(docFreq=3342, maxDocs=44218)
              0.03707166 = queryNorm
            0.11873637 = fieldWeight in 851, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5822632 = idf(docFreq=3342, maxDocs=44218)
              0.0234375 = fieldNorm(doc=851)
        0.021502938 = weight(_text_:29 in 851) [ClassicSimilarity], result of:
          0.021502938 = score(doc=851,freq=4.0), product of:
            0.13040651 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.03707166 = queryNorm
            0.1648916 = fieldWeight in 851, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.0234375 = fieldNorm(doc=851)
      0.4 = coord(2/5)
  0.5 = coord(2/4)
```
Content

Spektrum der Wissenschaft: Frau Henzinger, wie viele Seiten des World Wide Web erschließt Google heute? Monika Henzinger: Wir haben über zwei Milliarden Webseiten in unserer Datenbank. Hinzu kommen 700 Millionen Newsgroup-Beiträge, die weit in die Vergangenheit reichen, und 300 Millionen Bilder. - Spektrum: Und diese Inhalte haben Sie komplett gespeichert? - Henzinger: In komprimierter Form, ja. Spektrum: Ist das nicht schon das gesamte Web? - Henzinger: Bei weitem nicht! Eigentlich ist das Web unendlich. Es gibt Datenbanken, die beliebig viele Webseiten auf Anfrage erzeugen können. Natürlich macht es keinen Sinn, die alle in der Suchmaschine zu haben. Wir beschränken uns auf Seiten hoher Qualität. - Spektrum: Wie wählen Sie die aus? - Henzinger: Nach dem so genannten PageRank. Das ist eine Note, die wir jeder Seite geben, unabhängig von irgendeiner Anfrage, für die diese Seite relevant sein könnte. Und zwar ist die Qualität einer Seite - oder anders gesagt: die Hochachtung, die sie innerhalb des Web genießt - umso größer, je mehr andere Seiten auf sie verweisen und je höher die Qualität der verweisenden Seite ist. Der PageRank bestimmt auch wesentlich die Reihenfolge, in der Google dem Anfrager die Ergebnisse präsentiert. - Spektrum: Ist der PageRank manipulierbar, etwa durch ein Zitierkartell? - Henzinger: Es wird zumindest immer wieder versucht. Zum Beispiel ist "Britney Spears" ein sehr häufiger Suchbegriff. Deswegen versuchen viele, ihren PageRank hochzutreiben, um unter den Antworten auf "Britney Spears" auf den vordersten Plätzen zu landen, auch wenn sie bloß Turnschuhe verkaufen. - Spektrum: Und was tun Sie dagegen? - Henzinger: Wenn wir offensichtlichen Missbrauch sehen, nehmen wir die entsprechenden Seiten gezielt heraus - im Interesse unserer Benutzer, für die wir die Qualität wahren wollen. - Spektrum: Gibt es auch andere Maßnahmen als diese Einzelkorrekturen? - Henzinger: Ja. Aber die diskutieren wir nicht öffentlich, um den "Rüstungswettlauf" nicht anzuheizen. - Spektrum: Seit wann gibt es Google? - Henzinger: Die Firma existiert seit dreieinhalb Jahren. Seit reichlich zwei Jahren sind wir auf dem Markt. Die Kunde von uns hat sich durch Mundpropaganda verbreitet, und inzwischen kommt die Hälfte der Anfragen von außerhalb der USA, zwölf Prozent allein aus dem deutschsprachigen Raum. Wir beantworten über 150 Millionen Anfragen am Tag, und zwar direkt oder über unsere Partner. Wenn zum Beispiel die Suchmaschine Yahoo ein Stichwort nicht im eigenen Verzeichnis findet, reicht sie die Anfrage an uns weiter und gibt dem Benutzer unsere Antwort. - Spektrum: Mit welcher Hardware läuft das System? - Henzinger: Mit über zehntausend PCs, verteilt auf vier Datenzentren. Betriebssystem ist Linux. - Spektrum: Wie prüfen Sie, ob die aufgeftihrten Webseiten noch existieren? - Henzinger: Besonders ereignisreiche Webseiten besuchen wir täglich. Alle 28 Tage aktualisieren wir den Index - das ist die Liste, die zu jedem Wort die Seiten aufführt, auf denen es vorkommt. - Spektrum: Wie aufwendig ist dieses Indizieren? - Henzinger: Sehr aufwendig. Etwa eine Woche. - Spektrum: Wie viele Leute hat die Firma? - Henzinger: Ungefähr 300. Bisher haben wir unsere Belegschaft in jedem Jahr ungefähr verdoppelt. -

Date

31.12.1996 19:29:41
2. 8.2002 14:39:29

Dambeck, H.: Wie Google mit Milliarden Unbekannten rechnet : Teil 2: Ausgerechnet: Der Page Rank für ein Mini-Web aus drei Seiten (2009) 0.06

0.059203148 = product of:
  0.23681259 = sum of:
    0.23681259 = sum of:
      0.061692458 = weight(_text_:web in 3080) [ClassicSimilarity], result of:
        0.061692458 = score(doc=3080,freq=4.0), product of:
          0.12098375 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03707166 = queryNorm
          0.5099235 = fieldWeight in 3080, product of:
            2.0 = tf(freq=4.0), with freq of:
              4.0 = termFreq=4.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.078125 = fieldNorm(doc=3080)
      0.17512013 = weight(_text_:seiten in 3080) [ClassicSimilarity], result of:
        0.17512013 = score(doc=3080,freq=4.0), product of:
          0.20383513 = queryWeight, product of:
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03707166 = queryNorm
          0.8591263 = fieldWeight in 3080, product of:
            2.0 = tf(freq=4.0), with freq of:
              4.0 = termFreq=4.0
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.078125 = fieldNorm(doc=3080)
  0.25 = coord(1/4)

Abstract: Ein simples Beispiel eines Mini-Internets aus drei Web-Seiten verdeutlicht, wie dieses Ranking-System in der Praxis funktioniert.

ap: Konkurrenz für Google : Neue Suchmaschine "Teoma" gestartet (2002) 0.06

0.058669943 = product of:
  0.11733989 = sum of:
    0.11131265 = sum of:
      0.037015475 = weight(_text_:web in 187) [ClassicSimilarity], result of:
        0.037015475 = score(doc=187,freq=4.0), product of:
          0.12098375 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03707166 = queryNorm
          0.3059541 = fieldWeight in 187, product of:
            2.0 = tf(freq=4.0), with freq of:
              4.0 = termFreq=4.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.046875 = fieldNorm(doc=187)
      0.074297175 = weight(_text_:seiten in 187) [ClassicSimilarity], result of:
        0.074297175 = score(doc=187,freq=2.0), product of:
          0.20383513 = queryWeight, product of:
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03707166 = queryNorm
          0.3644964 = fieldWeight in 187, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.046875 = fieldNorm(doc=187)
    0.0060272375 = product of:
      0.030136187 = sum of:
        0.030136187 = weight(_text_:22 in 187) [ClassicSimilarity], result of:
          0.030136187 = score(doc=187,freq=2.0), product of:
            0.12981863 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.03707166 = queryNorm
            0.23214069 = fieldWeight in 187, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.046875 = fieldNorm(doc=187)
      0.2 = coord(1/5)
  0.5 = coord(2/4)

Content: "Die Suchmaschine Google gilt oft als der beste Weg, um schnell etwas im Internet zu finden. Das war einmal, behauptet Apostolos Gerasoulis, jetzt gebe es www.teoma. com. "Wir sind die nächste Generation der Suchmaschinen", verspricht der Mathematikprofessor. Die Web-Sites von Google und Teoma sind ähnlich aufgemacht. Beide bieten eine weitgehend weiße Startseite mit wenigen, klaren Farben. Beide Suchmaschinen benutzen bei ihrer Arbeit zur Analyse der Anfragen einen komplizierten Algorithmus. Teoma hält den eigenen Ansatz aber für besser, weil dabei das Internet in Gruppen von Online-Gemeinschaften unterteilt wird. Dies liefere bessere Ergebnisse und erlaube eine nützlichere Auswahl. Zu einem Suchbegriff erscheinen bei Teoma zuerst links oben die bezahlten Verweise, darunter dann' alle anderen gefundenen Web-Seiten. Rechts erscheinen Vorschläge zur Verfeinerung der Suchanfrage, darunter manchmal Links von "Experten und Enthusiasten". Diese qualifizierten Antworten sind eine der Stärken, mit denen Teoma wuchern möchte. Sie sind besonders für Anfänger nützlich, die nach allgemeinen Themen wie Afrika" oder "Fußball" suchen. Allerdings könnte dieser Ergebnisdienst Nutzer auch überfordern, gerade wenn sie an das einfache Google gewöhnt seien, kritsiert Rob Lancaster von der Yankee Group."
Date: 3. 5.1997 8:44:22

Jörn, F.: Wie Google für uns nach der ominösen Gluonenkraft stöbert : Software-Krabbler machen sich vor der Anfrage auf die Suche - Das Netz ist etwa fünfhundertmal größer als alles Durchforschte (2001) 0.06
```
0.056061596 = product of:
  0.11212319 = sum of:
    0.11011411 = sum of:
      0.017449262 = weight(_text_:web in 3684) [ClassicSimilarity], result of:
        0.017449262 = score(doc=3684,freq=8.0), product of:
          0.12098375 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03707166 = queryNorm
          0.14422815 = fieldWeight in 3684, product of:
            2.828427 = tf(freq=8.0), with freq of:
              8.0 = termFreq=8.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.015625 = fieldNorm(doc=3684)
      0.09266485 = weight(_text_:seiten in 3684) [ClassicSimilarity], result of:
        0.09266485 = score(doc=3684,freq=28.0), product of:
          0.20383513 = queryWeight, product of:
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03707166 = queryNorm
          0.4546069 = fieldWeight in 3684, product of:
            5.2915025 = tf(freq=28.0), with freq of:
              28.0 = termFreq=28.0
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.015625 = fieldNorm(doc=3684)
    0.0020090793 = product of:
      0.010045396 = sum of:
        0.010045396 = weight(_text_:22 in 3684) [ClassicSimilarity], result of:
          0.010045396 = score(doc=3684,freq=2.0), product of:
            0.12981863 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.03707166 = queryNorm
            0.07738023 = fieldWeight in 3684, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.015625 = fieldNorm(doc=3684)
      0.2 = coord(1/5)
  0.5 = coord(2/4)
```
Abstract

Ohne das Internet ist heute das Wissen der Welt kaum mehr vorstellbar - und ohne Suchmaschinen wäre es nicht auffindbar. Freilich steht nicht alles Wissen im Word Wide Web. Und erst recht nicht ist es dort zu finden, nicht einmal von dieser) technischen Wunderwerken, den Suchmaschinen, die uns dabei helfen. In den sechziger Jahren entstand Hypertext als eine einheitliche Darstellung und Verknüpfung von elektronischen Dokumenten. Im Jahr 1980 empfahl Tim Berners-Lee dem Genfer Kernforschungszentrum Cern einheitliche Verweise zwischen Dokumenten, sogenannte Links. Zu Weihnachten 1990 schrieb er dort den ersten Browser und erfindet damit das World Wide Web. Am 15. Dezember 1995 ging Altavista in Palo Alto ans Netz. Als wir hier einige Monate später über diese Suchmaschine berichteten, schätzten wir damals 30 Millionen Seiten im Interne. Inzwischen mag es da 300 Milliarden Dateien geben, wie viele, weiß keiner, nicht einmal die größte Suchmaschine. Die Technik der Suchmaschinen ist gleich geblieben. Sie suchen die Inhalte vorher, vor der Abfrage, mit Software, den "Krabblern", einer Erfindung des Franzosen Louis Monier. Die machen eine Liste aller vorkommenden Wörter und krabbeln dann, Link um Link, zu weiteren Seiten, von Datei zu Datei, von Domane zu Domäne, von Kontinent zu Kontinent. Wie genau die invertierten Dateien aussehen, die sie erzeugen, wie groß sie sind, wie dort Worthäufigkeit oder Stellung des Treffers auf der durchforschten Seite gespeichert ist - wichtig beim Sortieren der Ergebnisse -, wie daraus später geschlossene Wortgruppen herausgeholt werden, bleibt ein Betriebsgeheimnis. Einen kleinen Einblick gab uns Guido Adam, Technikchef der deutschen Suchmaschine Infoseek. In dieser Auskunftei mit 35 festen und noch einmal so vielen freien Mitarbeitern sind neun für den Katalog tätig. Die Rechner stehen in Darmstadt. In 19-Zoll-Gestellen laufen hinter Plexiglas sechs Krabbler-PCs mit 3 bis 8 Gigabyte (GB) Ram-Speicher und je hundert Krabbelprogrammen. Sie sind mit 640 Megabit je Sekunde ans Internet angeschlossen. Ihr Ziel: Wenigstens einmal mönatlich 30 Millionen deutsche Dateien besuchen. Erkennen sie häufig wechselnde Inhalte, kommen sie öfter vorbei; für ganz Aktuelles wie Zeitungsberichte gibt es Sondersucher, die notfalls stündlich nachlesen. Zwei weitere Maschinen bauen immerfort neue Indizes und legen die Ergebnisse in einem Speicher-Server mit brutto 5 Terabyte (5 mal 10**12 Byte) ab. Der Index - jeweils rund 350 GB - wird fünffach gehalten, damit Anfragen blitzschnell - in etwa einer Sekunde - von drei weiteren Maschinen beantwortet werden können. Index-"Instanz" Nummer vier ist Reserve und die fünfte im Aufbau.
Der weitere Speicher wird für die URL-Adreßdatenbank gebraucht, welche die Krabbler steuert, und als Zwischenspeicher für frisch aufgesuchte Dokumente, die dort ihrer Indizierung harren. An Anfragen kommen bei Infoseek, die T-Online und andere bedienen, täglich zwei Millionen herein; Hauptsuchzeit ist abends 20 bis 23 Uhr. Ja, Spitzenreiter der Suchbegriffe ist immer noch Sex. Gehen wir auf die Suche nach Seltenem. Im internationalen Wettstreit um die weitreichendste Netzausforschung hat zur Zeit die Suchmaschine Google (www.Google.com, "search 1.346.966.000 web pages") mit über 700 Millionen indizierten, teils sogar gespeicherten Seiten die Nase vorn, zumal sie dank ihrer Linktechnik weitere fast 700 Millionen Seiten kennt. Täglich bekommt Google 70 Millionen Anfragen. An zweiter Stelle mit knapp 600 Millionen Seiten folgt Fast, als "Alltheweb" bekannt (www.alltheweb.com), danach etwa gleichrangig mit über 500 Millionen Seiten der Oldtimer Altavista (www.altavista.com), Inktomi und Webtop (www.webtop.com). Inktomi liefert seine Ergebnisse an andere, erst an Hotbot, dann an Microsoft (www.msn.com), bis zum Juli 2000 auch an Yahoo (www.yahoo.com). Yahoo, geboren 1994, ist die älteste und immer noch eine sehr beliebte Suchmaschine, nicht, weil sie Exotika wie "Gluonenkraft" liefern könnte-, sondern weil sich dort rund 150 Katalogisierer Menschen! - um Stichwörter kümmern. Nur wenn die nichts fanden, werden fremde Ergebnisse zugespielt, inzwischen von Google. Ähnlich ist das bei Look Smart (www.looksmart.com), die von Inktomi unterversorgt wird. In hartnäckigen Fällen nutze man Übersuchmaschinen, sogenannte Meta-Crawler wie www.ixquick.com oder hier www.metager.de, die den eingegebenen Begriff automatisch in mehreren Suchmaschinen aufzuspüren versuchen (nicht in Google). Bei den meisten Suchen geht es jedoch nicht um seltene Begriffe. Von den 75 Millionen Ausdrücken, die Altavista einst zählte, werden üblicherweise triviale gesucht. Die Datenbankgröße der Suchmaschine ist dann belanglos. Zudem stehen viele Inhalte mehrfach im Netz, und der Suchende will nicht fünfmal dasselbe vorgespielt bekommen. Bei den meist viel zu vielen Treffern ist die wirkliche Frage deren Anzeigereihenfolge. Da wird versucht, nach Häufigkeit des Wortes im Text zu sortieren oder danach, ob es im Titel und näher am Textanfang vorkommt. Die Suchmaschinen erklären selbst ein wenig davon, zugleich als Aufforderung an WebDesigner, einfache Seiten zu machen, sich kurz und möglichst rahmenlos zu fassen. Speziell für die Suchmaschinen haben die meisten Webseiten im Kopfeintrag Stichwörter, im Quelltext der Seite von jedermann zu sehen. Webseiten können sich "Roboter" sogar verbitten. In den Suchmaschinen-Redaktionen wird für viele Begriffe die Ausgabe manuell festgelegt - wobei zuweilen bereits ein gutes "Placement" bezahlt wird, was sicher bedenklich ist. Für den Neuankömmling Google haben sich 1998 Sergey Brin und Larry Page etwas Besonderes ausgedacht: Die Seiten werden nach Beliebtheit bewertet, und die hängt davon ab, wie viele (beliebte) Seiten zur jeweiligen Seite einen Link hin haben. Das ist gut für klassische Inhalte. Neuigkeiten, auf die noch niemand deutet, werden so nicht gefunden. Für allgemeine Fragen kommt die Lösung nicht von großen Automaten, sondern von spezialisierten Auskunfteien, die rubriziert nach Sachgebieten vorgehen.
Da gibt es Spezialisten für alles, etwa Webbrain (www.webbrain.com), wo zur Sache gegangen werden kann bis hinunter zu Dürrenmatt, es gibt Sammlungen für Universitäten und Ausbildung (www.searchedu.com) und deutsche für Technik (www.fiz-technik.de), für Juristisches, Medizinisches und, von den Mormonen gesponsert, für Ahnenforschung (www.familysearch.com); Suche nach vermißten Kindern (www.fredi.org) ist genauso möglich wie nach Gratisgeschenken (www.kostenlos.de) oder in Bücherkatalogen samt Verkauf (www.amazon.de). Nur die deutsche Telefonbuchsuche wird immer schlechter. Es gibt Maschinen, die freies Fragen zulassen - und dann erstaunliche Ergebnisse bringen, etwa Northern Light (www.northernlight.com) auf die deutsch gestellte Frage: "Wie alt wurde Cäsar?" Wird dasselbe dagegen von Julius Cäsar" erfragt, ist man zwei Klicks später beim Ergebnis. Hier muß maschinelle Intelligenz noch üben. Erfahrungsgemäß denkt man sich besser selbst eine Reihe von Begriffen aus, die das zu findende Dokument enthalten könnte, und variiert, bis die Treffer näherkommen, so auch bei Xipolis (www.xipolis.net), das sich Wissensbibliothek nennt, Cäsars Geburtsjahr aber aus dem 24bändigen Brockhaus nur gegen Gebühr herausrücken will. Wissen.de gibt's frank und frei, und die berühmte Encyclopedia Britannica (www.Britannica.com) ist inzwischen auch schon offen! Kepnt man ein paar Worte des genauen Wortlauts, sagen wir, "zu Mantua in Banden", so setze man sie in Anführungszeichen und lasse nur nach dieser Folge suchen. Google hält durchsuchte Seiten (bis zu rund 100 Kilobyte) - sozusagen das ganze Netz, unvorstellbar! - in Kopie vor und kann selbst dann aus seinem Archiv dienen, wenn das Original schlecht oder nicht mehr erreichbar ist. Sie schnell anzUklicken hat den Zusatzvorteil, daß die Suchbegriffe farbig hervorgehoben werden. Und man sieht, wie die Seite vielleicht vor zwei Monaten beim letzten Google-Besuch ausgesehen hat. Insgesamt hat Google stets über hundert Indizes mit jeweils mehreren Terabyte Daten am Netz; Googles Legebatterie von über 8000 billigen Linux-PC-Servern grast in mehr a s einem Petabyte eigenem Speicher (1011 Byte). Dennoch: Die größte Sorge aller Netzfreunde ist das "unsichtbare Netz", das schätzungsweise fünfhundertmal umfangreicher ist als das mit Suchmaschinen Durchforschbare.
Es gibt riesige Inseln nach außen nicht verlinkter Dateien, es gibt Formate, die dem HTML-Standard nicht entsprechen und von Suchmaschinen nicht oder ungern gelesen werden, von Word-Dokumenten bis zu PDF-Dateien (Google durchkämmt sie und speichert sie zum schnellen Uberblick und vorteilhaft kopierbar als Textdateien!), Tabellen und Folienvorträge, Gedcom-Stammbäume, vor allem aber Bilder, Filme, Musik, die sich nur schwer elektronisch katalogisieren lassen. Haben Suchmaschinen Zeit, mit künstlicher Intelligenz herauszufinden, ob auf einem Bild eine Person ist? Und wenn, wer mag es sein? Infoseek bemüht sich in einer eigenen Bildersuche darum, kann allerdings auch kein Konterfei von Luis Trenker oder Toni Sailer herbeizaubern, wogegen "Luis Trenker Bild", besonders bei Google, zum Foto führt. "Britney Spears" strahlt einem gleich entgegen! Wenn Bilder beliebig benannt werden, bleiben sie unauffindbar. MP3-Dateien enthalten oft maschinenlesbar den Titel in der Musikdatei - eine große Hilfe für Suchmaschinen. Neue Webformate wie Macromedia Flash, dem Internet-Veteranen ohnehin ein Graus, vernebeln das in ihrem Troß Folgende. Und bietet eine Internetseite eine eigene Datenbanksuche an, dann bleibt diese Datenbank vor Suchmaschinen verborgen, von Telefonnummern und Zügen bis zu Artikeln dieser Zeitung. Zuvorkommender ist es, die Inhalte in Hypertext ins Netz zu stellen - für die Suchmaschinen und zusätzlich manuell darin suchen zu lassen. Suchmaschinen wie Freefind oder Atomz bieten das kostenlos an. Grundsätzlich können Suchmaschinen kostenpflichtige Inhalte nicht durchkämmen. So wie sich die olympische Idee inzwischen den Profis gebeugt hat, besteht auch im Internet die Gefahr, daß es immer kommerzieller zugeht. Ein Musterbeispiel sind WapInhalte für mobile Betrachter, die im Gegensatz zu HTML-Seiten nicht systematisch von einem Domänennamen her über Links erreichbar sind. Wap-Suchmaschinen weisen also nur angemeldete Seiten nach und spielen eine untergeordnete Rolle. Viel lieber schleusen die Mobilfunkanbieter ihre Kunden über Portale. Zollund Zahlgrenzen, Partikularismus zerstören das Netz. Beim japanischen Imode, mit HTML kompatibel, ist das anders; selbst Google bietet über www.google.com/imode Suche an, hat dann aber Mühe, Imode-Inhalte (in cHTML, compact HTML) von HTML zu unterscheiden. Grundsätzlich ist die Rivalität zwischen Internet-Portalen mit ihrer Zugangsführung und Suchmaschinen für Quereinsteiger noch nicht ausgefochten. Noch aus der Vor-Web-Zeit stammen Diskussionsforen. Dort werden zu bestimmten Themen Meinungen ausgetauscht, - moderiert oder wildwachsend.
Die Beiträge, eine Art E-Mails mit gestrengen Usancen, finden sich dann auf vielen kooperierenden Servern, auf uralten nichtkommerziellen Fido- oder Zerberus-Boxen und bei großen Internet-Anbietern à la T-Online, die die Eintrage wie kommunizierende Röhren untereinander austauschen. Die mit Newsreader-Zusatzsoftware zu lesenden, zuweilen ruppigen Beiträge dieser Zehntausenden von Newsgroups im "Usenet" sind ein wahres Dorado für Tips und Meinungen, für praktische Hilfe und unermüdliche Kollegialität - oft zum Ärger der Produkthersteller, gelegentlich zur Entlastung von deren Kundendiensten. Frage-und-Antwort-Fäden (Threads) verästeln sich zu einem Baum der Meinungen und des Wissens. Einen Überblick gibt etwa Tile.net oder groups.google.com, versuchsweise mag man als Sprachfreund bei http://faql.de einsteigen. Über www.deja.com konnte man überall browsergeführt mitdiskutieren und seinen Senf dazugeben. Ende 2000 ging es damit bergab, am 12. Februar stellte Deja seinen Dienst ein. Domänenname und Datenbank (mehr als ein Terabyte mit über 500 Millionen Beiträgen seit 1995) wurden von Altavista an Google verkauft und sind unter der alten Adresse lebendig. Nur neue Beiträge kann man dort nicht mehr loswerden und muß sich dazu schon direkt zum jeweiligen Forum bemühen. Manche Suchmaschinen bieten maschinelle Übersetzungen. Die Ergebnisse helfen Amerikanern, uns zu verstehen, mit Phantasie und gutem Willen, Auf seiner sehenswerten englischen Suchseite bietet dies Google an, so wie seit längerem Altavista - vom selben Übersetzer. Gefundenen Text bekommt man ins Englische übersetzt; klickt man weiter, so auch die weiteren Seiten. Man sollte sich nicht darüber lustig machen, selbst wenn eines Dichters Werk als "its factory" erscheint und die Stadt Essen als "meal". Die Wunscheinstellungen (speicherbar, wenn man Cookies zuläßt) bei Google lassen übrigens zu, daß die gefundenen Seiten, ob original, ob übersetzt, in einem neuen Browserfenster aufscheinen.'Alle anderen machen das auch wenn man die Shift-Taste beim Klicken drückt. Hoffen wir, daß uns diese offene Wunderwelt des Internet mit ihren Suchmaschinen noch lange erhalten bleibt und daß kommende Multimedia-Inhalte nicht in einem Wust von Formaten untergehen. Das Netz muß Schranken überwinden können, für Maschinen, letztlich aber von Mensch zu Mensch

Date

22. 6.2005 9:52:00
Kleinz, T.: Google erobert "My Space" (2006) 0.05
```
0.053647444 = product of:
  0.10729489 = sum of:
    0.10324025 = sum of:
      0.017449262 = weight(_text_:web in 3738) [ClassicSimilarity], result of:
        0.017449262 = score(doc=3738,freq=2.0), product of:
          0.12098375 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03707166 = queryNorm
          0.14422815 = fieldWeight in 3738, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03125 = fieldNorm(doc=3738)
      0.08579099 = weight(_text_:seiten in 3738) [ClassicSimilarity], result of:
        0.08579099 = score(doc=3738,freq=6.0), product of:
          0.20383513 = queryWeight, product of:
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03707166 = queryNorm
          0.42088422 = fieldWeight in 3738, product of:
            2.4494898 = tf(freq=6.0), with freq of:
              6.0 = termFreq=6.0
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03125 = fieldNorm(doc=3738)
    0.004054633 = product of:
      0.020273164 = sum of:
        0.020273164 = weight(_text_:29 in 3738) [ClassicSimilarity], result of:
          0.020273164 = score(doc=3738,freq=2.0), product of:
            0.13040651 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.03707166 = queryNorm
            0.15546128 = fieldWeight in 3738, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.03125 = fieldNorm(doc=3738)
      0.2 = coord(1/5)
  0.5 = coord(2/4)
```
Abstract

Der Suchmaschinen-Gigant macht gemeinsame Sache mit dem erfolgreichsten sozialen Netzwerk im Web: Google stellt Werbung in "My Space" ein - und zahlt dafür 900 Millionen Dollar.

Content

"Die Wellen schlugen hoch, als der Mediengigant Rupert Murdoch mit seiner Firma Fox Interactive für rund 580 Millionen Dollar die Internetseite "My Space" kaufte. Nun zeigt sich: Die Investition hat sich gelohnt. Ein neues Abkommen mit dem Suchmaschinenbetreiber Google sichert der Webseite 900 Millionen Dollar Gesamteinnahmen in den nächsten vier Jahren. Google wird bis zum fahr 2010 "My Space" und andere Seiten der Fox Interactive mit Anzeigen und Internetsuche versorgen - und sticht so Konkurrenten wie Yahoo oder Microsoft aus. "My Space" ist das derzeit erfolgreichste soziale Netzwerk im Internet. Die Teilnehmer legen eigene Seiten an, suchen Kontakte oder laden Musik herunter. Die Plattform bietet Musikern eine Heimstatt, die ihre Werke oft kostenlos veröffentlichen. Die Zahl der registrierten Nutzer hat sich im vergangenen Halbjahr verdoppelt, aktuell sind etwa 100 Millionen überwiegend junge Leute registriert. "Wie weit wir im vergangenen Jahr gekommen sind, ist wirklich bemerkenswert", sagt Peter Chernin, Präsident von Murdochs News Corporation. Google wird auf der Webseite als Werbelieferant fungieren. Reklame bringt der Suchmaschine das meiste Geld. Mit dem Google-Produkt "Adsense" können Werbetreibende Anzeigen buchen, die erscheinen, wenn Surfer nach bestimmten Begriffen suchen - oder auf anderen Webseiten unterwegs sind, deren Inhalt zum Werbethema passt. Google berechnet die Anzeigenpreise danach, wie viele Werbetreibende mit einem Suchbegriff präsentiert sein wollen. Für einen Klick können mehrere Dollar fällig sein. Allein im zweiten Quartal verbuchte Google Werbeeinnahmen von mehr als 2,4 Milliarden Dollar. Für "My Space" kommt die Geschäftsvereinbarung zur rechten Zeit. In den vergangenen Monaten wurde zunehmend kritisiert, das Unternehmen schütze seine jugendliche Kundschaft zu wenig vor sexueller Belästigung oder anderen schädlichen Inhalten. Nachdem Fälle bekannt wurden, in denen sich Erwachsene jugendlichen über die Internetplattform sexuell genähert hatten, reagierte "My Space" mit einer Fernseh-Kampagne für den verantwortungsvollen Umgang Jugendlicher mit den eigenen Daten. Doch das überzeugte nicht alle US-Politiker. Anfang August hat das Repräsentantenhaus mit großer Mehrheit den "Deleting On - line Predators Act" verabschiedet, der öffentlichen Einrichtungen wie Schulen und Bibliotheken verpflichten soll, Zugriff auf "My Space" und ähnliche Seiten einzuschränken. Bevor das Gesetz in Kraft tritt, muss der US-Senat sein Votum abgeben. Google-Manager Eric E. Schmidt versichert, der Konzern werde "My Space" nicht mit Werbung zupflastern: "Wie sich herausgestellt hat, ist es wirkungsvoller, weniger aber dafür bessere Werbung einzubinden." Auch Google hatte in den vergangenen Monaten Kritik einstecken müssen. So nutzen windige Geschäftemacher das "Adsense", um sich Werbeeinnahmen zu erschwindeln oder die Kosten für Konkurrenten in die Höhe zu treiben. Im Juli hatte sich Google vor einem US-Gericht verpflichtet, 90 Millionen Dollar an Werbetreibende zurückzuzahlen. Das Unternehmen kündigte weitere Schritte gegen den Klickbetrug an."

Date

10. 8.2006 18:12:29
deu: Suchmaschinen gegen den Infostau : Deutsches Forschungsnetz (2001) 0.05
```
0.05238068 = product of:
  0.10476136 = sum of:
    0.099693075 = sum of:
      0.03777876 = weight(_text_:web in 6725) [ClassicSimilarity], result of:
        0.03777876 = score(doc=6725,freq=6.0), product of:
          0.12098375 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03707166 = queryNorm
          0.3122631 = fieldWeight in 6725, product of:
            2.4494898 = tf(freq=6.0), with freq of:
              6.0 = termFreq=6.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.0390625 = fieldNorm(doc=6725)
      0.06191431 = weight(_text_:seiten in 6725) [ClassicSimilarity], result of:
        0.06191431 = score(doc=6725,freq=2.0), product of:
          0.20383513 = queryWeight, product of:
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03707166 = queryNorm
          0.303747 = fieldWeight in 6725, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.0390625 = fieldNorm(doc=6725)
    0.005068291 = product of:
      0.025341455 = sum of:
        0.025341455 = weight(_text_:29 in 6725) [ClassicSimilarity], result of:
          0.025341455 = score(doc=6725,freq=2.0), product of:
            0.13040651 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.03707166 = queryNorm
            0.19432661 = fieldWeight in 6725, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.0390625 = fieldNorm(doc=6725)
      0.2 = coord(1/5)
  0.5 = coord(2/4)
```
Content

"Das Web wuchert. Das Informationsangebot lässt zwar mit Maschinen nach Stichwörtern durchsuchen. Doch die Ergebnisse sind teils ernüchternd oder erschlagend: Die Fundlisten sind lang und trennen nur manchmal die Spreu vom Weizen. Da geben nicht nur Normalnutzer schnell auf. Auch Studierende streichen die Web-Segel. Nur wenige beschaffen sich wissenschaftliche Informationen aus dem Internet, ergab eine Studie der Sozialforschungsstelle an der Universität Dortmund. Zwar grast knapp zwei Drittel des akademischen Nachwuchses das Web mit den üblichen Suchmaschinen ab - durchaus auch nach fachlichen Informationen. Doch es herrscht allgemeine Unzufriedenheit mit den Ergebnissen der Recherchen. Wichtigster Kritikpunkt: ein umfassendes Auflisten aller Treffer ist meist nur hinderlich. Biologen etwa, die nach Veröffentlichungen über Eiweiße suchen, sind weniger an Küchenrezepten mit Eischnee interessiert - die sie aber mitserviert bekommen. Selbst die Recherche nach "Protein ohne Eiweiß", die bei einigen Suchmaschinen möglich ist, führt noch zu einem mittleren Informationsstau. Eine Maschine, die sich in Biologie auskennt und ausschließlich dieses Feld beackert, wäre gut. Im Auftrag des Bildungsministeriums entwickelt der Verein zur Förderung eines Deutschen Forschungsnetzes (DFN) nun solche fachspezifischen Suchmaschinen. Wie üblich, soll die Software unablässig im Netz stöbern - und die Funde nach einem Schlagwortkatalog festgelegten Fachgebieten zuordnen. Anfragen durchstöbern dann nur die entsprechende Sektion. Der Bezug der Dokumente untereinander, die Links auf den Seiten werden zur Bewertung herangezogen. Damit, hoffen die Forscher, sei ein effektives Ranking möglich: Die Dateien, auf die am häufigsten verwiesen wird, landen ganz oben. Die erfolgreiche allgemeine Suchmaschine Google arbeitet nach diesem Prinzip. Das Ministerium zahlt dafür 1,2 Millionen Mark. DFN-Chef Eike Jessen: "Spätestens im Frühjahr 2003 soll die innovative Suchsoftware für die Mitglieder des DFN-Vereins sowie für andere akademische Einrichtungen frei verfügbar sein.""

Source

Frankfurter Rundschau. Nr.240 vom 16.10.2001., S.29

ap: Suchmaschinen in neuem Gewand : Metaspinner kennt 600 Millionen Seiten (1999) 0.05

0.050371792 = product of:
  0.100743584 = sum of:
    0.08668003 = product of:
      0.17336006 = sum of:
        0.17336006 = weight(_text_:seiten in 4224) [ClassicSimilarity], result of:
          0.17336006 = score(doc=4224,freq=2.0), product of:
            0.20383513 = queryWeight, product of:
              5.4984083 = idf(docFreq=491, maxDocs=44218)
              0.03707166 = queryNorm
            0.8504916 = fieldWeight in 4224, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.4984083 = idf(docFreq=491, maxDocs=44218)
              0.109375 = fieldNorm(doc=4224)
      0.5 = coord(1/2)
    0.014063554 = product of:
      0.07031777 = sum of:
        0.07031777 = weight(_text_:22 in 4224) [ClassicSimilarity], result of:
          0.07031777 = score(doc=4224,freq=2.0), product of:
            0.12981863 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.03707166 = queryNorm
            0.5416616 = fieldWeight in 4224, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.109375 = fieldNorm(doc=4224)
      0.2 = coord(1/5)
  0.5 = coord(2/4)

Date: 3. 5.1997 8:44:22

Amon, H.: Optimierung von Webseiten für Suchmaschinen und Kataloge : Empfehlungen zur Optimierung der Web-Seiten der Bibliothek und Dokumentation der Deutschen Gesellschaft für Auswärtige Politik (DGAP) (2004) 0.05

0.050235532 = product of:
  0.20094213 = sum of:
    0.20094213 = sum of:
      0.052347783 = weight(_text_:web in 4626) [ClassicSimilarity], result of:
        0.052347783 = score(doc=4626,freq=2.0), product of:
          0.12098375 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03707166 = queryNorm
          0.43268442 = fieldWeight in 4626, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.09375 = fieldNorm(doc=4626)
      0.14859435 = weight(_text_:seiten in 4626) [ClassicSimilarity], result of:
        0.14859435 = score(doc=4626,freq=2.0), product of:
          0.20383513 = queryWeight, product of:
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03707166 = queryNorm
          0.7289928 = fieldWeight in 4626, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.09375 = fieldNorm(doc=4626)
  0.25 = coord(1/4)

ap: Software bietet Surftipps (2003) 0.05

0.047362518 = product of:
  0.18945007 = sum of:
    0.18945007 = sum of:
      0.04935397 = weight(_text_:web in 1990) [ClassicSimilarity], result of:
        0.04935397 = score(doc=1990,freq=4.0), product of:
          0.12098375 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03707166 = queryNorm
          0.4079388 = fieldWeight in 1990, product of:
            2.0 = tf(freq=4.0), with freq of:
              4.0 = termFreq=4.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.0625 = fieldNorm(doc=1990)
      0.1400961 = weight(_text_:seiten in 1990) [ClassicSimilarity], result of:
        0.1400961 = score(doc=1990,freq=4.0), product of:
          0.20383513 = queryWeight, product of:
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03707166 = queryNorm
          0.68730104 = fieldWeight in 1990, product of:
            2.0 = tf(freq=4.0), with freq of:
              4.0 = termFreq=4.0
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.0625 = fieldNorm(doc=1990)
  0.25 = coord(1/4)

Content: "Informatiker der Universität Leipzig haben eine kostenlose Software entwickelt, die beim Surfen inhaltlich ähnliche Seiten nennt. Nextlinks erlaube es, sich interessenbezogen im Web zu bewegen, ohne die eigenen Interessen ausdrücklich beschreiben zu müssen. Die kostenlose Software nutzt Algorithmen, die die Abteilung Automatische Sprachverarbeitung am Institut für Informatik entwickelt hat. Wie bei einer Suchmaschine werden zunächst viele Millionen Web-Seiten ausgewertet. Statistische Verfahren ermitteln Ähnlichkeiten. Weitere Informationen online unter wortschatz.uni-leipzig.de/nextlinks/. "

Beuth, P.: Wie Google, nur belesen : Suchmaschine, die sich selbst nicht kennt - Cuil vs. Google (2008) 0.05
```
0.046925556 = product of:
  0.09385111 = sum of:
    0.09033522 = sum of:
      0.015268105 = weight(_text_:web in 6083) [ClassicSimilarity], result of:
        0.015268105 = score(doc=6083,freq=2.0), product of:
          0.12098375 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03707166 = queryNorm
          0.12619963 = fieldWeight in 6083, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.02734375 = fieldNorm(doc=6083)
      0.07506712 = weight(_text_:seiten in 6083) [ClassicSimilarity], result of:
        0.07506712 = score(doc=6083,freq=6.0), product of:
          0.20383513 = queryWeight, product of:
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03707166 = queryNorm
          0.3682737 = fieldWeight in 6083, product of:
            2.4494898 = tf(freq=6.0), with freq of:
              6.0 = termFreq=6.0
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.02734375 = fieldNorm(doc=6083)
    0.0035158885 = product of:
      0.017579442 = sum of:
        0.017579442 = weight(_text_:22 in 6083) [ClassicSimilarity], result of:
          0.017579442 = score(doc=6083,freq=2.0), product of:
            0.12981863 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.03707166 = queryNorm
            0.1354154 = fieldWeight in 6083, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.02734375 = fieldNorm(doc=6083)
      0.2 = coord(1/5)
  0.5 = coord(2/4)
```
Content

"Als kleines Internet-Start-Up gleich den Marktführer Google anzugreifen, ist wie barfuß gegen einen Öltanker zu treten: Man kann sich nur wehtun. Umso verwegener ist der Plan, wenn sich das Start-Up unter anderem aus ehemaligen Angestellten von Google zusammensetzt, die es besser wissen müssten. Sie tun es trotzdem. Cuil heißt ihre neue Suchmaschine, was wie "cool" ausgesprochen wird und auf Gälisch so viel wie Wissen bedeutet. Und weil gegen den Branchenprimus nur Klotzen hilft, nennen die Davids gleich mal eine Hausnummer: 120.000.000.000. So viele Seiten will Cuil indiziert haben: 120 Milliarden - und damit nach eigenen Angaben bis zu viermal mehr als Goliath Google. Zudem arbeitet Cuil etwas anders als Google: Die Suchergebnisse werden nicht als lange Linkliste präsentiert, sondern in Spalten geordnet, als Teaser mit Bild. Bewertet wird nicht wie bei Google die Anzahl der Links auf die jeweiligen Treffer, also die Popularität einer Webseite. Vielmehr wird deren gesamter Inhalt von Cuil automatisch durchsucht. Dabei soll die neue Maschine erkennen, ob ein Wort mehrere Bedeutungen hat und als Ergebnis entsprechende Kategorien anbieten. Das beste Argument für einen Gewohnheitswechsel ist jedoch die Datenschutz-Politik der Neulinge: Im Gegensatz zu Google speichert Cuil nicht, über welche IP-Adresse eines Rechners wann und wonach gesucht wurde. "Wir wollen das Web analysieren, nicht die Nutzer", sagen sie. Um bei Google unerfasst zu bleiben, kann der User immerhin einen kleinen Umweg nutzen: die Seite scroogle.org schaltet sich zwischen Nutzer und Google, löscht dessen Cookie und liefert anonymisiert die gewohnten Googletreffer. Der sorgsame Umgang mit Userdaten gehört zu den Alleinstellungsmerkmalen, die die Herausforderer dringend nötig haben. Immerhin beschäftigt Google 20.000 Mitarbeiter und investiert jedes Jahr gewaltige Summen in die Verbesserung seiner Suchtechniken. Zuletzt hat Microsoft deshalb die kleine Firma Powerset und deren halb-semantische Suchmaschine aufgekauft: Powerset versteht simpel formulierte Fragen wie "Wer ist...?" und "Was ist ein...?" und beantwortet sie mit passenden Treffern - durchsucht bislang aber nur Wikipedia und die Datenbank Freebase. Das bringt bei Google keinen um den Schlaf, ist aber ein Vorgeschmack auf künftige Suchmaschinen. Natürlich laboriert auch Cuil noch an Kinderkrankheiten. So sind die Server unter dem ersten Ansturm sofort zusammengebrochen. Zudem zeigt Cuil zu vielen Seiten Bilder, die gar nichts mit dem Treffer zu tun haben. Den bislang entscheidenden Minuspunkt aber gibt es für die schlechten Suchergebnisse: Da tauchen an prominenter Stelle veraltete Seiten und irrelevante Informationen auf, die gesuchten Hauptseiten dafür manchmal gar nicht. Bestes Beispiel ist peinlicherweise Cuil selbst. Der Suchbegriff führt zu Immobilienanzeigen in Irland und Downloads der irischen Band The Chieftains. Umso ärgerlicher für Cuil, dass der alte Tanker Google bereits jede Menge Infos über die neue Konkurrenz ausspuckt."

Date

17. 7.1996 9:33:22
Rehn, A.: Daten-Schnüffler : Software-Entwickler verbessern Suchmaschinen, um Ordnung ins Chaos zu bringen (2004) 0.05
```
0.046925556 = product of:
  0.09385111 = sum of:
    0.09033522 = sum of:
      0.015268105 = weight(_text_:web in 3671) [ClassicSimilarity], result of:
        0.015268105 = score(doc=3671,freq=2.0), product of:
          0.12098375 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03707166 = queryNorm
          0.12619963 = fieldWeight in 3671, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.02734375 = fieldNorm(doc=3671)
      0.07506712 = weight(_text_:seiten in 3671) [ClassicSimilarity], result of:
        0.07506712 = score(doc=3671,freq=6.0), product of:
          0.20383513 = queryWeight, product of:
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03707166 = queryNorm
          0.3682737 = fieldWeight in 3671, product of:
            2.4494898 = tf(freq=6.0), with freq of:
              6.0 = termFreq=6.0
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.02734375 = fieldNorm(doc=3671)
    0.0035158885 = product of:
      0.017579442 = sum of:
        0.017579442 = weight(_text_:22 in 3671) [ClassicSimilarity], result of:
          0.017579442 = score(doc=3671,freq=2.0), product of:
            0.12981863 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.03707166 = queryNorm
            0.1354154 = fieldWeight in 3671, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.02734375 = fieldNorm(doc=3671)
      0.2 = coord(1/5)
  0.5 = coord(2/4)
```
Content

"Ein Surfer-Leben ohne Suchmaschinen ist nicht vorstellbar. Doch so großartig die virtuellen Spürhunde auch sind sie haben eine Schwäche: Oft liefern sie einfach zu viele Informationen. Und die meisten Seiten' die als Ergebnis ausgeworfen werden, sind oft gar nicht von Interesse für den Surfer. Findige Software-Entwickler wollen nun Ordnung ins Chaos bringen und Google und Co. den Rang in der Gunst der Internet-Nutzer ablaufen. Das Prinzip ist einfach: Die Suchergebnisse werden bereits vor dem Anzeigen analysiert und automatisch in Kategorien sortiert. Anders als bei den herkömmlichen Listen, denen meist die innere Ordnung fehlt nimmt die Software dem Suchenden also das Strukturieren der Fundstellen ab. Dieses Prinzip steckt beispielsweise hinter der Meta-Suchmaschine www vivisimo. com. "Wir beleben den sonst nervtötenden Prozess der Informationssuche" sagt Vivisimo-Mitgründer Raul Valdes-Perez. Das Unternehmen aus Pittsburgh verkauft seine Technologie nicht nur an Geschäftskunden; sondern stellt die ClusterMaschine im Internet kostenlos zur Verfügungauch in einer deutschen Version. Wenn man sich das Web als einen riesigen Buchladen vorstellt, in dem alle Bücher willkür - lich auf dem Boden aufgestapelt sind, dann ist Vivisimo nach Darstellung von Valdes-Perez ein rasanter Buchhändler der die verschiedenen Titel in Sekundenschnelle nach sinnvollen Kriterien in Regale einordnet. Doch anders als in Buchläden oder Bibliotheken gibt es bei Vivisimo keine festen Kategorien. Die Software legt sie ad hoc fest indem sie die Sucherergebnisse nach linguistischen und statistischen Gesichtspunkten analysiert.
- Karte mit bunten Kreisen - Während Vivisimo noch eine klassische MetaSuchmaschine ist, ist Grokker (www.groxis. com) ein Programm des kalifornischen Softwareunternehmens Groxis, schon optisch eine Innovation. Es sortiert die Suchergebnisse nicht nur, sondern visualisiert-die Kategorien als Karte mit bunten Kreisen. Innerhalb eines solchen Kreises gibt es Unterkategorien, also kleinere Kreise, die angeklickt werden können. Allerdings dauert es ein wenig, bis man sich damit zurechtfindet. Ein einfaches Beispiel verdeutlicht den Unterschied zu herkömmlichen Suchmaschinen. Bei den Schlagworten "Paris Hilton" erhält man etwa bei Google einerseits Treffer aus der Kategorie Reisen und Unterkünfte andererseits aber auch jede Menge Seiten, auf denen die Hotelerbin Paris Hilton erwähnt ist. Denn Google sortiert die Fundstellen danach wie viele Links zur jeweiligen Seite führen. Dem Nutzer bleibt die Arbeit, die lange Liste zu durchforsten: Nicht so bei Grokker oder Vivisimo: Hier werden die Ergebnisse nach Themengebieten gruppiert. Grokker selbst ist aber keine Suchmaschine, sondern kombiniert die Resultate von Yahoo, MSN, AltaVista, Wisenut, Teoma und FAST. Das Programm kann auch Dateien auf der Festplatte kategorisieren. Wir sind jetzt in der Lage, alles zu 'grokken'" sagt Groxis-Chef R. J. Pittman. Auch mit Google stehe man in Verhandlungen. Anders als bei Vivisimo gibt es von Grokker keine deutsche Version. Und außerdem ist das Programm nicht gratis: Die Vollversion kostet 49,95 Dollar, eine kostenlose Testversion für 30 Tage kann nach Anmeldung heruntergeladen werden. Eine andere Form der Visualisierung von Suchergebnissen hat www.touchgraph.com entwickelt. Die Firma bietet mit dem TouchGraph Google Browser ein Applet an, das die Fundstellen als Netzstruktur, als Beziehungsgeflecht veranschaulicht. Basis dafür ist die GoogleFunktion "Ähnliche Seiten". Die dokumentierten Verknüpfungen zwischen den verschiedenen Internetseiten werden grafisch dargestellt."

Date

3. 5.1997 8:44:22
Mostafa, J.: Bessere Suchmaschinen für das Web (2006) 0.05
```
0.045523003 = product of:
  0.091046005 = sum of:
    0.08297321 = sum of:
      0.017449262 = weight(_text_:web in 4871) [ClassicSimilarity], result of:
        0.017449262 = score(doc=4871,freq=8.0), product of:
          0.12098375 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03707166 = queryNorm
          0.14422815 = fieldWeight in 4871, product of:
            2.828427 = tf(freq=8.0), with freq of:
              8.0 = termFreq=8.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.015625 = fieldNorm(doc=4871)
      0.06552395 = weight(_text_:seiten in 4871) [ClassicSimilarity], result of:
        0.06552395 = score(doc=4871,freq=14.0), product of:
          0.20383513 = queryWeight, product of:
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03707166 = queryNorm
          0.32145563 = fieldWeight in 4871, product of:
            3.7416575 = tf(freq=14.0), with freq of:
              14.0 = termFreq=14.0
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.015625 = fieldNorm(doc=4871)
    0.008072792 = product of:
      0.020181978 = sum of:
        0.010136582 = weight(_text_:29 in 4871) [ClassicSimilarity], result of:
          0.010136582 = score(doc=4871,freq=2.0), product of:
            0.13040651 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.03707166 = queryNorm
            0.07773064 = fieldWeight in 4871, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.015625 = fieldNorm(doc=4871)
        0.010045396 = weight(_text_:22 in 4871) [ClassicSimilarity], result of:
          0.010045396 = score(doc=4871,freq=2.0), product of:
            0.12981863 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.03707166 = queryNorm
            0.07738023 = fieldWeight in 4871, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.015625 = fieldNorm(doc=4871)
      0.4 = coord(2/5)
  0.5 = coord(2/4)
```
Content

An der Wurzel des Indexbaums Im ersten Schritt werden potenziell interessante Inhalte identifiziert und fortlaufend gesammelt. Spezielle Programme vom Typ so genannter Webtrawler können im Internet publizierte Seiten ausfindig machen, durchsuchen (inklusive darauf befindlicher Links) und die Seiten an einem Ort gesammelt speichern. Im zweiten Schritt erfasst das System die relevanten Wörter auf diesen Seiten und bestimmt mit statistischen Methoden deren Wichtigkeit. Drittens wird aus den relevanten Begriffen eine hocheffiziente baumartige Datenstruktur erzeugt, die diese Begriffe bestimmten Webseiten zuordnet. Gibt ein Nutzer eine Anfrage ein, wird nur der gesamte Baum - auch Index genannt - durchsucht und nicht jede einzelne Webseite. Die Suche beginnt an der Wurzel des Indexbaums, und bei jedem Suchschritt wird eine Verzweigung des Baums (die jeweils viele Begriffe und zugehörige Webseiten beinhaltet) entweder weiter verfolgt oder als irrelevant verworfen. Dies verkürzt die Suchzeiten dramatisch. Um die relevanten Fundstellen (oder Links) an den Anfang der Ergebnisliste zu stellen, greift der Suchalgorithmus auf verschiedene Sortierstrategien zurück. Eine verbreitete Methode - die Begriffshäufigkeit - untersucht das Vorkommen der Wörter und errechnet daraus numerische Gewichte, welche die Bedeutung der Wörter in den einzelnen Dokumenten repräsentieren. Häufige Wörter (wie »oder«, »zu«, »mit«), die in vielen Dokumenten auftauchen, erhalten deutlich niedrigere Gewichte als Wörter, die eine höhere semantische Relevanz aufweisen und nur in vergleichsweise wenigen Dokumenten zu finden sind. Webseiten können aber auch nach anderen Strategien indiziert werden. Die Linkanalyse beispielsweise untersucht Webseiten nach dem Kriterium, mit welchen anderen Seiten sie verknüpft sind. Dabei wird analysiert, wie viele Links auf eine Seite verweisen und von dieser Seite selbst ausgehen. Google etwa verwendet zur Optimierung der Suchresultate diese Linkanalyse. Sechs Jahre benötigte Google, um sich als führende Suchmaschine zu etablieren. Zum Erfolg trugen vor allem zwei Vorzüge gegenüber der Konkurrenz bei: Zum einen kann Google extrem große Weberawling-Operationen durchführen. Zum anderen liefern seine Indizierungsund Gewichtungsmethoden überragende Ergebnisse. In letzter Zeit jedoch haben andere Suchmaschinen-Entwickler einige neue, ähnlich leistungsfähige oder gar punktuell bessere Systeme entwickelt.
Viele digitale Inhalte können mit Suchmaschinen nicht erschlossen werden, weil die Systeme, die diese verwalten, Webseiten auf andere Weise speichern, als die Nutzer sie betrachten. Erst durch die Anfrage des Nutzers entsteht die jeweils aktuelle Webseite. Die typischen Webtrawler sind von solchen Seiten überfordert und können deren Inhalte nicht erschließen. Dadurch bleibt ein Großteil der Information - schätzungsweise 500-mal so viel wie das, was das konventionelle Web umfasst - für Anwender verborgen. Doch nun laufen Bemühungen, auch dieses »versteckte Web« ähnlich leicht durchsuchbar zu machen wie seinen bisher zugänglichen Teil. Zu diesem Zweck haben Programmierer eine neuartige Software entwickelt, so genannte Wrapper. Sie macht sich zu Nutze, dass online verfügbare Information standardisierte grammatikalische Strukturen enthält. Wrapper erledigen ihre Arbeit auf vielerlei Weise. Einige nutzen die gewöhnliche Syntax von Suchanfragen und die Standardformate der Online-Quellen, um auf versteckte Inhalte zuzugreifen. Andere verwenden so genannte ApplikationsprogrammSchnittstellen (APIs), die Software in die Lage versetzen, standardisierte Operationen und Befehle auszuführen. Ein Beispiel für ein Programm, das auf versteckte Netzinhalte zugreifen kann, ist der von BrightPlanet entwickelte »Deep Query Manager«. Dieser wrapperbasierte Anfragemanager stellt Portale und Suchmasken für mehr als 70 000 versteckte Webquellen bereit. Wenn ein System zur Erzeugung der Rangfolge Links oder Wörter nutzt, ohne dabei zu berücksichtigen, welche Seitentypen miteinander verglichen werden, besteht die Gefahr des Spoofing: Spaßvögel oder Übeltäter richten Webseiten mit geschickt gewählten Wörtern gezielt ein, um das Rangberechnungssystem in die Irre zu führen. Noch heute liefert die Anfrage nach »miserable failure« (»klägliches Versagen«) an erster Stelle eine offizielle Webseite des Weißen Hauses mit der Biografie von Präsident Bush.
Vorsortiert und radförmig präsentiert Statt einfach nur die gewichtete Ergebnisliste zu präsentieren (die relativ leicht durch Spoofing manipuliert werden kann), versuchen einige Suchmaschinen, unter denjenigen Webseiten, die am ehesten der Anfrage entsprechen, Ähnlichkeiten und Unterschiede zu finden und die Ergebnisse in Gruppen unterteilt darzustellen. Diese Muster können Wörter sein, Synonyme oder sogar übergeordnete Themenbereiche, die nach speziellen Regeln ermittelt werden. Solche Systeme ordnen jeder gefundenen Linkgruppe einen charakteristischen Begriff zu. Der Anwender kann die Suche dann weiter verfeinern, indem er eine Untergruppe von Ergebnissen auswählt. So liefern etwa die Suchmaschinen »Northern Light« (der Pionier auf diesem Gebiet) und »Clusty« nach Gruppen (Clustern) geordnete Ergebnisse. »Mooter«, eine innovative Suchmaschine, die ebenfalls diese Gruppiertechnik verwendet, stellt die Gruppen zudem grafisch dar (siehe Grafik links unten). Das System ordnet die UntergruppenButtons radförmig um einen zentralen Button an, der sämtliche Ergebnisse enthält. Ein Klick auf die UntergruppenButtons erzeugt Listen relevanter Links und zeigt neue, damit zusammenhängende Gruppen. Mooter erinnert sich daran, welche Untergruppen gewählt wurden. Noch genauere Ergebnisse erhält der Nutzer, wenn er die Verfeinerungsoption wählt: Sie kombiniert bei früheren Suchen ausgewählte Gruppen mit der aktuellen Anfrage. Ein ähnliches System, das ebenfalls visuelle Effekte nutzt, ist »Kartoo«. Es handelt sich dabei um eine so genannte Meta-Suchmaschine: Sie gibt die Nutzeranfragen an andere Suchmaschinen weiter und präsentiert die gesammelten Ergebnisse in grafischer Form. Kartoo liefert eine Liste von Schlüsselbegriffen von den unterschiedlichen Webseiten und generiert daraus eine »Landkarte«. Auf ihr werden wichtige Seiten als kons (Symbole) dargestellt und Bezüge zwischen den Seiten mit Labeln und Pfaden versehen. Jedes Label lässt sich zur weiteren Verfeinerung der Suche nutzen. Einige neue Computertools erweitern die Suche dadurch, dass sie nicht nur das Web durchforsten, sondern auch die Festplatte des eigenen Rechners. Zurzeit braucht man dafür noch eigenständige Programme. Aber Google hat beispielsweise kürzlich seine »Desktop Search« angekündigt, die zwei Funktionen kombiniert: Der Anwender kann angeben, ob das Internet, die Festplatte oder beides zusammen durchsucht werden soll. Die nächste Version von Microsoft Windows (Codename »Longhorn«) soll mit ähnlichen Fähigkeiten ausgestattet werden: Longhorn soll die implizite Suche beherrschen, bei der Anwender ohne Eingabe spezifischer Anfragen relevante Informationen auffinden können. (Dabei werden Techniken angewandt, die in einem anderen Microsoft-Projekt namens »Stuff I've seen« - »Sachen, die ich gesehen habe« - entwickelt wurden.) Bei der impliziten Suche werden Schlüsselwörter aus der Textinformation gewonnen, die der Anwender in jüngster Zeit auf dem Rechner verarbeitet oder verändert hat - etwa E-Mails oder Word-Dokumente -, um damit auf der Festplatte gespeicherte Informationen wiederzufinden. Möglicherweise wird Microsoft diese Suchfunktion auch auf Webseiten ausdehnen. Außerdem sollen Anwender auf dem Bildschirm gezeigte Textinhalte leichter in Suchanfragen umsetzen können." ...

Date

31.12.1996 19:29:41
22. 1.2006 18:34:49
Semantische Suche über 500 Millionen Web-Dokumente (2009) 0.05
```
0.045258567 = product of:
  0.18103427 = sum of:
    0.18103427 = sum of:
      0.052347783 = weight(_text_:web in 2434) [ClassicSimilarity], result of:
        0.052347783 = score(doc=2434,freq=8.0), product of:
          0.12098375 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03707166 = queryNorm
          0.43268442 = fieldWeight in 2434, product of:
            2.828427 = tf(freq=8.0), with freq of:
              8.0 = termFreq=8.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.046875 = fieldNorm(doc=2434)
      0.12868649 = weight(_text_:seiten in 2434) [ClassicSimilarity], result of:
        0.12868649 = score(doc=2434,freq=6.0), product of:
          0.20383513 = queryWeight, product of:
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03707166 = queryNorm
          0.6313263 = fieldWeight in 2434, product of:
            2.4494898 = tf(freq=6.0), with freq of:
              6.0 = termFreq=6.0
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.046875 = fieldNorm(doc=2434)
  0.25 = coord(1/4)
```
Content

"Wissenschaftler an der University of Washington haben eine neue Suchmaschinen-Engine geschrieben, die Zusammenhänge und Fakten aus mehr als 500 Millionen einzelner Web-Seiten zusammentragen kann. Das Werkzeug extrahiert dabei Informationen aus Milliarden von Textzeilen, indem die grundlegenden sprachlichen Beziehungen zwischen Wörtern analysiert werden. Experten glauben, dass solche Systeme zur automatischen Informationsgewinnung eines Tages die Grundlage deutlich smarterer Suchmaschinen bilden werden, als sie heute verfügbar sind. Dazu werden die wichtigsten Datenhappen zunächst von einem Algorithmus intern begutachtet und dann intelligent kombiniert, berichtet Technology Review in seiner Online-Ausgabe. Das Projekt US-Forscher stellt eine deutliche Ausweitung einer zuvor an der gleichen Hochschule entwickelten Technik namens TextRunner dar. Sowohl die Anzahl analysierbarer Seiten als auch die Themengebiete wurden dabei stark erweitert. "TextRunner ist deshalb so bedeutsam, weil es skaliert, ohne dass dabei ein Mensch eingreifen müsste", sagt Peter Norvig, Forschungsdirektor bei Google. Der Internet-Konzern spendete dem Projekt die riesige Datenbank aus einzelnen Web-Seiten, die TextRunner analysiert. "Das System kann Millionen von Beziehungen erkennen und erlernen - und zwar nicht nur jede einzeln. Einen Betreuer braucht die Software nicht, die Informationen werden selbstständig ermittelt.""

Source

http://www.heise.de/newsticker/Semantische-Suche-ueber-500-Millionen-Web-Dokumente--/meldung/140630
¬Der Erfolg von Google (2003) 0.04
```
0.044242304 = product of:
  0.08848461 = sum of:
    0.08442997 = sum of:
      0.034898523 = weight(_text_:web in 1407) [ClassicSimilarity], result of:
        0.034898523 = score(doc=1407,freq=8.0), product of:
          0.12098375 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03707166 = queryNorm
          0.2884563 = fieldWeight in 1407, product of:
            2.828427 = tf(freq=8.0), with freq of:
              8.0 = termFreq=8.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03125 = fieldNorm(doc=1407)
      0.04953145 = weight(_text_:seiten in 1407) [ClassicSimilarity], result of:
        0.04953145 = score(doc=1407,freq=2.0), product of:
          0.20383513 = queryWeight, product of:
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03707166 = queryNorm
          0.2429976 = fieldWeight in 1407, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            5.4984083 = idf(docFreq=491, maxDocs=44218)
            0.03125 = fieldNorm(doc=1407)
    0.004054633 = product of:
      0.020273164 = sum of:
        0.020273164 = weight(_text_:29 in 1407) [ClassicSimilarity], result of:
          0.020273164 = score(doc=1407,freq=2.0), product of:
            0.13040651 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.03707166 = queryNorm
            0.15546128 = fieldWeight in 1407, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.03125 = fieldNorm(doc=1407)
      0.2 = coord(1/5)
  0.5 = coord(2/4)
```
Abstract

Google ist die weltweit größte Suchmaschine und bietet die schnellste und einfachste Informationssuche im Web an. Googles Aufgabe ist die Bereitstellung des besten Suchdienstes im Internet, um die weltweiten Informationen allgemein erreichbar und nutzbar zu machen. Google erreicht über 2 Mrd. Web-Seiten und liefert in meist weniger als einer halben Sekunde relevante Suchergebnisse an Benutzer in aller Welt. Im Augenblick beantwortet Google mehr als 100 Millionen Anfragen pro Tag.

Content

"Zwei Stanford-Doktoranden, Larry Page und Sergey Brin, gründeten 1998 Google. Das Unternehmen, das sich in Privatbesitz befindet, gab 1999 bekannt, dass es Eigenkapitalinvestitionen in Höhe von 25 Millionen US$ sicherstellen konnte. Unter den Investoren sind Kleiner Perkins Caufeld & Byers und Sequoia Capital. Google betreibt seinen Dienst auf seiner eigenen, öffentlich zugänglichen Website, www.google.com. Die Firma bietet außerdem unter gemeinsamen Markennamen Informationsdienstleistern Suchlösungen für das Web an. - Die Google-Technologie - Mit einer innovativen Suchtechnik und einer eleganten Benutzeroberfläche setzt sich Google von den Suchmaschinen der ersten Generation ab. Statt nur eine Stichwort- oder Meta-Suchtechnologie zu verwenden, basiert Google auf der zum Patent angemeldeten PageRankTM-Technologie, bei der die wichtigsten Ergebnisse immer zuerst gelistet werden. PageRank unternimmt eine objektive Bewertung der Wichtigkeit von Webseiten, bei der 500 Millionen Variablen und mehr als 2 Milliorden Begriffe verglichen werden. Dabei nutzt PageRank die riesige Link-Struktur des World-Wide-Web als Organisationsmittel. Der Kern der Methode ist dabei, dass Google einen Link von Seite A zu Seite B als ein "Votum" von Seite Afür Seite B interpretiert. Google schätzt die Wichtigkeit einer Seite über dieses Votum ein. Außerdem wird von Google die Seite bewertet, von der das Votum stammt. Googles komplexe, automatische Suchmethoden schließen einen menschlichen Eingriff aus. Im Gegensatzzu anderen Suchmaschinen kannvon Google keine höhere Listung oder eine kommerzielle Veränderung der Ergebnisse gekauft werden. Eine Google-Suche ist ein einfacher, ehrlicher und objektiver Weg, qualitativ hochwertige Websites zu finden."

Date

29. 1.1997 18:49:05

Search (784 results, page 1 of 40)

Authors

Years

Languages

Types

Themes

Subjects

Classifications