Search (3 results, page 1 of 1)

Lehrke, C.: Architektur von Suchmaschinen : Googles Architektur, insb. Crawler und Indizierer (2005) 0.02
```
0.018357474 = product of:
  0.05507242 = sum of:
    0.046905022 = weight(_text_:neue in 867) [ClassicSimilarity], result of:
      0.046905022 = score(doc=867,freq=4.0), product of:
        0.14736167 = queryWeight, product of:
          4.074223 = idf(docFreq=2043, maxDocs=44218)
          0.03616927 = queryNorm
        0.31829867 = fieldWeight in 867, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          4.074223 = idf(docFreq=2043, maxDocs=44218)
          0.0390625 = fieldNorm(doc=867)
    0.008167395 = product of:
      0.024502184 = sum of:
        0.024502184 = weight(_text_:22 in 867) [ClassicSimilarity], result of:
          0.024502184 = score(doc=867,freq=2.0), product of:
            0.12665862 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.03616927 = queryNorm
            0.19345059 = fieldWeight in 867, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0390625 = fieldNorm(doc=867)
      0.33333334 = coord(1/3)
  0.33333334 = coord(2/6)
```
Abstract

Das Internet mit seinen ständig neuen Usern und seinem extremen Wachstum bringt viele neue Herausforderungen mit sich. Aufgrund dieses Wachstums bedienen sich die meisten Leute der Hilfe von Suchmaschinen um Inhalte innerhalb des Internet zu finden. Suchmaschinen nutzen für die Beantwortung der User-Anfragen Information Retrieval Techniken. Problematisch ist nur, dass traditionelle Information Retrieval (IR) Systeme für eine relativ kleine und zusammenhängende Sammlung von Dokumenten entwickelt wurden. Das Internet hingegen unterliegt einem ständigen Wachstum, schnellen Änderungsraten und es ist über geographisch verteilte Computer verteilt. Aufgrund dieser Tatsachen müssen die alten Techniken erweitert oder sogar neue IRTechniken entwickelt werden. Eine Suchmaschine die diesen Herausforderungen vergleichsweise erfolgreich entgegnet ist Google. Ziel dieser Arbeit ist es aufzuzeigen, wie Suchmaschinen funktionieren. Der Fokus liegt dabei auf der Suchmaschine Google. Kapitel 2 wird sich zuerst mit dem Aufbau von Suchmaschinen im Allgemeinen beschäftigen, wodurch ein grundlegendes Verständnis für die einzelnen Komponenten geschaffen werden soll. Im zweiten Teil des Kapitels wird darauf aufbauend ein Überblick über die Architektur von Google gegeben. Kapitel 3 und 4 dienen dazu, näher auf die beiden Komponenten Crawler und Indexer einzugehen, bei denen es sich um zentrale Elemente im Rahmen von Suchmaschinen handelt.

Pages

22 S
Leyh, M.: ¬Das Google File System (2005) 0.00
```
0.004422248 = product of:
  0.026533486 = sum of:
    0.026533486 = weight(_text_:neue in 863) [ClassicSimilarity], result of:
      0.026533486 = score(doc=863,freq=2.0), product of:
        0.14736167 = queryWeight, product of:
          4.074223 = idf(docFreq=2043, maxDocs=44218)
          0.03616927 = queryNorm
        0.18005691 = fieldWeight in 863, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.074223 = idf(docFreq=2043, maxDocs=44218)
          0.03125 = fieldNorm(doc=863)
  0.16666667 = coord(1/6)
```
Abstract

Die Bedeutung der Suchmaschine Google hat in den letzten Jahren sehr stark zuge-nommen. Durch die immer komplexer werdenden Googleapplikationen sowie die im-mer stärkere Nutzung der Suchmaschine ist die zu verwaltende Datenmenge in den letzten Jahren stark angewachsen. Dies war die Ursache für die Entwicklung neuer Konzepte, um eine konsistente Datenhaltung und -verwaltung sowie eine schnelle Da-tenrettung zu ermöglichen. Im Mittelpunkt dieser Entwicklung steht die Sicherung der Performance des Systems, das Milliarden von Dokumenten verwaltet und mehrere Tausende Treffer pro Suchanfrage nach Relevanz ordnet. Der Umfang und die Komple-xität des Systems stellen dabei sowohl besondere Herausforderungen an die einzuset-zende Hardware, als auch an die Konzepte der Datenverteilung und -sicherung. Eine neue Entwicklung ist dabei der Verzicht auf teure Spezialhardware. Alle Anwendungen laufen auf gewöhnlicher PC-Hardware und sind somit sehr wirtschaftlich im Vergleich zu teurerer Spezialhardware. Durch den Einsatz gewöhnlicher PC-Hardware sind Aus-fälle von Festplatten oder ganzer Server wesentlich wahrscheinlicher, es wird sogar mit dem Ausfall von Systemen gerechnet. Dass Anwendungen dennoch so zuverlässig und schnell funktionieren, liegt an der Struktur des von Google entwickelten Dateisystems. Das Google File Systems (kurz GFS) bietet eine hohe Fehlertoleranz, Fehler werden automatisch entdeckt und Wiederherstellungen automatisiert ausgeführt, so dass die Nachteile der Hardwarekonfiguration abgefangen werden können. Dieser Fehlertoleranz kommt bei multiplen Clustern mit Größen von bis zu 300 TB sowie mehreren hunderten Clientzugriffen sehr große Bedeutung zu. Eine weitere strukturelle Besonderheit des Google File Systems stellt die Verwaltung von Schreibzugriffen dar. Bestehende Dateien werden nicht durch schwer zu kontrollie-rende Schreiboperationen, sondern vielmehr durch leichter zu verwaltende "Append" Operationen erweitert. Es ist somit möglich, dass viele Nutzer gleichzeitig auf größere Dateien schreibend zugreifen, ohne dass eine ständige Synchronisation zwischen diesen Nutzern stattfinden muss. Die dadurch realisierten Vorteile bezüglich Performance, Verlässlichkeit und Verfüg-barkeit sowie die daraus resultierenden Anforderungen an das System sollen im Mittel-punkt dieser Arbeit stehen. Es soll ein Einblick in die Funktionsweisen und Komplexitä-ten des Google File Systems gegeben und weiterhin die strukturelle Umsetzung der Anforderungen aufgezeigt werden.

Westermeyer, D.: Adaptive Techniken zur Informationsgewinnung : der Webcrawler InfoSpiders (2005) 0.00

0.0013612326 = product of:
  0.008167395 = sum of:
    0.008167395 = product of:
      0.024502184 = sum of:
        0.024502184 = weight(_text_:22 in 4333) [ClassicSimilarity], result of:
          0.024502184 = score(doc=4333,freq=2.0), product of:
            0.12665862 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.03616927 = queryNorm
            0.19345059 = fieldWeight in 4333, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0390625 = fieldNorm(doc=4333)
      0.33333334 = coord(1/3)
  0.16666667 = coord(1/6)

Pages: 22 S

Search (3 results, page 1 of 1)

Authors