Search (5 results, page 1 of 1)

  • × theme_ss:"Suchmaschinen"
  • × type_ss:"x"
  1. Weiß, B.: Verwandte Seiten finden : "Ähnliche Seiten" oder "What's Related" (2005) 0.03
    0.03167457 = product of:
      0.06334914 = sum of:
        0.06334914 = product of:
          0.12669829 = sum of:
            0.12669829 = weight(_text_:dokumente in 868) [ClassicSimilarity], result of:
              0.12669829 = score(doc=868,freq=6.0), product of:
                0.25999573 = queryWeight, product of:
                  5.092943 = idf(docFreq=737, maxDocs=44218)
                  0.05105019 = queryNorm
                0.4873091 = fieldWeight in 868, product of:
                  2.4494898 = tf(freq=6.0), with freq of:
                    6.0 = termFreq=6.0
                  5.092943 = idf(docFreq=737, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=868)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Abstract
    Die Link-Struktur-Analyse (LSA) ist nicht nur beim Crawling, dem Webseitenranking, der Abgrenzung geographischer Bereiche, der Vorhersage von Linkverwendungen, dem Auffinden von "Mirror"-Seiten, dem Kategorisieren von Webseiten und beim Generieren von Webseitenstatistiken eines der wichtigsten Analyseverfahren, sondern auch bei der Suche nach verwandten Seiten. Um qualitativ hochwertige verwandte Seiten zu finden, bildet sie nach herrschender Meinung den Hauptbestandteil bei der Identifizierung von ähnlichen Seiten innerhalb themenspezifischer Graphen vernetzter Dokumente. Dabei wird stets von zwei Annahmen ausgegangen: Links zwischen zwei Dokumenten implizieren einen verwandten Inhalt beider Dokumente und wenn die Dokumente aus unterschiedlichen Quellen (von unterschiedlichen Autoren, Hosts, Domänen, .) stammen, so bedeutet dies das eine Quelle die andere über einen Link empfiehlt. Aufbauend auf dieser Idee entwickelte Kleinberg 1998 den HITS Algorithmus um verwandte Seiten über die Link-Struktur-Analyse zu bestimmen. Dieser Ansatz wurde von Bharat und Henzinger weiterentwickelt und später auch in Algorithmen wie dem Companion und Cocitation Algorithmus zur Suche von verwandten Seiten basierend auf nur einer Anfrage-URL weiter verfolgt. In der vorliegenden Seminararbeit sollen dabei die Algorithmen, die hinter diesen Überlegungen stehen, näher erläutert werden und im Anschluss jeweils neuere Forschungsansätze auf diesem Themengebiet aufgezeigt werden.
  2. Krüger, C.: Evaluation des WWW-Suchdienstes GERHARD unter besonderer Beachtung automatischer Indexierung (1999) 0.02
    0.018287322 = product of:
      0.036574643 = sum of:
        0.036574643 = product of:
          0.073149286 = sum of:
            0.073149286 = weight(_text_:dokumente in 1777) [ClassicSimilarity], result of:
              0.073149286 = score(doc=1777,freq=2.0), product of:
                0.25999573 = queryWeight, product of:
                  5.092943 = idf(docFreq=737, maxDocs=44218)
                  0.05105019 = queryNorm
                0.28134802 = fieldWeight in 1777, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  5.092943 = idf(docFreq=737, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=1777)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Abstract
    Die vorliegende Arbeit beinhaltet eine Beschreibung und Evaluation des WWW - Suchdienstes GERHARD (German Harvest Automated Retrieval and Directory). GERHARD ist ein Such- und Navigationssystem für das deutsche World Wide Web, weiches ausschließlich wissenschaftlich relevante Dokumente sammelt, und diese auf der Basis computerlinguistischer und statistischer Methoden automatisch mit Hilfe eines bibliothekarischen Klassifikationssystems klassifiziert. Mit dem DFG - Projekt GERHARD ist der Versuch unternommen worden, mit einem auf einem automatischen Klassifizierungsverfahren basierenden World Wide Web - Dienst eine Alternative zu herkömmlichen Methoden der Interneterschließung zu entwickeln. GERHARD ist im deutschsprachigen Raum das einzige Verzeichnis von Internetressourcen, dessen Erstellung und Aktualisierung vollständig automatisch (also maschinell) erfolgt. GERHARD beschränkt sich dabei auf den Nachweis von Dokumenten auf wissenschaftlichen WWW - Servern. Die Grundidee dabei war, kostenintensive intellektuelle Erschließung und Klassifizierung von lnternetseiten durch computerlinguistische und statistische Methoden zu ersetzen, um auf diese Weise die nachgewiesenen Internetressourcen automatisch auf das Vokabular eines bibliothekarischen Klassifikationssystems abzubilden. GERHARD steht für German Harvest Automated Retrieval and Directory. Die WWW - Adresse (URL) von GERHARD lautet: http://www.gerhard.de. Im Rahmen der vorliegenden Diplomarbeit soll eine Beschreibung des Dienstes mit besonderem Schwerpunkt auf dem zugrundeliegenden Indexierungs- bzw. Klassifizierungssystem erfolgen und anschließend mit Hilfe eines kleinen Retrievaltests die Effektivität von GERHARD überprüft werden.
  3. Korves, J.: Seiten bewerten : Googles PageRank (2005) 0.01
    0.014629857 = product of:
      0.029259713 = sum of:
        0.029259713 = product of:
          0.058519427 = sum of:
            0.058519427 = weight(_text_:dokumente in 866) [ClassicSimilarity], result of:
              0.058519427 = score(doc=866,freq=2.0), product of:
                0.25999573 = queryWeight, product of:
                  5.092943 = idf(docFreq=737, maxDocs=44218)
                  0.05105019 = queryNorm
                0.22507842 = fieldWeight in 866, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  5.092943 = idf(docFreq=737, maxDocs=44218)
                  0.03125 = fieldNorm(doc=866)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Abstract
    Mit der Entstehung des World Wide Web im Jahre 1989 und dem darauf folgenden rasanten Anstieg der Zahl an Webseiten, kam es sehr schnell zu der Notwendigkeit, eine gewisse Ordnung in die Vielzahl von Inhalten zu bringen. So wurde schon im Jahre 1991 ein erster Vorläufer der heutigen Websuchmaschinen namens Gopher entwickelt. Die Struktur von Gopher, bei der zunächst alle Webseiten katalogisiert wurden, um anschließend komplett durchsucht werden zu können, war damals richtungweisend und wird auch heute noch in den meisten anderen Websuchmaschinen verwendet. Von damals bis heute hat sich sehr viel am Markt der Suchmaschinen verändert. Seit dem Jahre 2004 gibt es nur mehr drei große Websuchmaschinen, bezogen auf die Anzahl erfasster Dokumente. Neben Yahoo! Search und Microsofts MSN Search ist Google die bisher erfolgreichste Suchmaschine der Welt. Dargestellt werden die Suchergebnisse, indem sie der Relevanz nach sortiert werden. Jede Suchmaschine hat ihre eigenen geheimen Kriterien, welche für die Bewertung der Relevanz herangezogen werden. Googles Suchergebnisse werden aus einer Kombination zweier Verfahren angeordnet. Neben der Hypertext-Matching-Analyse ist dies die PageRank-Technologie. Der so genannte PageRank-Algorithmus, benannt nach seinem Erfinder Lawrence Page, ist die wesentliche Komponente, die Google auf seinen Erfolgsweg gebracht hat. Über die genaue Funktionsweise dieses Algorithmus hat Google, insbesondere nach einigen Verbesserungen in den letzten Jahren, nicht alle Details preisgegeben. Fest steht jedoch, dass der PageRank-Algorithmus die Relevanz einer Webseite auf Basis der Hyperlinkstruktur des Webs berechnet, wobei die Relevanz einer Webseite danach gewichtet wird, wie viele Links auf sie zeigen und Verweise von ihrerseits stark verlinkten Seiten stärker ins Gewicht fallen.
  4. Westermeyer, D.: Adaptive Techniken zur Informationsgewinnung : der Webcrawler InfoSpiders (2005) 0.01
    0.008645745 = product of:
      0.01729149 = sum of:
        0.01729149 = product of:
          0.03458298 = sum of:
            0.03458298 = weight(_text_:22 in 4333) [ClassicSimilarity], result of:
              0.03458298 = score(doc=4333,freq=2.0), product of:
                0.17876907 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.05105019 = queryNorm
                0.19345059 = fieldWeight in 4333, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=4333)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Pages
    22 S
  5. Lehrke, C.: Architektur von Suchmaschinen : Googles Architektur, insb. Crawler und Indizierer (2005) 0.01
    0.008645745 = product of:
      0.01729149 = sum of:
        0.01729149 = product of:
          0.03458298 = sum of:
            0.03458298 = weight(_text_:22 in 867) [ClassicSimilarity], result of:
              0.03458298 = score(doc=867,freq=2.0), product of:
                0.17876907 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.05105019 = queryNorm
                0.19345059 = fieldWeight in 867, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=867)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Pages
    22 S