Search (13 results, page 1 of 1)

Lehrke, C.: Architektur von Suchmaschinen : Googles Architektur, insb. Crawler und Indizierer (2005) 0.04
```
0.042300873 = product of:
  0.084601745 = sum of:
    0.033924647 = weight(_text_:und in 867) [ClassicSimilarity], result of:
      0.033924647 = score(doc=867,freq=14.0), product of:
        0.104724824 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.04725067 = queryNorm
        0.32394084 = fieldWeight in 867, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=867)
    0.03467257 = weight(_text_:des in 867) [ClassicSimilarity], result of:
      0.03467257 = score(doc=867,freq=6.0), product of:
        0.13085164 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.04725067 = queryNorm
        0.2649762 = fieldWeight in 867, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.0390625 = fieldNorm(doc=867)
    0.016004534 = product of:
      0.03200907 = sum of:
        0.03200907 = weight(_text_:22 in 867) [ClassicSimilarity], result of:
          0.03200907 = score(doc=867,freq=2.0), product of:
            0.16546379 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.04725067 = queryNorm
            0.19345059 = fieldWeight in 867, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0390625 = fieldNorm(doc=867)
      0.5 = coord(1/2)
  0.5 = coord(3/6)
```
Abstract

Das Internet mit seinen ständig neuen Usern und seinem extremen Wachstum bringt viele neue Herausforderungen mit sich. Aufgrund dieses Wachstums bedienen sich die meisten Leute der Hilfe von Suchmaschinen um Inhalte innerhalb des Internet zu finden. Suchmaschinen nutzen für die Beantwortung der User-Anfragen Information Retrieval Techniken. Problematisch ist nur, dass traditionelle Information Retrieval (IR) Systeme für eine relativ kleine und zusammenhängende Sammlung von Dokumenten entwickelt wurden. Das Internet hingegen unterliegt einem ständigen Wachstum, schnellen Änderungsraten und es ist über geographisch verteilte Computer verteilt. Aufgrund dieser Tatsachen müssen die alten Techniken erweitert oder sogar neue IRTechniken entwickelt werden. Eine Suchmaschine die diesen Herausforderungen vergleichsweise erfolgreich entgegnet ist Google. Ziel dieser Arbeit ist es aufzuzeigen, wie Suchmaschinen funktionieren. Der Fokus liegt dabei auf der Suchmaschine Google. Kapitel 2 wird sich zuerst mit dem Aufbau von Suchmaschinen im Allgemeinen beschäftigen, wodurch ein grundlegendes Verständnis für die einzelnen Komponenten geschaffen werden soll. Im zweiten Teil des Kapitels wird darauf aufbauend ein Überblick über die Architektur von Google gegeben. Kapitel 3 und 4 dienen dazu, näher auf die beiden Komponenten Crawler und Indexer einzugehen, bei denen es sich um zentrale Elemente im Rahmen von Suchmaschinen handelt.

Content

Ausarbeitung im Rahmen des Seminars Suchmaschinen und Suchalgorithmen, Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft, Westfälische Wilhelms-Universität Münster. - Vgl.: http://www-wi.uni-muenster.de/pi/lehre/ss05/seminarSuchen/Ausarbeitungen/ChristophLehrke.pdf

Pages

22 S
Westermeyer, D.: Adaptive Techniken zur Informationsgewinnung : der Webcrawler InfoSpiders (2005) 0.03
```
0.031749707 = product of:
  0.06349941 = sum of:
    0.012822312 = weight(_text_:und in 4333) [ClassicSimilarity], result of:
      0.012822312 = score(doc=4333,freq=2.0), product of:
        0.104724824 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.04725067 = queryNorm
        0.12243814 = fieldWeight in 4333, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=4333)
    0.03467257 = weight(_text_:des in 4333) [ClassicSimilarity], result of:
      0.03467257 = score(doc=4333,freq=6.0), product of:
        0.13085164 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.04725067 = queryNorm
        0.2649762 = fieldWeight in 4333, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.0390625 = fieldNorm(doc=4333)
    0.016004534 = product of:
      0.03200907 = sum of:
        0.03200907 = weight(_text_:22 in 4333) [ClassicSimilarity], result of:
          0.03200907 = score(doc=4333,freq=2.0), product of:
            0.16546379 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.04725067 = queryNorm
            0.19345059 = fieldWeight in 4333, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0390625 = fieldNorm(doc=4333)
      0.5 = coord(1/2)
  0.5 = coord(3/6)
```
Abstract

Die Suche nach Informationen im Internet führt den Nutzer meistens direkt zu einer Suchmaschine. Teile der gelieferten Ergebnisse enthalten aber manchmal nicht das, was der Nutzer gesucht hat. Hier setzen sog. adaptive Agenten an, welche die Gewohnheiten ihres Nutzers zu erlernen versuchen, um später auf Basis dessen selbstständig Entscheidungen zu treffen, ohne dass der Nutzer dazu befragt werden muss. Zunächst werden im Grundlagenteil adaptive Techniken zur Informationsgewinnung sowie die grundlegenden Eigenschaften von Webcrawlern besprochen. Im Hauptteil wird daraufhin der Webcrawler InfoSpiders erläutert. Dieses Programm arbeitet mit mehreren adaptiven Agenten, die parallel basierend auf einem Satz von Startlinks das Internet nach Informationen durchsuchen. Dabei bedienen sich die Agenten verschiedenster Techniken. Darunter fallen beispielsweise statistische Methoden, die den Inhalt von Webseiten untersuchen sowie neuronale Netze, mit denen der Inhalt bewertet wird. Eine andere Technik implementiert der genetische Algorithmus mit Hilfe dessen die Agenten Nachkommen mit neuen Mutationen erzeugen können. Danach wird eine konkrete Implementierung des InfoSpiders-Algorithmus' anhand von MySpiders verdeutlicht. Im Anschluss daran wird der InfoSpiders-Algorithmus sowie MySpiders einer Evaluation bezüglich des zusätzlichen Nutzens gegenüber herkömmlichen Suchmaschinen unterzogen. Eine Zusammenfassung mit Ausblick zu weiteren Entwicklungen in dem Bereich adaptiver Agenten zur Suche im Internet wird das Thema abschließen.

Content

Ausarbeitung im Rahmen des Seminars Suchmaschinen und Suchalgorithmen, Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft, Westfälische Wilhelms-Universität Münster. - Vgl.: http://www-wi.uni-muenster.de/pi/lehre/ss05/seminarSuchen/Ausarbeitungen/DenisWestermeyer.pdf

Pages

22 S
Krüger, C.: Evaluation des WWW-Suchdienstes GERHARD unter besonderer Beachtung automatischer Indexierung (1999) 0.03
```
0.02507343 = product of:
  0.07522029 = sum of:
    0.040547714 = weight(_text_:und in 1777) [ClassicSimilarity], result of:
      0.040547714 = score(doc=1777,freq=20.0), product of:
        0.104724824 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.04725067 = queryNorm
        0.3871834 = fieldWeight in 1777, product of:
          4.472136 = tf(freq=20.0), with freq of:
            20.0 = termFreq=20.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1777)
    0.03467257 = weight(_text_:des in 1777) [ClassicSimilarity], result of:
      0.03467257 = score(doc=1777,freq=6.0), product of:
        0.13085164 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.04725067 = queryNorm
        0.2649762 = fieldWeight in 1777, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1777)
  0.33333334 = coord(2/6)
```
Abstract

Die vorliegende Arbeit beinhaltet eine Beschreibung und Evaluation des WWW - Suchdienstes GERHARD (German Harvest Automated Retrieval and Directory). GERHARD ist ein Such- und Navigationssystem für das deutsche World Wide Web, weiches ausschließlich wissenschaftlich relevante Dokumente sammelt, und diese auf der Basis computerlinguistischer und statistischer Methoden automatisch mit Hilfe eines bibliothekarischen Klassifikationssystems klassifiziert. Mit dem DFG - Projekt GERHARD ist der Versuch unternommen worden, mit einem auf einem automatischen Klassifizierungsverfahren basierenden World Wide Web - Dienst eine Alternative zu herkömmlichen Methoden der Interneterschließung zu entwickeln. GERHARD ist im deutschsprachigen Raum das einzige Verzeichnis von Internetressourcen, dessen Erstellung und Aktualisierung vollständig automatisch (also maschinell) erfolgt. GERHARD beschränkt sich dabei auf den Nachweis von Dokumenten auf wissenschaftlichen WWW - Servern. Die Grundidee dabei war, kostenintensive intellektuelle Erschließung und Klassifizierung von lnternetseiten durch computerlinguistische und statistische Methoden zu ersetzen, um auf diese Weise die nachgewiesenen Internetressourcen automatisch auf das Vokabular eines bibliothekarischen Klassifikationssystems abzubilden. GERHARD steht für German Harvest Automated Retrieval and Directory. Die WWW - Adresse (URL) von GERHARD lautet: http://www.gerhard.de. Im Rahmen der vorliegenden Diplomarbeit soll eine Beschreibung des Dienstes mit besonderem Schwerpunkt auf dem zugrundeliegenden Indexierungs- bzw. Klassifizierungssystem erfolgen und anschließend mit Hilfe eines kleinen Retrievaltests die Effektivität von GERHARD überprüft werden.

Footnote

Diplomarbeit im Fach Inhaltliche Erschließung, Studiengang Informationsmanagement der FH Stuttgart - Hochschule für Bibliotheks- und Informationswesen

Imprint

Stuttgart : FH - Hochschule für Bibliotheks- und Informationswesen
Leyh, M.: ¬Das Google File System (2005) 0.02
```
0.024416326 = product of:
  0.073248975 = sum of:
    0.03402144 = weight(_text_:und in 863) [ClassicSimilarity], result of:
      0.03402144 = score(doc=863,freq=22.0), product of:
        0.104724824 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.04725067 = queryNorm
        0.3248651 = fieldWeight in 863, product of:
          4.690416 = tf(freq=22.0), with freq of:
            22.0 = termFreq=22.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=863)
    0.039227534 = weight(_text_:des in 863) [ClassicSimilarity], result of:
      0.039227534 = score(doc=863,freq=12.0), product of:
        0.13085164 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.04725067 = queryNorm
        0.29978633 = fieldWeight in 863, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.03125 = fieldNorm(doc=863)
  0.33333334 = coord(2/6)
```
Abstract

Die Bedeutung der Suchmaschine Google hat in den letzten Jahren sehr stark zuge-nommen. Durch die immer komplexer werdenden Googleapplikationen sowie die im-mer stärkere Nutzung der Suchmaschine ist die zu verwaltende Datenmenge in den letzten Jahren stark angewachsen. Dies war die Ursache für die Entwicklung neuer Konzepte, um eine konsistente Datenhaltung und -verwaltung sowie eine schnelle Da-tenrettung zu ermöglichen. Im Mittelpunkt dieser Entwicklung steht die Sicherung der Performance des Systems, das Milliarden von Dokumenten verwaltet und mehrere Tausende Treffer pro Suchanfrage nach Relevanz ordnet. Der Umfang und die Komple-xität des Systems stellen dabei sowohl besondere Herausforderungen an die einzuset-zende Hardware, als auch an die Konzepte der Datenverteilung und -sicherung. Eine neue Entwicklung ist dabei der Verzicht auf teure Spezialhardware. Alle Anwendungen laufen auf gewöhnlicher PC-Hardware und sind somit sehr wirtschaftlich im Vergleich zu teurerer Spezialhardware. Durch den Einsatz gewöhnlicher PC-Hardware sind Aus-fälle von Festplatten oder ganzer Server wesentlich wahrscheinlicher, es wird sogar mit dem Ausfall von Systemen gerechnet. Dass Anwendungen dennoch so zuverlässig und schnell funktionieren, liegt an der Struktur des von Google entwickelten Dateisystems. Das Google File Systems (kurz GFS) bietet eine hohe Fehlertoleranz, Fehler werden automatisch entdeckt und Wiederherstellungen automatisiert ausgeführt, so dass die Nachteile der Hardwarekonfiguration abgefangen werden können. Dieser Fehlertoleranz kommt bei multiplen Clustern mit Größen von bis zu 300 TB sowie mehreren hunderten Clientzugriffen sehr große Bedeutung zu. Eine weitere strukturelle Besonderheit des Google File Systems stellt die Verwaltung von Schreibzugriffen dar. Bestehende Dateien werden nicht durch schwer zu kontrollie-rende Schreiboperationen, sondern vielmehr durch leichter zu verwaltende "Append" Operationen erweitert. Es ist somit möglich, dass viele Nutzer gleichzeitig auf größere Dateien schreibend zugreifen, ohne dass eine ständige Synchronisation zwischen diesen Nutzern stattfinden muss. Die dadurch realisierten Vorteile bezüglich Performance, Verlässlichkeit und Verfüg-barkeit sowie die daraus resultierenden Anforderungen an das System sollen im Mittel-punkt dieser Arbeit stehen. Es soll ein Einblick in die Funktionsweisen und Komplexitä-ten des Google File Systems gegeben und weiterhin die strukturelle Umsetzung der Anforderungen aufgezeigt werden.

Content

Ausarbeitung im Rahmen des Seminars Suchmaschinen und Suchalgorithmen, Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft, Westfälische Wilhelms-Universität Münster. - Vgl.: http://www-wi.uni-muenster.de/pi/lehre/ss05/seminarSuchen/Ausarbeitungen/MichaelLeyh.pdf
Korves, J.: Seiten bewerten : Googles PageRank (2005) 0.02
```
0.020983133 = product of:
  0.0629494 = sum of:
    0.02713972 = weight(_text_:und in 866) [ClassicSimilarity], result of:
      0.02713972 = score(doc=866,freq=14.0), product of:
        0.104724824 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.04725067 = queryNorm
        0.25915268 = fieldWeight in 866, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=866)
    0.035809677 = weight(_text_:des in 866) [ClassicSimilarity], result of:
      0.035809677 = score(doc=866,freq=10.0), product of:
        0.13085164 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.04725067 = queryNorm
        0.27366623 = fieldWeight in 866, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.03125 = fieldNorm(doc=866)
  0.33333334 = coord(2/6)
```
Abstract

Mit der Entstehung des World Wide Web im Jahre 1989 und dem darauf folgenden rasanten Anstieg der Zahl an Webseiten, kam es sehr schnell zu der Notwendigkeit, eine gewisse Ordnung in die Vielzahl von Inhalten zu bringen. So wurde schon im Jahre 1991 ein erster Vorläufer der heutigen Websuchmaschinen namens Gopher entwickelt. Die Struktur von Gopher, bei der zunächst alle Webseiten katalogisiert wurden, um anschließend komplett durchsucht werden zu können, war damals richtungweisend und wird auch heute noch in den meisten anderen Websuchmaschinen verwendet. Von damals bis heute hat sich sehr viel am Markt der Suchmaschinen verändert. Seit dem Jahre 2004 gibt es nur mehr drei große Websuchmaschinen, bezogen auf die Anzahl erfasster Dokumente. Neben Yahoo! Search und Microsofts MSN Search ist Google die bisher erfolgreichste Suchmaschine der Welt. Dargestellt werden die Suchergebnisse, indem sie der Relevanz nach sortiert werden. Jede Suchmaschine hat ihre eigenen geheimen Kriterien, welche für die Bewertung der Relevanz herangezogen werden. Googles Suchergebnisse werden aus einer Kombination zweier Verfahren angeordnet. Neben der Hypertext-Matching-Analyse ist dies die PageRank-Technologie. Der so genannte PageRank-Algorithmus, benannt nach seinem Erfinder Lawrence Page, ist die wesentliche Komponente, die Google auf seinen Erfolgsweg gebracht hat. Über die genaue Funktionsweise dieses Algorithmus hat Google, insbesondere nach einigen Verbesserungen in den letzten Jahren, nicht alle Details preisgegeben. Fest steht jedoch, dass der PageRank-Algorithmus die Relevanz einer Webseite auf Basis der Hyperlinkstruktur des Webs berechnet, wobei die Relevanz einer Webseite danach gewichtet wird, wie viele Links auf sie zeigen und Verweise von ihrerseits stark verlinkten Seiten stärker ins Gewicht fallen.
Diese Seminararbeit widmet sich der Darstellung des PageRank-Algorithmus sowie der Erläuterung von Verbesserungen, durch die der Algorithmus schneller und effizienter wird. Hierzu werden dem Leser in Kapitel 2 zunächst einige Grundlagen nahe gebracht. Anschließend wird im Hauptteil dieser Ausarbeitung in Kapitel 3 detailliert auf den PageRank-Algorithmus sowie auf drei Weiterentwicklungen eingegangen, welche die Verarbeitungseffizienz des Grundalgorithmus so erhöhen, dass dadurch ein themenspezifisches Ranking ermöglicht werden könnte. Abschließend werden die Ergebnisse in Kapitel 4 zusammengefasst und ein Ausblick auf die Zukunft gegeben.

Content

Ausarbeitung im Rahmen des Seminars Suchmaschinen und Suchalgorithmen, Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft, Westfälische Wilhelms-Universität Münster. - Vgl.: http://www-wi.uni-muenster.de/pi/lehre/ss05/seminarSuchen/Ausarbeitungen/JanKorves.pdf
Körber, S.: Suchmuster erfahrener und unerfahrener Suchmaschinennutzer im deutschsprachigen World Wide Web (2000) 0.02
```
0.020242503 = product of:
  0.060727507 = sum of:
    0.04471293 = weight(_text_:und in 5938) [ClassicSimilarity], result of:
      0.04471293 = score(doc=5938,freq=38.0), product of:
        0.104724824 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.04725067 = queryNorm
        0.42695636 = fieldWeight in 5938, product of:
          6.164414 = tf(freq=38.0), with freq of:
            38.0 = termFreq=38.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=5938)
    0.016014574 = weight(_text_:des in 5938) [ClassicSimilarity], result of:
      0.016014574 = score(doc=5938,freq=2.0), product of:
        0.13085164 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.04725067 = queryNorm
        0.12238726 = fieldWeight in 5938, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.03125 = fieldNorm(doc=5938)
  0.33333334 = coord(2/6)
```
Abstract

In einem Labor-Experiment wurden insgesamt achtzehn Studenten und Studentinnen mit zwei offenen Web-Rechercheaufgaben konfrontiert. Während deren Bewältigung mit einer Suchmaschine wurden sie per Proxy-Logfile-Protokollierung verdeckt beobachtet. Sie machten demographische und ihre Webnutzungs-Gewohnheiten betreffende Angaben, bewerteten Aufgaben-, Performance- und Suchmaschinen-Eigenschaften in Fragebögen und stellten sich einem Multiple-Choice-Test zu ihrem Wissen über Suchmaschinen. Die Versuchspersonen wurden gezielt angeworben und eingeteilt: in eine erfahrene und eine unerfahrene Untergruppe mit je neun Teilnehmern. Die Untersuchung beruht auf dem Vergleich der beiden Gruppen: Im Zentrum stehen dabei die Lesezeichen, die sie als Lösungen ablegten, ihre Einschätzungen aus den Fragebögen, ihre Suchphrasen sowie die Muster ihrer Suchmaschinen-Interaktion und Navigation in Zielseiten. Diese aus den Logfiles gewonnen sequentiellen Aktionsmuster wurden vergleichend visualisiert, ausgezählt und interpretiert. Zunächst wird das World Wide Web als strukturell und inhaltlich komplexer Informationsraum beschrieben. Daraufhin beleuchtet der Autor die allgemeinen Aufgaben und Typen von Meta-Medienanwendungen, sowie die Komponenten Index-basierter Suchmaschinen. Im Anschluß daran wechselt die Perspektive von der strukturell-medialen Seite hin zu Nutzungsaspekten. Der Autor beschreibt Nutzung von Meta-Medienanwendungen als Ko-Selektion zwischen Nutzer und Suchmaschine auf der Basis von Entscheidungen und entwickelt ein einfaches, dynamisches Phasenmodell. Der Einfluß unterschiedlicher Wissensarten auf den Selektionsprozeß findet hier Beachtung.Darauf aufbauend werden im folgenden Schritt allgemeine Forschungsfragen und Hypothesen für das Experiment formuliert. Dessen Eigenschaften sind das anschließende Thema, wobei das Beobachtungsinstrument Logfile-Analyse, die Wahl des Suchdienstes, die Formulierung der Aufgaben, Ausarbeitung der Fragebögen und der Ablauf im Zentrum stehen. Im folgenden präsentiert der Autor die Ergebnisse in drei Schwerpunkten: erstens in bezug auf die Performance - was die Prüfung der Hypothesen erlaubt - zweitens in bezug auf die Bewertungen, Kommentare und Suchphrasen der Versuchspersonen und drittens in bezug auf die visuelle und rechnerische Auswertung der Suchmuster. Letztere erlauben einen Einblick in das Suchverhalten der Versuchspersonen. Zusammenfassende Interpretationen und ein Ausblick schließen die Arbeit ab
Weiß, B.: Verwandte Seiten finden : "Ähnliche Seiten" oder "What's Related" (2005) 0.02
```
0.017980956 = product of:
  0.053942867 = sum of:
    0.033924647 = weight(_text_:und in 868) [ClassicSimilarity], result of:
      0.033924647 = score(doc=868,freq=14.0), product of:
        0.104724824 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.04725067 = queryNorm
        0.32394084 = fieldWeight in 868, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=868)
    0.020018218 = weight(_text_:des in 868) [ClassicSimilarity], result of:
      0.020018218 = score(doc=868,freq=2.0), product of:
        0.13085164 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.04725067 = queryNorm
        0.15298408 = fieldWeight in 868, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.0390625 = fieldNorm(doc=868)
  0.33333334 = coord(2/6)
```
Abstract

Die Link-Struktur-Analyse (LSA) ist nicht nur beim Crawling, dem Webseitenranking, der Abgrenzung geographischer Bereiche, der Vorhersage von Linkverwendungen, dem Auffinden von "Mirror"-Seiten, dem Kategorisieren von Webseiten und beim Generieren von Webseitenstatistiken eines der wichtigsten Analyseverfahren, sondern auch bei der Suche nach verwandten Seiten. Um qualitativ hochwertige verwandte Seiten zu finden, bildet sie nach herrschender Meinung den Hauptbestandteil bei der Identifizierung von ähnlichen Seiten innerhalb themenspezifischer Graphen vernetzter Dokumente. Dabei wird stets von zwei Annahmen ausgegangen: Links zwischen zwei Dokumenten implizieren einen verwandten Inhalt beider Dokumente und wenn die Dokumente aus unterschiedlichen Quellen (von unterschiedlichen Autoren, Hosts, Domänen, .) stammen, so bedeutet dies das eine Quelle die andere über einen Link empfiehlt. Aufbauend auf dieser Idee entwickelte Kleinberg 1998 den HITS Algorithmus um verwandte Seiten über die Link-Struktur-Analyse zu bestimmen. Dieser Ansatz wurde von Bharat und Henzinger weiterentwickelt und später auch in Algorithmen wie dem Companion und Cocitation Algorithmus zur Suche von verwandten Seiten basierend auf nur einer Anfrage-URL weiter verfolgt. In der vorliegenden Seminararbeit sollen dabei die Algorithmen, die hinter diesen Überlegungen stehen, näher erläutert werden und im Anschluss jeweils neuere Forschungsansätze auf diesem Themengebiet aufgezeigt werden.

Content

Ausarbeitung im Rahmen des Seminars Suchmaschinen und Suchalgorithmen, Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft, Westfälische Wilhelms-Universität Münster. - Vgl.: http://www-wi.uni-muenster.de/pi/lehre/ss05/seminarSuchen/Ausarbeitungen/BurkhardWei%DF.pdf

Amon, H.: Optimierung von Webseiten für Suchmaschinen und Kataloge : Empfehlungen zur Optimierung der Web-Seiten der Bibliothek und Dokumentation der Deutschen Gesellschaft für Auswärtige Politik (DGAP) (2004) 0.01

0.008883559 = product of:
  0.053301353 = sum of:
    0.053301353 = weight(_text_:und in 4626) [ClassicSimilarity], result of:
      0.053301353 = score(doc=4626,freq=6.0), product of:
        0.104724824 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.04725067 = queryNorm
        0.5089658 = fieldWeight in 4626, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.09375 = fieldNorm(doc=4626)
  0.16666667 = coord(1/6)

Imprint: Potsdam : Fachhochschule, Institut für Information und Dokumentation

Krüger, K.: Suchmaschinen-Spamming : Vergleichend-kritische Analysen zur Wirkung kommerzieller Strategien der Website-Optimierung auf das Ranking in www-Suchmaschinen (2004) 0.01
```
0.008462295 = product of:
  0.050773766 = sum of:
    0.050773766 = weight(_text_:und in 3700) [ClassicSimilarity], result of:
      0.050773766 = score(doc=3700,freq=16.0), product of:
        0.104724824 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.04725067 = queryNorm
        0.4848303 = fieldWeight in 3700, product of:
          4.0 = tf(freq=16.0), with freq of:
            16.0 = termFreq=16.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0546875 = fieldNorm(doc=3700)
  0.16666667 = coord(1/6)
```
Abstract

Interne und externe Manipulationen zwischen erlaubter Website-Optimierung und Spam-Methoden mindern die Qualität der Ergebnislisten, und besonders kommerziellen Anbieter ist eine Positionierung unter den TopTen wichtig, weil nur die wenigsten Suchmaschinennutzer mehr als die ersten zehn, maximal zwanzig Treffer beachten. Spamming soll eine Listung unter den ersten Rangpositionen sichern, aber auch Manipulationen werden eingesetzt, um Indizes der Suchmaschinen mit irrelevanten Ergebnissen qualitativ zu verschlechtern. Praktisch analysiert werden AItaVista, Fireball, Google und Lycos auf valide und invalide Treffer, auf Anzahl vermutlich manipulierter Seiten, auf häufigste Spam-Methoden, auf Anteile kommerzieller Links und auf pornographische Seiten.

Footnote

Diplomarbeit im Studiengang Bibliotheks- und Informationsmanagement

Imprint

Hamburg : Hochschule für Angewandte Wissenschaften, FB Bibliothek und Information

Gerber, A.: Vergleich von Suchmaschinen und Katalogen : Schwerpunkt deutschsprachiger Suchmaschinen Stand 2002 (2002) 0.01

0.0059837457 = product of:
  0.035902474 = sum of:
    0.035902474 = weight(_text_:und in 4005) [ClassicSimilarity], result of:
      0.035902474 = score(doc=4005,freq=2.0), product of:
        0.104724824 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.04725067 = queryNorm
        0.34282678 = fieldWeight in 4005, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.109375 = fieldNorm(doc=4005)
  0.16666667 = coord(1/6)

Stölzel, A.: Was Google nicht sieht : Das "Invisible Web" (2004) 0.01

0.0059837457 = product of:
  0.035902474 = sum of:
    0.035902474 = weight(_text_:und in 4040) [ClassicSimilarity], result of:
      0.035902474 = score(doc=4040,freq=2.0), product of:
        0.104724824 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.04725067 = queryNorm
        0.34282678 = fieldWeight in 4040, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.109375 = fieldNorm(doc=4040)
  0.16666667 = coord(1/6)

Imprint: Potsdam : Fachhochschule, Institut für Information und Dokumentation

Griesbaum, J.: Evaluierung hybrider Suchsysteme im WWW (2000) 0.00
```
0.0044417796 = product of:
  0.026650677 = sum of:
    0.026650677 = weight(_text_:und in 2482) [ClassicSimilarity], result of:
      0.026650677 = score(doc=2482,freq=6.0), product of:
        0.104724824 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.04725067 = queryNorm
        0.2544829 = fieldWeight in 2482, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.046875 = fieldNorm(doc=2482)
  0.16666667 = coord(1/6)
```
Abstract

Der Ausgangspunkt dieser Arbeit ist die Suchproblematik im World Wide Web. Suchmaschinen sind einerseits unverzichtbar für erfolgreiches Information Retrieval, andererseits wird ihnen eine mäßige Leistungsfähigkeit vorgeworfen. Das Thema dieser Arbeit ist die Untersuchung der Retrievaleffektivität deutschsprachiger Suchmaschinen. Es soll festgestellt werden, welche Retrievaleffektivität Nutzer derzeit erwarten können. Ein Ansatz, um die Retrievaleffektivität von Suchmaschinen zu erhöhen besteht darin, redaktionell von Menschen erstellte und automatisch generierte Suchergebnisse in einer Trefferliste zu vermengen. Ziel dieser Arbeit ist es, die Retrievaleffektivität solcher hybrider Systeme im Vergleich zu rein roboterbasierten Suchmaschinen zu evaluieren. Zunächst werden hierzu die grundlegenden Problembereiche bei der Evaluation von Retrievalsystemen analysiert. In Anlehnung an die von Tague-Sutcliff vorgeschlagene Methodik wird unter Beachtung der webspezifischen Besonderheiten eine mögliche Vorgehensweise erschlossen. Darauf aufbauend wird das konkrete Setting für die Durchführung der Evaluation erarbeitet und ein Retrievaleffektivitätstest bei den Suchmaschinen Lycos.de, AItaVista.de und QualiGo durchgeführt.

Jezior, T.: Adaption und Integration von Suchmaschinentechnologie in mor(!)dernen OPACs (2013) 0.00

0.0034192835 = product of:
  0.0205157 = sum of:
    0.0205157 = weight(_text_:und in 2222) [ClassicSimilarity], result of:
      0.0205157 = score(doc=2222,freq=2.0), product of:
        0.104724824 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.04725067 = queryNorm
        0.19590102 = fieldWeight in 2222, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0625 = fieldNorm(doc=2222)
  0.16666667 = coord(1/6)

Search (13 results, page 1 of 1)

Authors

Years

Themes