Search (35 results, page 1 of 2)

Kanaeva, Z.: Ranking: Google und CiteSeer (2005) 0.06

0.058575716 = product of:
  0.08786357 = sum of:
    0.031532075 = weight(_text_:im in 3276) [ClassicSimilarity], result of:
      0.031532075 = score(doc=3276,freq=2.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.2186231 = fieldWeight in 3276, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0546875 = fieldNorm(doc=3276)
    0.056331497 = product of:
      0.08449724 = sum of:
        0.03610713 = weight(_text_:retrieval in 3276) [ClassicSimilarity], result of:
          0.03610713 = score(doc=3276,freq=2.0), product of:
            0.15433937 = queryWeight, product of:
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.051022716 = queryNorm
            0.23394634 = fieldWeight in 3276, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.0546875 = fieldNorm(doc=3276)
        0.048390117 = weight(_text_:22 in 3276) [ClassicSimilarity], result of:
          0.048390117 = score(doc=3276,freq=2.0), product of:
            0.17867287 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.051022716 = queryNorm
            0.2708308 = fieldWeight in 3276, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0546875 = fieldNorm(doc=3276)
      0.6666667 = coord(2/3)
  0.6666667 = coord(2/3)

Abstract: Im Rahmen des klassischen Information Retrieval wurden verschiedene Verfahren für das Ranking sowie die Suche in einer homogenen strukturlosen Dokumentenmenge entwickelt. Die Erfolge der Suchmaschine Google haben gezeigt dass die Suche in einer zwar inhomogenen aber zusammenhängenden Dokumentenmenge wie dem Internet unter Berücksichtigung der Dokumentenverbindungen (Links) sehr effektiv sein kann. Unter den von der Suchmaschine Google realisierten Konzepten ist ein Verfahren zum Ranking von Suchergebnissen (PageRank), das in diesem Artikel kurz erklärt wird. Darüber hinaus wird auf die Konzepte eines Systems namens CiteSeer eingegangen, welches automatisch bibliographische Angaben indexiert (engl. Autonomous Citation Indexing, ACI). Letzteres erzeugt aus einer Menge von nicht vernetzten wissenschaftlichen Dokumenten eine zusammenhängende Dokumentenmenge und ermöglicht den Einsatz von Banking-Verfahren, die auf den von Google genutzten Verfahren basieren.
Date: 20. 3.2005 16:23:22

Oberhauser, O.; Labner, J.: Relevance Ranking in Online-Katalogen : Informationsstand und Perspektiven (2003) 0.05

0.053465195 = product of:
  0.08019779 = sum of:
    0.06306415 = weight(_text_:im in 2188) [ClassicSimilarity], result of:
      0.06306415 = score(doc=2188,freq=8.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.4372462 = fieldWeight in 2188, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0546875 = fieldNorm(doc=2188)
    0.017133636 = product of:
      0.051400907 = sum of:
        0.051400907 = weight(_text_:online in 2188) [ClassicSimilarity], result of:
          0.051400907 = score(doc=2188,freq=4.0), product of:
            0.1548489 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.051022716 = queryNorm
            0.33194235 = fieldWeight in 2188, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.0546875 = fieldNorm(doc=2188)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)

Abstract: Bekanntlich führen Suchmaschinen wie Google &Co. beider Auflistung der Suchergebnisse ein "Ranking" nach "Relevanz" durch, d.h. die Dokumente werden in absteigender Reihenfolge entsprechend ihrer Erfüllung von Relevanzkriterien ausgeben. In Online-Katalogen (OPACs) ist derlei noch nicht allgemein übliche Praxis, doch bietet etwa das im Österreichischen Bibliothekenverbund eingesetzte System Aleph 500 tatsächlich eine solche Ranking-Option an (die im Verbundkatalog auch implementiert ist). Bislang liegen allerdings kaum Informationen zur Funktionsweise dieses Features, insbesondere auch im Hinblick auf eine Hilfestellung für Benutzer, vor. Daher möchten wir mit diesem Beitrag versuchen, den in unserem Verbund bestehenden Informationsstand zum Thema "Relevance Ranking" zu erweitern. Sowohl die Verwendung einer Ranking-Option in OPACs generell als auch die sich unter Aleph 500 konkret bietenden Möglichkeiten sollen im folgenden näher betrachtet werden.

Mandl, T.: Web- und Multimedia-Dokumente : Neuere Entwicklungen bei der Evaluierung von Information Retrieval Systemen (2003) 0.04

0.04452933 = product of:
  0.06679399 = sum of:
    0.03603666 = weight(_text_:im in 1734) [ClassicSimilarity], result of:
      0.03603666 = score(doc=1734,freq=2.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.24985497 = fieldWeight in 1734, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0625 = fieldNorm(doc=1734)
    0.030757334 = product of:
      0.092272 = sum of:
        0.092272 = weight(_text_:retrieval in 1734) [ClassicSimilarity], result of:
          0.092272 = score(doc=1734,freq=10.0), product of:
            0.15433937 = queryWeight, product of:
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.051022716 = queryNorm
            0.59785134 = fieldWeight in 1734, product of:
              3.1622777 = tf(freq=10.0), with freq of:
                10.0 = termFreq=10.0
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.0625 = fieldNorm(doc=1734)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)

Abstract: Die Menge an Daten im Internet steigt weiter rapide an. Damit wächst auch der Bedarf an qualitativ hochwertigen Information Retrieval Diensten zur Orientierung und problemorientierten Suche. Die Entscheidung für die Benutzung oder Beschaffung von Information Retrieval Software erfordert aussagekräftige Evaluierungsergebnisse. Dieser Beitrag stellt neuere Entwicklungen bei der Evaluierung von Information Retrieval Systemen vor und zeigt den Trend zu Spezialisierung und Diversifizierung von Evaluierungsstudien, die den Realitätsgrad derErgebnisse erhöhen. DerSchwerpunkt liegt auf dem Retrieval von Fachtexten, Internet-Seiten und Multimedia-Objekten.

Nagelschmidt, M.: Verfahren zur Anfragemodifikation im Information Retrieval (2008) 0.04
```
0.043120928 = product of:
  0.06468139 = sum of:
    0.046812993 = weight(_text_:im in 2774) [ClassicSimilarity], result of:
      0.046812993 = score(doc=2774,freq=6.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.32457113 = fieldWeight in 2774, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.046875 = fieldNorm(doc=2774)
    0.017868398 = product of:
      0.05360519 = sum of:
        0.05360519 = weight(_text_:retrieval in 2774) [ClassicSimilarity], result of:
          0.05360519 = score(doc=2774,freq=6.0), product of:
            0.15433937 = queryWeight, product of:
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.051022716 = queryNorm
            0.34732026 = fieldWeight in 2774, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.046875 = fieldNorm(doc=2774)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)
```
Abstract

Für das Modifizieren von Suchanfragen kennt das Information Retrieval vielfältige Möglichkeiten. Nach einer einleitenden Darstellung der Wechselwirkung zwischen Informationsbedarf und Suchanfrage wird eine konzeptuelle und typologische Annäherung an Verfahren zur Anfragemodifikation gegeben. Im Anschluss an eine kurze Charakterisierung des Fakten- und des Information Retrieval, sowie des Vektorraum- und des probabilistischen Modells, werden intellektuelle, automatische und interaktive Modifikationsverfahren vorgestellt. Neben klassischen intellektuellen Verfahren, wie der Blockstrategie und der "Citation Pearl Growing"-Strategie, umfasst die Darstellung der automatischen und interaktiven Verfahren Modifikationsmöglichkeiten auf den Ebenen der Morphologie, der Syntax und der Semantik von Suchtermen. Darüber hinaus werden das Relevance Feedback, der Nutzen informetrischer Analysen und die Idee eines assoziativen Retrievals auf der Basis von Clustering- und terminologischen Techniken, sowie zitationsanalytischen Verfahren verfolgt. Ein Eindruck für die praktischen Gestaltungsmöglichkeiten der behandelten Verfahren soll abschließend durch fünf Anwendungsbeispiele vermittelt werden.

Footnote

Diplomarbeit im Studiengang Bibliothekswesen

Fuhr, N.: Modelle im Information Retrieval (2013) 0.04

0.041493133 = product of:
  0.062239695 = sum of:
    0.045045823 = weight(_text_:im in 724) [ClassicSimilarity], result of:
      0.045045823 = score(doc=724,freq=2.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.3123187 = fieldWeight in 724, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.078125 = fieldNorm(doc=724)
    0.017193872 = product of:
      0.051581617 = sum of:
        0.051581617 = weight(_text_:retrieval in 724) [ClassicSimilarity], result of:
          0.051581617 = score(doc=724,freq=2.0), product of:
            0.15433937 = queryWeight, product of:
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.051022716 = queryNorm
            0.33420905 = fieldWeight in 724, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.078125 = fieldNorm(doc=724)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)

Elsweiler, D.; Kruschwitz, U.: Interaktives Information Retrieval (2023) 0.04

0.03699287 = product of:
  0.055489305 = sum of:
    0.03603666 = weight(_text_:im in 797) [ClassicSimilarity], result of:
      0.03603666 = score(doc=797,freq=2.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.24985497 = fieldWeight in 797, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0625 = fieldNorm(doc=797)
    0.019452646 = product of:
      0.058357935 = sum of:
        0.058357935 = weight(_text_:retrieval in 797) [ClassicSimilarity], result of:
          0.058357935 = score(doc=797,freq=4.0), product of:
            0.15433937 = queryWeight, product of:
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.051022716 = queryNorm
            0.37811437 = fieldWeight in 797, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.0625 = fieldNorm(doc=797)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)

Abstract: Interaktives Information Retrieval (IIR) zielt darauf ab, die komplexen Interaktionen zwischen Nutzer*innen und Systemen im IR zu verstehen. Es gibt umfangreiche Literatur zu Themen wie der formalen Modellierung des Suchverhaltens, der Simulation der Interaktion, den interaktiven Funktionen zur Unterstützung des Suchprozesses und der Evaluierung interaktiver Suchsysteme. Dabei ist die interaktive Unterstützung nicht allein auf die Suche beschränkt, sondern hat ebenso die Hilfe bei Navigation und Exploration zum Ziel.

Tober, M.; Hennig, L.; Furch, D.: SEO Ranking-Faktoren und Rang-Korrelationen 2014 : Google Deutschland (2014) 0.04

0.036313996 = product of:
  0.05447099 = sum of:
    0.03603666 = weight(_text_:im in 1484) [ClassicSimilarity], result of:
      0.03603666 = score(doc=1484,freq=2.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.24985497 = fieldWeight in 1484, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0625 = fieldNorm(doc=1484)
    0.01843433 = product of:
      0.055302992 = sum of:
        0.055302992 = weight(_text_:22 in 1484) [ClassicSimilarity], result of:
          0.055302992 = score(doc=1484,freq=2.0), product of:
            0.17867287 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.051022716 = queryNorm
            0.30952093 = fieldWeight in 1484, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0625 = fieldNorm(doc=1484)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)

Abstract: Dieses Whitepaper beschäftigt sich mit der Definition und Bewertung von Faktoren, die eine hohe Rangkorrelation-Koeffizienz mit organischen Suchergebnissen aufweisen und dient dem Zweck der tieferen Analyse von Suchmaschinen-Algorithmen. Die Datenerhebung samt Auswertung bezieht sich auf Ranking-Faktoren für Google-Deutschland im Jahr 2014. Zusätzlich wurden die Korrelationen und Faktoren unter anderem anhand von Durchschnitts- und Medianwerten sowie Entwicklungstendenzen zu den Vorjahren hinsichtlich ihrer Relevanz für vordere Suchergebnis-Positionen interpretiert.
Date: 13. 9.2014 14:45:22

Mandl, T.: Tolerantes Information Retrieval : Neuronale Netze zur Erhöhung der Adaptivität und Flexibilität bei der Informationssuche (2001) 0.04
```
0.036112666 = product of:
  0.054168995 = sum of:
    0.04225673 = weight(_text_:im in 5965) [ClassicSimilarity], result of:
      0.04225673 = score(doc=5965,freq=44.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.29298094 = fieldWeight in 5965, product of:
          6.6332498 = tf(freq=44.0), with freq of:
            44.0 = termFreq=44.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.015625 = fieldNorm(doc=5965)
    0.011912264 = product of:
      0.03573679 = sum of:
        0.03573679 = weight(_text_:retrieval in 5965) [ClassicSimilarity], result of:
          0.03573679 = score(doc=5965,freq=24.0), product of:
            0.15433937 = queryWeight, product of:
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.051022716 = queryNorm
            0.23154683 = fieldWeight in 5965, product of:
              4.8989797 = tf(freq=24.0), with freq of:
                24.0 = termFreq=24.0
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.015625 = fieldNorm(doc=5965)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)
```
Abstract

Ein wesentliches Bedürfnis im Rahmen der Mensch-Maschine-Interaktion ist die Suche nach Information. Um Information Retrieval (IR) Systeme kognitiv adäquat zu gestalten und sie an den Menschen anzupassen bieten sich Modelle des Soft Computing an. Ein umfassender state-of-the-art Bericht zu neuronalen Netzen im IR zeigt dass die meisten bestehenden Modelle das Potential neuronaler Netze nicht ausschöpfen. Das vorgestellte COSIMIR-Modell (Cognitive Similarity learning in Information Retrieval) basiert auf neuronalen Netzen und lernt, die Ähnlichkeit zwischen Anfrage und Dokument zu berechnen. Es trägt somit die kognitive Modellierung in den Kern eines IR Systems. Das Transformations-Netzwerk ist ein weiteres neuronales Netzwerk, das die Behandlung von Heterogenität anhand von Expertenurteilen lernt. Das COSIMIR-Modell und das Transformations-Netzwerk werden ausführlich diskutiert und anhand realer Datenmengen evaluiert

Content

Kapitel: 1 Einleitung - 2 Grundlagen des Information Retrieval - 3 Grundlagen neuronaler Netze - 4 Neuronale Netze im Information Retrieval - 5 Heterogenität und ihre Behandlung im Information Retrieval - 6 Das COSIMIR-Modell - 7 Experimente mit dem COSIMIR-Modell und dem Transformations-Netzwerk - 8 Fazit

Footnote

Rez. in: nfd - Information 54(2003) H.6, S.379-380 (U. Thiel): "Kannte G. Salton bei der Entwicklung des Vektorraummodells die kybernetisch orientierten Versuche mit assoziativen Speicherstrukturen? An diese und ähnliche Vermutungen, die ich vor einigen Jahren mit Reginald Ferber und anderen Kollegen diskutierte, erinnerte mich die Thematik des vorliegenden Buches. Immerhin lässt sich feststellen, dass die Vektorrepräsentation eine genial einfache Darstellung sowohl der im Information Retrieval (IR) als grundlegende Datenstruktur benutzten "inverted files" als auch der assoziativen Speichermatrizen darstellt, die sich im Laufe der Zeit Über Perzeptrons zu Neuronalen Netzen (NN) weiterentwickelten. Dieser formale Zusammenhang stimulierte in der Folge eine Reihe von Ansätzen, die Netzwerke im Retrieval zu verwenden, wobei sich, wie auch im vorliegenden Band, hybride Ansätze, die Methoden aus beiden Disziplinen kombinieren, als sehr geeignet erweisen. Aber der Reihe nach... Das Buch wurde vom Autor als Dissertation beim Fachbereich IV "Sprachen und Technik" der Universität Hildesheim eingereicht und resultiert aus einer Folge von Forschungsbeiträgen zu mehreren Projekten, an denen der Autor in der Zeit von 1995 bis 2000 an verschiedenen Standorten beteiligt war. Dies erklärt die ungewohnte Breite der Anwendungen, Szenarien und Domänen, in denen die Ergebnisse gewonnen wurden. So wird das in der Arbeit entwickelte COSIMIR Modell (COgnitive SIMilarity learning in Information Retrieval) nicht nur anhand der klassischen Cranfield-Kollektion evaluiert, sondern auch im WING-Projekt der Universität Regensburg im Faktenretrieval aus einer Werkstoffdatenbank eingesetzt. Weitere Versuche mit der als "Transformations-Netzwerk" bezeichneten Komponente, deren Aufgabe die Abbildung von Gewichtungsfunktionen zwischen zwei Termräumen ist, runden das Spektrum der Experimente ab. Aber nicht nur die vorgestellten Resultate sind vielfältig, auch der dem Leser angebotene "State-of-the-Art"-Überblick fasst in hoch informativer Breite Wesentliches aus den Gebieten IR und NN zusammen und beleuchtet die Schnittpunkte der beiden Bereiche. So werden neben den Grundlagen des Text- und Faktenretrieval die Ansätze zur Verbesserung der Adaptivität und zur Beherrschung von Heterogenität vorgestellt, während als Grundlagen Neuronaler Netze neben einer allgemeinen Einführung in die Grundbegriffe u.a. das Backpropagation-Modell, KohonenNetze und die Adaptive Resonance Theory (ART) geschildert werden. Einweiteres Kapitel stellt die bisherigen NN-orientierten Ansätze im IR vor und rundet den Abriss der relevanten Forschungslandschaft ab. Als Vorbereitung der Präsentation des COSIMIR-Modells schiebt der Autor an dieser Stelle ein diskursives Kapitel zum Thema Heterogenität im IR ein, wodurch die Ziele und Grundannahmen der Arbeit noch einmal reflektiert werden. Als Dimensionen der Heterogenität werden der Objekttyp, die Qualität der Objekte und ihrer Erschließung und die Mehrsprachigkeit genannt. Wenn auch diese Systematik im Wesentlichen die Akzente auf Probleme aus den hier tangierten Projekten legt, und weniger eine umfassende Aufbereitung z.B. der Literatur zum Problem der Relevanz anstrebt, ist sie dennoch hilfreich zum Verständnis der in den nachfolgenden Kapitel oft nur implizit angesprochenen Designentscheidungen bei der Konzeption der entwickelten Prototypen. Der Ansatz, Heterogenität durch Transformationen zu behandeln, wird im speziellen Kontext der NN konkretisiert, wobei andere Möglichkeiten, die z.B. Instrumente der Logik und Probabilistik einzusetzen, nur kurz diskutiert werden. Eine weitergehende Analyse hätte wohl auch den Rahmen der Arbeit zu weit gespannt,
da nun nach fast 200 Seiten der Hauptteil der Dissertation folgt - die Vorstellung und Bewertung des bereits erwähnten COSIMIR Modells. Das COSIMIR Modell "berechnet die Ähnlichkeit zwischen den zwei anliegenden Input-Vektoren" (P.194). Der Output des Netzwerks wird an einem einzigen Knoten abgegriffen, an dem sich ein sogenannten Relevanzwert einstellt, wenn die Berechnungen der Gewichtungen interner Knoten zum Abschluss kommen. Diese Gewichtungen hängen von den angelegten Inputvektoren, aus denen die Gewichte der ersten Knotenschicht ermittelt werden, und den im Netzwerk vorgegebenen Kantengewichten ab. Die Gewichtung von Kanten ist der Kernpunkt des neuronalen Ansatzes: In Analogie zum biologischen Urbild (Dendrit mit Synapsen) wächst das Gewicht der Kante mit jeder Aktivierung während einer Trainingsphase. Legt man in dieser Phase zwei Inputvektoren, z.B. Dokumentvektor und Ouery gleichzeitig mit dem Relevanzurteil als Wert des Outputknoten an, verteilen sich durch den BackpropagationProzess die Gewichte entlang der Pfade, die zwischen den beteiligten Knoten bestehen. Da alle Knoten miteinander verbunden sind, entstehen nach mehreren Trainingsbeispielen bereits deutlich unterschiedliche Kantengewichte, weil die aktiv beteiligten Kanten die Änderungen akkumulativ speichern. Eine Variation des Verfahrens benutzt das NN als "Transformationsnetzwerk", wobei die beiden Inputvektoren mit einer Dokumentrepräsentation und einem dazugehörigen Indexat (von einem Experten bereitgestellt) belegt werden. Neben der schon aufgezeigten Trainingsnotwendigkeit weisen die Neuronalen Netze eine weitere intrinsische Problematik auf: Je mehr äußere Knoten benötigt werden, desto mehr interne Kanten (und bei der Verwendung von Zwischenschichten auch Knoten) sind zu verwalten, deren Anzahl nicht linear wächst. Dieser algorithmische Befund setzt naiven Einsätzen der NN-Modelle in der Praxis schnell Grenzen, deshalb ist es umso verdienstvoller, dass der Autor einen innovativen Weg zur Lösung des Problems mit den Mitteln des IR vorschlagen kann. Er verwendet das Latent Semantic Indexing, welches Dokumentrepräsentationen aus einem hochdimensionalen Vektorraum in einen niederdimensionalen abbildet, um die Anzahl der Knoten deutlich zu reduzieren. Damit ist eine sehr schöne Synthese gelungen, welche die eingangs angedeuteten formalen Übereinstimmungen zwischen Vektorraummodellen im IR und den NN aufzeigt und ausnutzt.
Im abschließenden Kapitel des Buchs berichtet der Autor über eine Reihe von Experimenten, die im Kontext unterschiedlicher Anwendungen durchgeführt wurden. Die Evaluationen wurden sehr sorgfältig durchgeführt und werden kompetent kommentiert, so dass der Leser sich ein Bild von der Komplexität der Untersuchungen machen kann. Inhaltlich sind die Ergebnisse unterschiedlich, die Verwendung des NN-Ansatzes ist sehr abhängig von der Menge und Qualität des Trainingsmaterials (so sind die Ergebnisse auf der Cranfield-Kollektion wegen der geringen Anzahl von zur Verfügung stehenden Relevanzurteilen schlechter als die der traditionellen Verfahren). Das Experiment mit Werkstoffinformationen im Projekt WING ist eine eher traditionelle NN-Applikation: Aus Merkmalsvektoren soll auf die "Anwendungsähnlichkeit" von Werkstoffen geschlossen werden, was offenbar gut gelingt. Hier sind die konkurrierenden Verfahren aber weniger im IR zu vermuten, sondern eher im Gebiet des Data Mining. Die Versuche mit Textdaten sind Anregung, hier weitere, systematischere Untersuchungen vorzunehmen. So sollte z.B. nicht nur ein Vergleich mit klassischen One-shot IR-Verfahren durchgeführt werden, viel interessanter und aussagekräftiger ist die Gegenüberstellung von NN-Systemen und lernfähigen IR-Systemen, die z.B. über Relevance Feedback Wissen akkumulieren (vergleichbar den NN in der Trainingsphase). Am Ende könnte dann nicht nur ein einheitliches Modell stehen, sondern auch Erkenntnisse darüber, welches Lernverfahren wann vorzuziehen ist. Fazit: Das Buch ist ein hervorragendes Beispiel der "Schriften zur Informationswissenschaft", mit denen der HI (Hochschulverband für Informationswissenschaft) die Ergebnisse der informationswissenschaftlichen Forschung seit etlichen Jahren einem größerem Publikum vorstellt. Es bietet einen umfassenden Überblick zum dynamisch sich entwickelnden Gebiet der Neuronalen Netze im IR, die sich anschicken, ein "tolerantes Information Retrieval" zu ermöglichen."

RSWK

Information Retrieval / Neuronales Netz

Subject

Information Retrieval / Neuronales Netz
Fuhr, N.: Theorie des Information Retrieval I : Modelle (2004) 0.04
```
0.03593411 = product of:
  0.053901162 = sum of:
    0.03901083 = weight(_text_:im in 2912) [ClassicSimilarity], result of:
      0.03901083 = score(doc=2912,freq=6.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.27047595 = fieldWeight in 2912, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0390625 = fieldNorm(doc=2912)
    0.014890331 = product of:
      0.04467099 = sum of:
        0.04467099 = weight(_text_:retrieval in 2912) [ClassicSimilarity], result of:
          0.04467099 = score(doc=2912,freq=6.0), product of:
            0.15433937 = queryWeight, product of:
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.051022716 = queryNorm
            0.28943354 = fieldWeight in 2912, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.0390625 = fieldNorm(doc=2912)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)
```
Abstract

Information-Retrieval-(IR-)Modelle spezifizieren, wie zur einer gegebenen Anfrage die Antwortdokumente aus einer Dokumentenkollektion bestimmt werden. Dabei macht jedes Modell bestimmte Annahmen über die Struktur von Dokumenten und Anfragen und definiert dann die so genannte Retrievalfunktion, die das Retrievalgewicht eines Dokumentes bezüglich einer Anfrage bestimmt - im Falle des Booleschen Retrieval etwa eines der Gewichte 0 oder 1. Die Dokumente werden dann nach fallenden Gewichten sortiert und dem Benutzer präsentiert. Zunächst sollen hier einige grundlegende Charakteristika von Retrievalmodellen beschrieben werden, bevor auf die einzelnen Modelle näher eingegangen wird. Wie eingangs erwähnt, macht jedes Modell Annahmen über die Struktur von Dokumenten und Fragen. Ein Dokument kann entweder als Menge oder Multimenge von so genannten Termen aufgefasst werden, wobei im zweiten Fall das Mehrfachvorkommen berücksichtigt wird. Dabei subsummiert 'Term' einen Suchbegriff, der ein einzelnes Wort, ein mehrgliedriger Begriff oder auch ein komplexes Freitextmuster sein kann. Diese Dokumentrepräsentation wird wiederum auf eine so genannte Dokumentbeschreibung abgebildet, in der die einzelnen Terme gewichtet sein können; dies ist Aufgabe der in Kapitel B 5 beschriebenen Indexierungsmodelle. Im Folgenden unterscheiden wir nur zwischen ungewichteter (Gewicht eines Terms ist entweder 0 oderl) und gewichteter Indexierung (das Gewicht ist eine nichtnegative reelle Zahl). Ebenso wie bei Dokumenten können auch die Terme in der Frage entweder ungewichtet oder gewichtet sein. Daneben unterscheidet man zwischen linearen (Frage als Menge von Termen, ungewichtet oder gewichtet) und Booleschen Anfragen.
Fuhr, N.: Modelle im Information Retrieval (2023) 0.04
```
0.03593411 = product of:
  0.053901162 = sum of:
    0.03901083 = weight(_text_:im in 800) [ClassicSimilarity], result of:
      0.03901083 = score(doc=800,freq=6.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.27047595 = fieldWeight in 800, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0390625 = fieldNorm(doc=800)
    0.014890331 = product of:
      0.04467099 = sum of:
        0.04467099 = weight(_text_:retrieval in 800) [ClassicSimilarity], result of:
          0.04467099 = score(doc=800,freq=6.0), product of:
            0.15433937 = queryWeight, product of:
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.051022716 = queryNorm
            0.28943354 = fieldWeight in 800, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.0390625 = fieldNorm(doc=800)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)
```
Abstract

Information-Retrieval-Modelle -(IR-Modelle) spezifizieren, wie zu einer gegebenen Anfrage die Antwortdokumente aus einer Dokumentenkollektion bestimmt werden. Ausgangsbasis jedes Modells sind dabei zunächst bestimmte Annahmen über die Wissensrepräsentation (s. Teil B Methoden und Systeme der Inhaltserschließung) von Fragen und Dokumenten. Hier bezeichnen wir die Elemente dieser Repräsentationen als Terme, wobei es aus der Sicht des Modells egal ist, wie diese Terme aus dem Dokument (und analog aus der von Benutzenden eingegebenen Anfrage) abgeleitet werden: Bei Texten werden hierzu häufig computerlinguistische Methoden eingesetzt, aber auch komplexere automatische oder manuelle Erschließungsverfahren können zur Anwendung kommen. Repräsentationen besitzen ferner eine bestimmte Struktur. Ein Dokument wird meist als Menge oder Multimenge von Termen aufgefasst, wobei im zweiten Fall das Mehrfachvorkommen berücksichtigt wird. Diese Dokumentrepräsentation wird wiederum auf eine sogenannte Dokumentbeschreibung abgebildet, in der die einzelnen Terme gewichtet sein können. Im Folgenden unterscheiden wir nur zwischen ungewichteter (Gewicht eines Terms ist entweder 0 oder 1) und gewichteter Indexierung (das Gewicht ist eine nichtnegative reelle Zahl). Analog dazu gibt es eine Fragerepräsentation; legt man eine natürlichsprachige Anfrage zugrunde, so kann man die o. g. Verfahren für Dokumenttexte anwenden. Alternativ werden auch grafische oder formale Anfragesprachen verwendet, wobei aus Sicht der Modelle insbesondere deren logische Struktur (etwa beim Booleschen Retrieval) relevant ist. Die Fragerepräsentation wird dann in eine Fragebeschreibung überführt.
Lanvent, A.: Licht im Daten Chaos (2004) 0.03
```
0.0314755 = product of:
  0.047213245 = sum of:
    0.04029021 = weight(_text_:im in 2806) [ClassicSimilarity], result of:
      0.04029021 = score(doc=2806,freq=10.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.27934635 = fieldWeight in 2806, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.03125 = fieldNorm(doc=2806)
    0.006923034 = product of:
      0.0207691 = sum of:
        0.0207691 = weight(_text_:online in 2806) [ClassicSimilarity], result of:
          0.0207691 = score(doc=2806,freq=2.0), product of:
            0.1548489 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.051022716 = queryNorm
            0.13412495 = fieldWeight in 2806, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.03125 = fieldNorm(doc=2806)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)
```
Content

"Bitte suchen Sie alle Unterlagen, die im PC zum Ibelshäuser-Vertrag in Sprockhövel gespeichert sind. Finden Sie alles, was wir haben - Dokumente, Tabellen, Präsentationen, Scans, E-Mails. Und erledigen Sie das gleich! « Wer diese Aufgabe an das Windows-eigene Suchmodul vergibt, wird zwangsläufig enttäuscht. Denn das Betriebssystem beherrscht weder die formatübergreifende Recherche noch die Kontextsuche, die für solche komplexen Aufträge nötig sind. Professionelle Desktop-Suchmaschinen erledigen Aufgaben dieser Art jedoch im Handumdrehen - genauer gesagt in einer einzigen Sekunde. Spitzenprogramme wie Global Brain benötigen dafür nicht einmal umfangreiche Abfrageformulare. Es genügt, einen Satz im Eingabefeld zu formulieren, der das Thema der gewünschten Dokumente eingrenzt. Dabei suchen die Programme über alle Laufwerke, die sich auf dem System einbinden lassen - also auch im Netzwerk-Ordner (Shared Folder), sofern dieser freigegeben wurde. Allen Testkandidaten - mit Ausnahme von Search 32 - gemeinsam ist, dass sie weitaus bessere Rechercheergebnisse abliefern als Windows, deutlich schneller arbeiten und meist auch in den Online-Postfächern stöbern. Wer schon öfter vergeblich über die Windows-Suche nach wichtigen Dokumenten gefahndet hat, kommt angesichts der Qualität der Search-Engines kaum mehr um die Anschaffung eines Desktop-Suchtools herum. Aber Microsoft will nachbessern. Für den Windows-XP-Nachfolger Longhorn wirbt der Hersteller vor allem mit dem Hinweis auf das neue Dateisystem WinFS, das sämtliche Files auf der Festplatte über Meta-Tags indiziert und dem Anwender damit lange Suchläufe erspart. So sollen sich anders als bei Windows XP alle Dateien zu bestimmten Themen in wenigen Sekunden auflisten lassen - unabhängig vom Format und vom physikalischen Speicherort der Files. Für die Recherche selbst ist dann weder der Dateiname noch das Erstelldatum ausschlaggebend. Anhand der kontextsensitiven Suche von WinFS kann der Anwender einfach einen Suchbefehl wie »Vertragsabschluss mit Firma XYZ, Neunkirchen/Saar« eingeben, der dann ohne Umwege zum Ziel führt."
Marcus, S.: Textvergleich mit mehreren Mustern (2005) 0.03
```
0.028609473 = product of:
  0.042914208 = sum of:
    0.03603666 = weight(_text_:im in 862) [ClassicSimilarity], result of:
      0.03603666 = score(doc=862,freq=8.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.24985497 = fieldWeight in 862, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.03125 = fieldNorm(doc=862)
    0.006877549 = product of:
      0.020632647 = sum of:
        0.020632647 = weight(_text_:retrieval in 862) [ClassicSimilarity], result of:
          0.020632647 = score(doc=862,freq=2.0), product of:
            0.15433937 = queryWeight, product of:
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.051022716 = queryNorm
            0.13368362 = fieldWeight in 862, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.03125 = fieldNorm(doc=862)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)
```
Abstract

Das Gebiet des Pattern-Matching besitzt in vielen wissenschaftlichen Bereichen eine hohe Relevanz. Aufgrund unterschiedlicher Einsatzgebiete sind auch Umsetzung und Anwendung des Pattern-Matching sehr verschieden. Die allen Anwendungen des Pattern-Matching inhärente Aufgabe besteht darin, in einer Vielzahl von Eingabedaten bestimmte Muster wieder zu erkennen. Dies ist auch der deutschen Bezeichnung Mustererkennung zu entnehmen. In der Medizin findet Pattern-Matching zum Beispiel bei der Untersuchung von Chromosomensträngen auf bestimmte Folgen von Chromosomen Verwendung. Auf dem Gebiet der Bildverarbeitung können mit Hilfe des Pattern-Matching ganze Bilder verglichen oder einzelne Bildpunkte betrachtet werden, die durch ein Muster identifizierbar sind. Ein weiteres Einsatzgebiet des Pattern-Matching ist das Information-Retrieval, bei dem in gespeicherten Daten nach relevanten Informationen gesucht wird. Die Relevanz der zu suchenden Daten wird auch hier anhand eines Musters, zum Beispiel einem bestimmten Schlagwort, beurteilt. Ein vergleichbares Verfahren findet auch im Internet Anwendung. Internet-Benutzer, die mittels einer Suchmaschine nach bedeutsamen Informationen suchen, erhalten diese durch den Einsatz eines Pattern-Matching-Automaten. Die in diesem Zusammenhang an den Pattern-Matching-Automaten gestellten Anforderungen variieren mit der Suchanfrage, die an eine Suchmaschine gestellt wird. Eine solche Suchanfrage kann im einfachsten Fall aus genau einem Schlüsselwort bestehen. Im komplexeren Fall enthält die Anfrage mehrere Schlüsselwörter. Dabei muss für eine erfolgreiche Suche eine Konkatenation der in der Anfrage enthaltenen Wörter erfolgen. Zu Beginn dieser Arbeit wird in Kapitel 2 eine umfassende Einführung in die Thematik des Textvergleichs gegeben, wobei die Definition einiger grundlegender Begriffe vorgenommen wird. Anschließend werden in Kapitel 3 Verfahren zum Textvergleich mit mehreren Mustern vorgestellt. Dabei wird zunächst ein einfaches Vorgehen erläutert, um einen Einsteig in das Thema des Textvergleichs mit mehreren Mustern zu erleichtern. Danach wird eine komplexe Methode des Textvergleichs vorgestellt und anhand von Beispielen verdeutlicht.

Content

Ausarbeitung im Rahmen des Seminars Suchmaschinen und Suchalgorithmen, Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft, Westfälische Wilhelms-Universität Münster. - Vgl.: http://www-wi.uni-muenster.de/pi/lehre/ss05/seminarSuchen/Ausarbeitungen/SandraMarcus.pdf
Maylein, L.; Langenstein, A.: Neues vom Relevanz-Ranking im HEIDI-Katalog der Universitätsbibliothek Heidelberg : Perspektiven für bibliothekarische Dienstleistungen (2013) 0.02
```
0.020805776 = product of:
  0.06241733 = sum of:
    0.06241733 = weight(_text_:im in 775) [ClassicSimilarity], result of:
      0.06241733 = score(doc=775,freq=6.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.43276152 = fieldWeight in 775, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0625 = fieldNorm(doc=775)
  0.33333334 = coord(1/3)
```
Abstract

Das Relevanz-Ranking im Katalog der Universitätsbibliothek Heidelberg HEIDI, bereits 2009 in einem Beitrag in dieser Zeitschrift beschrieben, wurde in den letzten Jahren durch neue Entwicklungen und Methoden stark verbessert. Der Aufsatz beschreibt die Realisierung der bisherigen Rankingmaßnahmen unter der neu eingesetzten Suchmaschinenplattform SOLR. Weiter werden verschiedene neue Möglichkeiten für Rankinganpassungen unter SOLR sowie deren Einsatz im HEIDI-Katalog dargestellt.
Stock, M.; Stock, W.G.: Internet-Suchwerkzeuge im Vergleich (IV) : Relevance Ranking nach "Popularität" von Webseiten: Google (2001) 0.02
```
0.01801833 = product of:
  0.054054987 = sum of:
    0.054054987 = weight(_text_:im in 5771) [ClassicSimilarity], result of:
      0.054054987 = score(doc=5771,freq=8.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.37478244 = fieldWeight in 5771, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.046875 = fieldNorm(doc=5771)
  0.33333334 = coord(1/3)
```
Abstract

In unserem Retrievaltest von Suchwerkzeugen im World Wide Web (Password 11/2000) schnitt die Suchmaschine Google am besten ab. Im Vergleich zu anderen Search Engines setzt Google kaum auf Informationslinguistik, sondern auf Algorithmen, die sich aus den Besonderheiten der Web-Dokumente ableiten lassen. Kernstück der informationsstatistischen Technik ist das "PageRank"- Verfahren (benannt nach dem Entwickler Larry Page), das aus der Hypertextstruktur des Web die "Popularität" von Seiten anhand ihrer ein- und ausgehenden Links berechnet. Google besticht durch das Angebot intuitiv verstehbarer Suchbildschirme sowie durch einige sehr nützliche "Kleinigkeiten" wie die Angabe des Rangs einer Seite, Highlighting, Suchen in der Seite, Suchen innerhalb eines Suchergebnisses usw., alles verstaut in einer eigenen Befehlsleiste innerhalb des Browsers. Ähnlich wie RealNames bietet Google mit dem Produkt "AdWords" den Aufkauf von Suchtermen an. Nach einer Reihe von nunmehr vier Password-Artikeln über InternetSuchwerkzeugen im Vergleich wollen wir abschließend zu einer Bewertung kommen. Wie ist der Stand der Technik bei Directories und Search Engines aus informationswissenschaftlicher Sicht einzuschätzen? Werden die "typischen" Internetnutzer, die ja in der Regel keine Information Professionals sind, adäquat bedient? Und können auch Informationsfachleute von den Suchwerkzeugen profitieren?

Koopman, R.: ¬Ein OPAC mit Gewichtungsalgorithmen : Der PICA Micro OPC (1996) 0.02

0.015015274 = product of:
  0.045045823 = sum of:
    0.045045823 = weight(_text_:im in 4114) [ClassicSimilarity], result of:
      0.045045823 = score(doc=4114,freq=2.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.3123187 = fieldWeight in 4114, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.078125 = fieldNorm(doc=4114)
  0.33333334 = coord(1/3)

Source: Zukunft der Sacherschließung im OPAC: Vorträge des 2. Düsseldorfer OPAC-Kolloquiums am 21. Juni 1995. Hrsg.: E. Niggemann u. K. Lepsky

Hüther, H.: Selix im DFG-Projekt Kascade (1998) 0.02

0.015015274 = product of:
  0.045045823 = sum of:
    0.045045823 = weight(_text_:im in 5151) [ClassicSimilarity], result of:
      0.045045823 = score(doc=5151,freq=2.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.3123187 = fieldWeight in 5151, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.078125 = fieldNorm(doc=5151)
  0.33333334 = coord(1/3)

Weinstein, A.: Hochprozentig : Tipps and tricks für ein Top-Ranking (2002) 0.02

0.015015274 = product of:
  0.045045823 = sum of:
    0.045045823 = weight(_text_:im in 1083) [ClassicSimilarity], result of:
      0.045045823 = score(doc=1083,freq=2.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.3123187 = fieldWeight in 1083, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.078125 = fieldNorm(doc=1083)
  0.33333334 = coord(1/3)

Abstract: Die Suchmaschinen haben in den letzten Monaten an ihren Ranking-Algorithmen gefeilt, um Spamern das Handwerk zu erschweren. Internet Pro beleuchtet die Trends im Suchmaschinen-Marketing

Lanvent, A.: Praxis - Windows-Suche und Indexdienst : Auch Windows kann bei der Suche den Turbo einlegen: mit dem Indexdienst (2004) 0.02
```
0.015015274 = product of:
  0.045045823 = sum of:
    0.045045823 = weight(_text_:im in 3316) [ClassicSimilarity], result of:
      0.045045823 = score(doc=3316,freq=8.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.3123187 = fieldWeight in 3316, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0390625 = fieldNorm(doc=3316)
  0.33333334 = coord(1/3)
```
Content

"Für eine 4-GByte-Festplatte mit mehreren Partitionen sucht Windows XP im Volltextmodus weit über zwei Stunden. Der Indexdienst verkürzt diese Recherchedauer drastisch um mehr als eine Stunde. Im Gegensatz zu den Indizes der kommerziellen Suchwerkzeuge erfasst der Windows-Indexdienst nur Text-, HTML- und OfficeDateien über entsprechend integrierte Dokumentfilter. Da er weder ZIP-Files noch PDFs erkennt und auch keine E-Mails scannt, ist er mit komplexen Anfragen schnell überfordert. Standardmäßig ist der Indexdienst zwar installiert, aber nicht aktiviert. Das erledigt der Anwender über Start/Arbeitsplatz und den Befehl Verwalten aus dem Kontextmenü. In der Computerverwaltung aktiviert der Benutzer den Eintrag Indexdienst und wählt Starten aus dem Kontextmenü. Die zu indizierenden Elemente verwaltet Windows über so genannte Kataloge, mit deren Hilfe der User bestimmt, welche Dateitypen aus welchen Ordnern indiziert werden sollen. Zwar kann der Anwender neben dem Katalog System weitere Kataloge einrichten. Ausreichend ist es aber in den meisten Fällen, dem Katalog System weitere Indizierungsordner über die Befehle Neu/Verzeichnis hinzuzufügen. Klickt der Benutzer dann einen der Indizierungsordner mit der rechten Maustaste an und wählt Alle Tasks/Erneut prüfen (Vollständig), beginnt der mitunter langwierige Indizierungsprozess. Über den Eigenschaften-Dialog lässt sich allerdings der Leistungsverbrauch drosseln. Eine inkrementelle Indizierung, bei der Windows nur neue Elemente im jeweiligen Verzeichnis unter die Lupe nimmt, erreicht der Nutzer über Alle Tasks/Erneut prüfen (inkrementell). Einschalten lässt sich der Indexdienst auch über die Eigenschaften eines Ordners und den Befehl Erweitert/ln-halt für schnelle Dateisuche indizieren. Auskunft über die dem Indexdienst zugeordneten Ordner und Laufwerke erhalten Sie, wenn Sie die WindowsSuche starten und Weitere Optionen/ Andere Suchoptionen/Bevorzugte Einstellungen ändern/Indexdienst verwenden anklicken."

Footnote

Teilbeitrag in: Licht im Daten Chaos
Fichtner, K.: Boyer-Moore Suchalgorithmus (2005) 0.01
```
0.012740883 = product of:
  0.03822265 = sum of:
    0.03822265 = weight(_text_:im in 864) [ClassicSimilarity], result of:
      0.03822265 = score(doc=864,freq=4.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.26501122 = fieldWeight in 864, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.046875 = fieldNorm(doc=864)
  0.33333334 = coord(1/3)
```
Abstract

Die Masse der Suchalgorithmen lässt sich in zwei grundlegend verschiedene Teilbereiche untergliedern. Auf der einen Seite stehen Algorithmen, die auf komplexen Datenstrukturen (häufig baumartig) ganze Datensätze unter Verwendung eines Indizes finden. Als geläufiger Vertreter sei hier die binäre Suche auf sortierten Arrays oder in binären Bäumen genannt. Die andere Gruppe, der sich diese Ausarbeitung widmet, dient dazu, Entsprechungen von Mustern in gegebenen Zeichenketten zu finden. Auf den folgenden Seiten werden nun zunächst einige Begriffe eingeführt, die für das weitere Verständnis und einen Vergleich verschiedener Suchalgorithmen nötig sind. Weiterhin wird ein naiver Suchalgorithmus dargestellt und mit der Idee von Boyer und Moore verglichen. Hierzu wird ihr Algorithmus zunächst informal beschrieben, dann mit Blick auf eine Implementation näher erläutert und anschließend einer Effizienzanalyse - sowohl empirisch als auch theoretisch - unterzogen. Abschließend findet eine kurze Bewertung mit Bezug auf Schwachstellen, Vorzüge und Verbesserungsmöglichkeiten statt, im Zuge derer einige prominente Modifikationen des Boyer-Moore Algorithmus vorgestellt werden.

Content

Ausarbeitung im Rahmen des Seminars Suchmaschinen und Suchalgorithmen, Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft, Westfälische Wilhelms-Universität Münster. - Vgl.: http://www-wi.uni-muenster.de/pi/lehre/ss05/seminarSuchen/Ausarbeitungen/KristoferFichtner.pdf

Chakrabarti, S.; Dom, B.; Kumar, S.R.; Raghavan, P.; Rajagopalan, S.; Tomkins, A.; Kleinberg, J.M.; Gibson, D.: Neue Pfade durch den Internet-Dschungel : Die zweite Generation von Web-Suchmaschinen (1999) 0.01

0.01201222 = product of:
  0.03603666 = sum of:
    0.03603666 = weight(_text_:im in 3) [ClassicSimilarity], result of:
      0.03603666 = score(doc=3,freq=2.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.24985497 = fieldWeight in 3, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0625 = fieldNorm(doc=3)
  0.33333334 = coord(1/3)

Abstract: Die im WWW verfügbare Datenmenge wächst mit atemberaubender Geschwindigkeit; entsprechend schwieriger wird es, relevante Informationen zu finden. ein neues Analyseverfahren stellt nahezu automatische Abhilfe in Aussicht

Search (35 results, page 1 of 2)

Authors

Years

Types

Themes