Search (1 results, page 1 of 1)

  • × subject_ss:"Online-Katalog / Automatische Indexierung / Inhaltsverzeichnis / Scanning / Information Retrieval / Projekt"
  • × theme_ss:"Retrievalstudien"
  1. Lohmann, H.: KASCADE: Dokumentanreicherung und automatische Inhaltserschließung : Projektbericht und Ergebnisse des Retrievaltests (2000) 0.02
    0.018103525 = product of:
      0.03620705 = sum of:
        0.03620705 = product of:
          0.0724141 = sum of:
            0.0724141 = weight(_text_:dokumente in 494) [ClassicSimilarity], result of:
              0.0724141 = score(doc=494,freq=4.0), product of:
                0.25999573 = queryWeight, product of:
                  5.092943 = idf(docFreq=737, maxDocs=44218)
                  0.05105019 = queryNorm
                0.27852035 = fieldWeight in 494, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  5.092943 = idf(docFreq=737, maxDocs=44218)
                  0.02734375 = fieldNorm(doc=494)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Abstract
    Verbesserungen des Gewichtungsverfahrens sollten schließlich unterstützt werden durch Maßnahmen zur Optimierung der Retrievalumgebung, etwa durch - den Einsatz von Hypertextwerkzeugen; - die Integration der THEAS-Komponente, mit der die automatische Mehrwortgruppengewinnung mit Hilfe eines Mehrwortgruppen-Parsers möglich ist; dies könnte im Rahmen der Dialogführung mit dem Nutzer eingesetzt werden, wenn dieser Teilkomponenten solcher Mehrwortgruppen im Retrieval verwendet. Mit THEAS wäre daneben der Einstieg in das Retrieval über das Register mit kanonischen Formen möglich; - die Integration von Wörterbuchfunktionen zur Benutzerunterstützung. Eine Weiterentwicklung des SELIX-Verfahrens könnte daneben in diese Richtungen erfolgen: - Bildung von Dokument-Clustern. Dabei werden Dokumente in einem Dokumenten-Raum einander in dem Maße zugeordnet, in dem ihre selektierten Grundformen übereinstimmen. - Errichtung von statistisch basierten semantischen Netzen, in denen Grundformen einander in einem Begriffs-Raum in dem Maße zugeordnet werden, in dem sie "gemeinsam" in Dokumenten auftreten.
    Da sich mit jedem Dokument, das zu dem im Gewichtungsverfahren befindlichen Gesamtbestand hinzukommt, die Werte aller bereits gewichteten Deskriptoren ändern können, müsste die Berechnung der Häufigkeitsverteilung jeder Grundform im Prinzip nach jeder Änderung im Dokumentbestand neu berechnet werden. Eine Online-Aktualisierung des Bestandes erscheint daher wenig sinnvoll. In der Praxis könnte eine Neuberechnung in bestimmten zeitlichen Abständen mit einem Abzug des OPAC-Bestandes unabhängig vom eigentlichen Betrieb des OPAC erfolgen, was auch insofern genügen würde, als die zugrunde liegenden Maße auf relativen Häufigkeiten basieren. Dadurch würde nur ein geringer Verzug in der Bereitstellung der aktuellen Gewichte eintreten. Außerdem würde der Zeitfaktor eine nur untergeordnete Rolle spielen, da ein offline ablaufender Gewichtungslauf erst bis zum nächsten Aktualisierungszeitpunkt abgeschlossen sein müsste. Denkbar wäre zusätzlich, für die Zeit zwischen zwei Aktualisierungen des OPACs für die in den Neuzugängen enthaltenen Begriffe Standardgewichte einzusetzen, soweit diese Begriffe bereits in dem Bestand auftreten. Bei entsprechender Optimierung und Rationalisierung der SELIX-Verfahrensabläufe, Nutzung der Gewichte auf der Retrievalseite für ein Ranking der auszugebenden Dokumente und Integration der THEAS-Komponente kann das Verfahren zu einem wirkungsvollen Instrument zur Verbesserung der Retrievaleffektivität weiterentwickelt werden.