Search (38 results, page 1 of 2)

  • × year_i:[2000 TO 2010}
  • × theme_ss:"Retrievalstudien"
  1. Binder, G.; Stahl, M.; Faulborn, L.: Vergleichsuntersuchung MESSENGER-FULCRUM (2000) 0.03
    0.03271068 = product of:
      0.06542136 = sum of:
        0.053477753 = weight(_text_:l in 4885) [ClassicSimilarity], result of:
          0.053477753 = score(doc=4885,freq=2.0), product of:
            0.17396861 = queryWeight, product of:
              3.9746525 = idf(docFreq=2257, maxDocs=44218)
              0.043769516 = queryNorm
            0.30739886 = fieldWeight in 4885, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.9746525 = idf(docFreq=2257, maxDocs=44218)
              0.0546875 = fieldNorm(doc=4885)
        0.011943607 = product of:
          0.023887213 = sum of:
            0.023887213 = weight(_text_:der in 4885) [ClassicSimilarity], result of:
              0.023887213 = score(doc=4885,freq=4.0), product of:
                0.09777089 = queryWeight, product of:
                  2.2337668 = idf(docFreq=12875, maxDocs=44218)
                  0.043769516 = queryNorm
                0.24431825 = fieldWeight in 4885, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  2.2337668 = idf(docFreq=12875, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=4885)
          0.5 = coord(1/2)
      0.5 = coord(2/4)
    
    Abstract
    In einem Benutzertest, der im Rahmen der Projektes GIRT stattfand, wurde die Leistungsfähigkeit zweier Retrievalsprachen für die Datenbankrecherche überprüft. Die Ergebnisse werden in diesem Bericht dargestellt: Das System FULCRUM beruht auf automatischer Indexierung und liefert ein nach statistischer Relevanz sortiertes Suchergebnis. Die Standardfreitextsuche des Systems MESSENGER wurde um die intellektuell vom IZ vergebenen Deskriptoren ergänzt. Die Ergebnisse zeigen, dass in FULCRUM das Boole'sche Exakt-Match-Retrieval dem Verktos-Space-Modell (Best-Match-Verfahren) von den Versuchspersonen vorgezogen wurde. Die in MESSENGER realisierte Mischform aus intellektueller und automatischer Indexierung erwies sich gegenüber dem quantitativ-statistischen Ansatz beim Recall als überlegen
  2. Kwok, K.-L.: Ten years of ad hoc retrieval at TREC using PIRCS (2005) 0.02
    0.022919035 = product of:
      0.09167614 = sum of:
        0.09167614 = weight(_text_:l in 5090) [ClassicSimilarity], result of:
          0.09167614 = score(doc=5090,freq=2.0), product of:
            0.17396861 = queryWeight, product of:
              3.9746525 = idf(docFreq=2257, maxDocs=44218)
              0.043769516 = queryNorm
            0.52696943 = fieldWeight in 5090, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.9746525 = idf(docFreq=2257, maxDocs=44218)
              0.09375 = fieldNorm(doc=5090)
      0.25 = coord(1/4)
    
  3. Abdou, S.; Savoy, J.: Searching in Medline : query expansion and manual indexing evaluation (2008) 0.02
    0.02255825 = product of:
      0.090233 = sum of:
        0.090233 = weight(_text_:van in 2062) [ClassicSimilarity], result of:
          0.090233 = score(doc=2062,freq=2.0), product of:
            0.24408463 = queryWeight, product of:
              5.5765896 = idf(docFreq=454, maxDocs=44218)
              0.043769516 = queryNorm
            0.36967915 = fieldWeight in 2062, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.5765896 = idf(docFreq=454, maxDocs=44218)
              0.046875 = fieldNorm(doc=2062)
      0.25 = coord(1/4)
    
    Abstract
    Based on a relatively large subset representing one third of the Medline collection, this paper evaluates ten different IR models, including recent developments in both probabilistic and language models. We show that the best performing IR models is a probabilistic model developed within the Divergence from Randomness framework [Amati, G., & van Rijsbergen, C.J. (2002) Probabilistic models of information retrieval based on measuring the divergence from randomness. ACM-Transactions on Information Systems 20(4), 357-389], which result in 170% enhancements in mean average precision when compared to the classical tf idf vector-space model. This paper also reports on our impact evaluations on the retrieval effectiveness of manually assigned descriptors (MeSH or Medical Subject Headings), showing that by including these terms retrieval performance can improve from 2.4% to 13.5%, depending on the underling IR model. Finally, we design a new general blind-query expansion approach showing improved retrieval performances compared to those obtained using the Rocchio approach.
  4. Ruthven, I.; Lalmas, M.; Rijsbergen, K. van: Combining and selecting characteristics of information use (2002) 0.02
    0.021268122 = product of:
      0.08507249 = sum of:
        0.08507249 = weight(_text_:van in 5208) [ClassicSimilarity], result of:
          0.08507249 = score(doc=5208,freq=4.0), product of:
            0.24408463 = queryWeight, product of:
              5.5765896 = idf(docFreq=454, maxDocs=44218)
              0.043769516 = queryNorm
            0.34853685 = fieldWeight in 5208, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              5.5765896 = idf(docFreq=454, maxDocs=44218)
              0.03125 = fieldNorm(doc=5208)
      0.25 = coord(1/4)
    
    Abstract
    Ruthven, Lalmas, and van Rijsbergen use traditional term importance measures like inverse document frequency, noise, based upon in-document frequency, and term frequency supplemented by theme value which is calculated from differences of expected positions of words in a text from their actual positions, on the assumption that even distribution indicates term association with a main topic, and context, which is based on a query term's distance from the nearest other query term relative to the average expected distribution of all query terms in the document. They then define document characteristics like specificity, the sum of all idf values in a document over the total terms in the document, or document complexity, measured by the documents average idf value; and information to noise ratio, info-noise, tokens after stopping and stemming over tokens before these processes, measuring the ratio of useful and non-useful information in a document. Retrieval tests are then carried out using each characteristic, combinations of the characteristics, and relevance feedback to determine the correct combination of characteristics. A file ranks independently of query terms by both specificity and info-noise, but if presence of a query term is required unique rankings are generated. Tested on five standard collections the traditional characteristics out preformed the new characteristics, which did, however, out preform random retrieval. All possible combinations of characteristics were also tested both with and without a set of scaling weights applied. All characteristics can benefit by combination with another characteristic or set of characteristics and performance as a single characteristic is a good indicator of performance in combination. Larger combinations tended to be more effective than smaller ones and weighting increased precision measures of middle ranking combinations but decreased the ranking of poorer combinations. The best combinations vary for each collection, and in some collections with the addition of weighting. Finally, with all documents ranked by the all characteristics combination, they take the top 30 documents and calculate the characteristic scores for each term in both the relevant and the non-relevant sets. Then taking for each query term the characteristics whose average was higher for relevant than non-relevant documents the documents are re-ranked. The relevance feedback method of selecting characteristics can select a good set of characteristics for query terms.
  5. Fan, W.; Luo, M.; Wang, L.; Xi, W.; Fox, E.A.: Tuning before feedback : combining ranking discovery and blind feedback for robust retrieval (2004) 0.02
    0.019099196 = product of:
      0.076396786 = sum of:
        0.076396786 = weight(_text_:l in 4052) [ClassicSimilarity], result of:
          0.076396786 = score(doc=4052,freq=2.0), product of:
            0.17396861 = queryWeight, product of:
              3.9746525 = idf(docFreq=2257, maxDocs=44218)
              0.043769516 = queryNorm
            0.4391412 = fieldWeight in 4052, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.9746525 = idf(docFreq=2257, maxDocs=44218)
              0.078125 = fieldNorm(doc=4052)
      0.25 = coord(1/4)
    
  6. Dresel, R.; Hörnig, D.; Kaluza, H.; Peter, A.; Roßmann, A.; Sieber, W.: Evaluation deutscher Web-Suchwerkzeuge : Ein vergleichender Retrievaltest (2001) 0.02
    0.016686276 = product of:
      0.0667451 = sum of:
        0.0667451 = sum of:
          0.019303782 = weight(_text_:der in 261) [ClassicSimilarity], result of:
            0.019303782 = score(doc=261,freq=2.0), product of:
              0.09777089 = queryWeight, product of:
                2.2337668 = idf(docFreq=12875, maxDocs=44218)
                0.043769516 = queryNorm
              0.19743896 = fieldWeight in 261, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                2.2337668 = idf(docFreq=12875, maxDocs=44218)
                0.0625 = fieldNorm(doc=261)
          0.047441322 = weight(_text_:22 in 261) [ClassicSimilarity], result of:
            0.047441322 = score(doc=261,freq=2.0), product of:
              0.15327339 = queryWeight, product of:
                3.5018296 = idf(docFreq=3622, maxDocs=44218)
                0.043769516 = queryNorm
              0.30952093 = fieldWeight in 261, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                3.5018296 = idf(docFreq=3622, maxDocs=44218)
                0.0625 = fieldNorm(doc=261)
      0.25 = coord(1/4)
    
    Abstract
    Die deutschen Suchmaschinen, Abacho, Acoon, Fireball und Lycos sowie die Web-Kataloge Web.de und Yahoo! werden einem Qualitätstest nach relativem Recall, Precision und Availability unterzogen. Die Methoden der Retrievaltests werden vorgestellt. Im Durchschnitt werden bei einem Cut-Off-Wert von 25 ein Recall von rund 22%, eine Precision von knapp 19% und eine Verfügbarkeit von 24% erreicht
  7. Ahlgren, P.; Grönqvist, L.: Evaluation of retrieval effectiveness with incomplete relevance data : theoretical and experimental comparison of three measures (2008) 0.01
    0.013369438 = product of:
      0.053477753 = sum of:
        0.053477753 = weight(_text_:l in 2032) [ClassicSimilarity], result of:
          0.053477753 = score(doc=2032,freq=2.0), product of:
            0.17396861 = queryWeight, product of:
              3.9746525 = idf(docFreq=2257, maxDocs=44218)
              0.043769516 = queryNorm
            0.30739886 = fieldWeight in 2032, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.9746525 = idf(docFreq=2257, maxDocs=44218)
              0.0546875 = fieldNorm(doc=2032)
      0.25 = coord(1/4)
    
  8. Ferret, O.; Grau, B.; Hurault-Plantet, M.; Illouz, G.; Jacquemin, C.; Monceaux, L.; Robba, I.; Vilnat, A.: How NLP can improve question answering (2002) 0.01
    0.011459517 = product of:
      0.04583807 = sum of:
        0.04583807 = weight(_text_:l in 1850) [ClassicSimilarity], result of:
          0.04583807 = score(doc=1850,freq=2.0), product of:
            0.17396861 = queryWeight, product of:
              3.9746525 = idf(docFreq=2257, maxDocs=44218)
              0.043769516 = queryNorm
            0.26348472 = fieldWeight in 1850, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.9746525 = idf(docFreq=2257, maxDocs=44218)
              0.046875 = fieldNorm(doc=1850)
      0.25 = coord(1/4)
    
  9. Baillie, M.; Azzopardi, L.; Ruthven, I.: Evaluating epistemic uncertainty under incomplete assessments (2008) 0.01
    0.011459517 = product of:
      0.04583807 = sum of:
        0.04583807 = weight(_text_:l in 2065) [ClassicSimilarity], result of:
          0.04583807 = score(doc=2065,freq=2.0), product of:
            0.17396861 = queryWeight, product of:
              3.9746525 = idf(docFreq=2257, maxDocs=44218)
              0.043769516 = queryNorm
            0.26348472 = fieldWeight in 2065, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.9746525 = idf(docFreq=2257, maxDocs=44218)
              0.046875 = fieldNorm(doc=2065)
      0.25 = coord(1/4)
    
  10. Voorhees, E.M.; Harman, D.: Overview of the Sixth Text REtrieval Conference (TREC-6) (2000) 0.01
    0.010377789 = product of:
      0.041511156 = sum of:
        0.041511156 = product of:
          0.08302231 = sum of:
            0.08302231 = weight(_text_:22 in 6438) [ClassicSimilarity], result of:
              0.08302231 = score(doc=6438,freq=2.0), product of:
                0.15327339 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.043769516 = queryNorm
                0.5416616 = fieldWeight in 6438, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.109375 = fieldNorm(doc=6438)
          0.5 = coord(1/2)
      0.25 = coord(1/4)
    
    Date
    11. 8.2001 16:22:19
  11. Fraser, L.; Locatis, C.: Effects of link annotations on search performance in layered and unlayered hierarchically organized information spaces (2001) 0.01
    0.009549598 = product of:
      0.038198393 = sum of:
        0.038198393 = weight(_text_:l in 6937) [ClassicSimilarity], result of:
          0.038198393 = score(doc=6937,freq=2.0), product of:
            0.17396861 = queryWeight, product of:
              3.9746525 = idf(docFreq=2257, maxDocs=44218)
              0.043769516 = queryNorm
            0.2195706 = fieldWeight in 6937, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.9746525 = idf(docFreq=2257, maxDocs=44218)
              0.0390625 = fieldNorm(doc=6937)
      0.25 = coord(1/4)
    
  12. Mielke, B.: Wider einige gängige Ansichten zur juristischen Informationserschließung (2002) 0.01
    0.0067713875 = product of:
      0.02708555 = sum of:
        0.02708555 = product of:
          0.0541711 = sum of:
            0.0541711 = weight(_text_:der in 2145) [ClassicSimilarity], result of:
              0.0541711 = score(doc=2145,freq=28.0), product of:
                0.09777089 = queryWeight, product of:
                  2.2337668 = idf(docFreq=12875, maxDocs=44218)
                  0.043769516 = queryNorm
                0.55406165 = fieldWeight in 2145, product of:
                  5.2915025 = tf(freq=28.0), with freq of:
                    28.0 = termFreq=28.0
                  2.2337668 = idf(docFreq=12875, maxDocs=44218)
                  0.046875 = fieldNorm(doc=2145)
          0.5 = coord(1/2)
      0.25 = coord(1/4)
    
    Abstract
    Ausgehend von einer Betrachtung in der Rechtsinformatik geläufiger Annahmen zur juristischen Informationserschließung beschreibt der Beitrag wesentliche Ergebnisse einer empirischen Studie der Retrievaleffektivität von Re-cherchen in juristischen Datenbanken. Dabei steht die Frage nach der Notwendigkeit einer intellektuellen Erschließung einerseits, der Effektivität der sogenannten Stichwortsuche andererseits im Mittelpunkt. Die Ergebnisse der Studie, bei der auch ein Vergleich zwischen einem Informationssystem auf der Basis eines Booleschen Retrievalmodells mit einem System auf der Basis statistischer Verfahren vorgenommen wurde, legen den Schluss nahe, dass in der rechtsinformatischen Fachliteratur analytisch begründete Annahmen wie die Gefahr zu großer Antwortmengen bei der Stichwortsuche empirisch nicht zu belegen sind. Auch zeigt sich keine Überlegenheit intellektueller Erschließungsverfahren (Beschlagwortung) gegenüber der automatischen Indexierung, im Gegenteil führt der Einsatz eines statistischen Verfahrens bei identischer Dokumentkollektion zu einer höheren Wiedergewinnungsrate (recall).
  13. TREC: experiment and evaluation in information retrieval (2005) 0.01
    0.0067525855 = product of:
      0.027010342 = sum of:
        0.027010342 = weight(_text_:l in 636) [ClassicSimilarity], result of:
          0.027010342 = score(doc=636,freq=4.0), product of:
            0.17396861 = queryWeight, product of:
              3.9746525 = idf(docFreq=2257, maxDocs=44218)
              0.043769516 = queryNorm
            0.15525986 = fieldWeight in 636, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.9746525 = idf(docFreq=2257, maxDocs=44218)
              0.01953125 = fieldNorm(doc=636)
      0.25 = coord(1/4)
    
    Content
    Enthält die Beiträge: 1. The Text REtrieval Conference - Ellen M. Voorhees and Donna K. Harman 2. The TREC Test Collections - Donna K. Harman 3. Retrieval System Evaluation - Chris Buckley and Ellen M. Voorhees 4. The TREC Ad Hoc Experiments - Donna K. Harman 5. Routing and Filtering - Stephen Robertson and Jamie Callan 6. The TREC Interactive Tracks: Putting the User into Search - Susan T. Dumais and Nicholas J. Belkin 7. Beyond English - Donna K. Harman 8. Retrieving Noisy Text - Ellen M. Voorhees and John S. Garofolo 9.The Very Large Collection and Web Tracks - David Hawking and Nick Craswell 10. Question Answering in TREC - Ellen M. Voorhees 11. The University of Massachusetts and a Dozen TRECs - James Allan, W. Bruce Croft and Jamie Callan 12. How Okapi Came to TREC - Stephen Robertson 13. The SMART Project at TREC - Chris Buckley 14. Ten Years of Ad Hoc Retrieval at TREC Using PIRCS - Kui-Lam Kwok 15. MultiText Experiments for TREC - Gordon V. Cormack, Charles L. A. Clarke, Christopher R. Palmer and Thomas R. Lynam 16. A Language-Modeling Approach to TREC - Djoerd Hiemstra and Wessel Kraaij 17. BM Research Activities at TREC - Eric W. Brown, David Carmel, Martin Franz, Abraham Ittycheriah, Tapas Kanungo, Yoelle Maarek, J. Scott McCarley, Robert L. Mack, John M. Prager, John R. Smith, Aya Soffer, Jason Y. Zien and Alan D. Marwick Epilogue: Metareflections on TREC - Karen Sparck Jones
  14. Fugmann, R.: ¬Das Faule Ei des Kolumbus im Aslib-Cranfield Vergleich von Informationssystemen : Die erneute Betrachtung eines einflussreichen Experiments (2004) 0.01
    0.0063340543 = product of:
      0.025336217 = sum of:
        0.025336217 = product of:
          0.050672434 = sum of:
            0.050672434 = weight(_text_:der in 2364) [ClassicSimilarity], result of:
              0.050672434 = score(doc=2364,freq=18.0), product of:
                0.09777089 = queryWeight, product of:
                  2.2337668 = idf(docFreq=12875, maxDocs=44218)
                  0.043769516 = queryNorm
                0.5182773 = fieldWeight in 2364, product of:
                  4.2426405 = tf(freq=18.0), with freq of:
                    18.0 = termFreq=18.0
                  2.2337668 = idf(docFreq=12875, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=2364)
          0.5 = coord(1/2)
      0.25 = coord(1/4)
    
    Abstract
    Der Beitrag gibt einen kritischen Rückblick auf die Experimente des ASLIB-CranfieldProjekts, mit dem die Leistungsfähigkeit verschiedenere Methoden der Inhaltserschließung verglichen wurden. Bemängelt wird die fehlende Unterscheidung zwischen Erinnerungsrecherche und Entdeckungsrecherche sowie die Wirklichkeitsferne der Versuchsbedingungen im ASLIB-Cranfield Projekt insbesondere Abwertung der Indexierung, Wirklichkeitsferne der Suchziele, die Empfehlung zum oberflächlichen Indexieren, die vermeintliche "gesetzmäßige Umkehrrelation" zwischen Ballast und Verlust sowie die Geringschätzung von Informationsverlust. Der Autor plädiert dafür, bei der Weiterentwicklung von Methoden der Inhaltserschließung die Erfahrungen aus der Vergangenheit nicht außer Acht zu lassen.
  15. ¬The Eleventh Text Retrieval Conference, TREC 2002 (2003) 0.01
    0.0059301653 = product of:
      0.023720661 = sum of:
        0.023720661 = product of:
          0.047441322 = sum of:
            0.047441322 = weight(_text_:22 in 4049) [ClassicSimilarity], result of:
              0.047441322 = score(doc=4049,freq=2.0), product of:
                0.15327339 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.043769516 = queryNorm
                0.30952093 = fieldWeight in 4049, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.0625 = fieldNorm(doc=4049)
          0.5 = coord(1/2)
      0.25 = coord(1/4)
    
    Abstract
    Proceedings of the llth TREC-conference held in Gaithersburg, Maryland (USA), November 19-22, 2002. Aim of the conference was discussion an retrieval and related information-seeking tasks for large test collection. 93 research groups used different techniques, for information retrieval from the same large database. This procedure makes it possible to compare the results. The tasks are: Cross-language searching, filtering, interactive searching, searching for novelty, question answering, searching for video shots, and Web searching.
  16. Lohmann, H.: KASCADE: Dokumentanreicherung und automatische Inhaltserschließung : Projektbericht und Ergebnisse des Retrievaltests (2000) 0.01
    0.005684987 = product of:
      0.022739949 = sum of:
        0.022739949 = product of:
          0.045479897 = sum of:
            0.045479897 = weight(_text_:der in 494) [ClassicSimilarity], result of:
              0.045479897 = score(doc=494,freq=58.0), product of:
                0.09777089 = queryWeight, product of:
                  2.2337668 = idf(docFreq=12875, maxDocs=44218)
                  0.043769516 = queryNorm
                0.4651681 = fieldWeight in 494, product of:
                  7.615773 = tf(freq=58.0), with freq of:
                    58.0 = termFreq=58.0
                  2.2337668 = idf(docFreq=12875, maxDocs=44218)
                  0.02734375 = fieldNorm(doc=494)
          0.5 = coord(1/2)
      0.25 = coord(1/4)
    
    Abstract
    Der Test hat gezeigt, dass die Ergänzung der bibliothekarischen Titelaufnahme um zusätzliche inhaltsrelevante Daten zu einer beeindruckenden Verbesserung der Suchergebnisse führt. Die Dokumentanreicherung sollte daher als Ziel bibliothekarischer Bemühungen um eine Verbesserung des OPAC-Retrievals weiterverfolgt werden. Der im Projekt eingeschlagene Weg, die Inhaltsverzeichnisse zu scannen, erwies sich allerdings als wenig sinnvoll. Zwar erzielte das Scanningverfahren gute Ergebnisse, auch arbeitete die Texterkennungssoftware sehr zuverlässig. Das Scanning bietet darüber hinaus die Möglichkeit, die dabei angefertigte Grafik-Datei mit dem Titelsatz im OPAC zu verknüpfen und so dem Nutzer als Entscheidungshilfe bei der Ergebnismengenbeurteilung an die Hand zu geben. Die Arbeiten am Aufbau der Testdatenbank brachten aber die Erkenntnis, dass die Anreicherung im Wege des Scanning technisch außerordentlich problematisch ist und einen nicht vorauszusehenden und letztlich auch nicht zu rechtfertigenden Aufwand erfordert. Diese Methode der Anreicherung kann daher für einen Praxiseinsatz nicht empfohlen werden.
    Verbesserungen des Gewichtungsverfahrens sollten schließlich unterstützt werden durch Maßnahmen zur Optimierung der Retrievalumgebung, etwa durch - den Einsatz von Hypertextwerkzeugen; - die Integration der THEAS-Komponente, mit der die automatische Mehrwortgruppengewinnung mit Hilfe eines Mehrwortgruppen-Parsers möglich ist; dies könnte im Rahmen der Dialogführung mit dem Nutzer eingesetzt werden, wenn dieser Teilkomponenten solcher Mehrwortgruppen im Retrieval verwendet. Mit THEAS wäre daneben der Einstieg in das Retrieval über das Register mit kanonischen Formen möglich; - die Integration von Wörterbuchfunktionen zur Benutzerunterstützung. Eine Weiterentwicklung des SELIX-Verfahrens könnte daneben in diese Richtungen erfolgen: - Bildung von Dokument-Clustern. Dabei werden Dokumente in einem Dokumenten-Raum einander in dem Maße zugeordnet, in dem ihre selektierten Grundformen übereinstimmen. - Errichtung von statistisch basierten semantischen Netzen, in denen Grundformen einander in einem Begriffs-Raum in dem Maße zugeordnet werden, in dem sie "gemeinsam" in Dokumenten auftreten.
    Abgesehen von diesen Überlegungen müssten für einen praktischen Einsatz der KASCADE-Entwicklungen weitere Voraussetzungen geschaffen werden. Erforderlich wäre zunächst die Optimierung und Rationalisierung der Verfahrensabläufe selbst. Die Teilprogramme unter KasKoll sollten in ein kompaktes Programm integriert werden. Die Sortiervorgänge könnten vereinfacht werden, indem die Deskriptoren in eine relationale Datenbank überführt werden. Letztendlich wirken sich diese Punkte aber vor allem auf die Dauer der Maschinenlaufzeiten aus, die bei der Frage nach den Implementierungskosten letztlich nur eine untergeordnete Rolle spielen. Optimiert werden sollte die Oberfläche zur Steuerung des Verfahrens. Bereits jetzt laufen einige der Programme unter einer menügeführten Windows-Schnittstelle (Kasadew) ab, was für alle Verfahrensteile erreicht werden sollte. Schließlich ist zu klären, unter welchen Bedingungen das Gewichtungsverfahren im Praxisbetrieb ablaufen kann.
    Da sich mit jedem Dokument, das zu dem im Gewichtungsverfahren befindlichen Gesamtbestand hinzukommt, die Werte aller bereits gewichteten Deskriptoren ändern können, müsste die Berechnung der Häufigkeitsverteilung jeder Grundform im Prinzip nach jeder Änderung im Dokumentbestand neu berechnet werden. Eine Online-Aktualisierung des Bestandes erscheint daher wenig sinnvoll. In der Praxis könnte eine Neuberechnung in bestimmten zeitlichen Abständen mit einem Abzug des OPAC-Bestandes unabhängig vom eigentlichen Betrieb des OPAC erfolgen, was auch insofern genügen würde, als die zugrunde liegenden Maße auf relativen Häufigkeiten basieren. Dadurch würde nur ein geringer Verzug in der Bereitstellung der aktuellen Gewichte eintreten. Außerdem würde der Zeitfaktor eine nur untergeordnete Rolle spielen, da ein offline ablaufender Gewichtungslauf erst bis zum nächsten Aktualisierungszeitpunkt abgeschlossen sein müsste. Denkbar wäre zusätzlich, für die Zeit zwischen zwei Aktualisierungen des OPACs für die in den Neuzugängen enthaltenen Begriffe Standardgewichte einzusetzen, soweit diese Begriffe bereits in dem Bestand auftreten. Bei entsprechender Optimierung und Rationalisierung der SELIX-Verfahrensabläufe, Nutzung der Gewichte auf der Retrievalseite für ein Ranking der auszugebenden Dokumente und Integration der THEAS-Komponente kann das Verfahren zu einem wirkungsvollen Instrument zur Verbesserung der Retrievaleffektivität weiterentwickelt werden.
    Series
    Schriften der Universitäts- und Landesbibliothek Düsseldorf; 31
  17. Wolff, C.: Leistungsvergleich der Retrievaloberflächen zwischen Web und klassischen Expertensystemen (2001) 0.01
    0.0055861105 = product of:
      0.022344442 = sum of:
        0.022344442 = product of:
          0.044688884 = sum of:
            0.044688884 = weight(_text_:der in 5870) [ClassicSimilarity], result of:
              0.044688884 = score(doc=5870,freq=14.0), product of:
                0.09777089 = queryWeight, product of:
                  2.2337668 = idf(docFreq=12875, maxDocs=44218)
                  0.043769516 = queryNorm
                0.4570776 = fieldWeight in 5870, product of:
                  3.7416575 = tf(freq=14.0), with freq of:
                    14.0 = termFreq=14.0
                  2.2337668 = idf(docFreq=12875, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=5870)
          0.5 = coord(1/2)
      0.25 = coord(1/4)
    
    Abstract
    Die meisten Web-Auftritte der Hosts waren bisher für den Retrieval-Laien gedacht. Im Hintergrund steht dabei das Ziel: mehr Nutzung durch einfacheres Retrieval. Dieser Ansatz steht aber im Konflikt mit der wachsenden Datenmenge und Dokumentgröße, die eigentlich ein immer ausgefeilteres Retrieval verlangen. Häufig wird von Information Professionals die Kritik geäußert, dass die Webanwendungen einen Verlust an Relevanz bringen. Wie weit der Nutzer tatsächlich einen Kompromiss zwischen Relevanz und Vollständigkeit eingehen muss, soll in diesem Beitrag anhand verschiedener Host-Rechner quantifiziert werden
    Series
    Tagungen der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis; 4
    Source
    Information Research & Content Management: Orientierung, Ordnung und Organisation im Wissensmarkt; 23. DGI-Online-Tagung der DGI und 53. Jahrestagung der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis e.V. DGI, Frankfurt am Main, 8.-10.5.2001. Proceedings. Hrsg.: R. Schmidt
  18. Scherer, B.: Automatische Indexierung und ihre Anwendung im DFG-Projekt "Gemeinsames Portal für Bibliotheken, Archive und Museen (BAM)" (2003) 0.01
    0.005437561 = product of:
      0.021750243 = sum of:
        0.021750243 = product of:
          0.043500487 = sum of:
            0.043500487 = weight(_text_:der in 4283) [ClassicSimilarity], result of:
              0.043500487 = score(doc=4283,freq=26.0), product of:
                0.09777089 = queryWeight, product of:
                  2.2337668 = idf(docFreq=12875, maxDocs=44218)
                  0.043769516 = queryNorm
                0.4449227 = fieldWeight in 4283, product of:
                  5.0990195 = tf(freq=26.0), with freq of:
                    26.0 = termFreq=26.0
                  2.2337668 = idf(docFreq=12875, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=4283)
          0.5 = coord(1/2)
      0.25 = coord(1/4)
    
    Abstract
    Automatische Indexierung verzeichnet schon seit einigen Jahren aufgrund steigender Informationsflut ein wachsendes Interesse. Allerdings gibt es immer noch Vorbehalte gegenüber der intellektuellen Indexierung in Bezug auf Qualität und größerem Aufwand der Systemimplementierung bzw. -pflege. Neuere Entwicklungen aus dem Bereich des Wissensmanagements, wie beispielsweise Verfahren aus der Künstlichen Intelligenz, der Informationsextraktion, dem Text Mining bzw. der automatischen Klassifikation sollen die automatische Indexierung aufwerten und verbessern. Damit soll eine intelligentere und mehr inhaltsbasierte Erschließung geleistet werden. In dieser Masterarbeit wird außerhalb der Darstellung von Grundlagen und Verfahren der automatischen Indexierung sowie neueren Entwicklungen auch Möglichkeiten der Evaluation dargestellt. Die mögliche Anwendung der automatischen Indexierung im DFG-ProjektGemeinsames Portal für Bibliotheken, Archive und Museen (BAM)" bilden den Schwerpunkt der Arbeit. Im Portal steht die bibliothekarische Erschließung von Texten im Vordergrund. In einem umfangreichen Test werden drei deutsche, linguistische Systeme mit statistischen Verfahren kombiniert (die aber teilweise im System bereits integriert ist) und evaluiert, allerdings nur auf der Basis der ausgegebenen Indexate. Abschließend kann festgestellt werden, dass die Ergebnisse und damit die Qualität (bezogen auf die Indexate) von intellektueller und automatischer Indexierung noch signifikant unterschiedlich sind. Die Gründe liegen in noch zu lösenden semantischen Problemen bzw, in der Obereinstimmung mit Worten aus einem Thesaurus, die von einem automatischen Indexierungssystem nicht immer nachvollzogen werden kann. Eine Inhaltsanreicherung mit den Indexaten zum Vorteil beim Retrieval kann, je nach System oder auch über die Einbindung durch einen Thesaurus, erreicht werden.
  19. Hierl, S.: Bezugsrahmen für die Evaluation von Information Retrieval Systemen mit Visualisierungskomponenten (2007) 0.01
    0.0053955712 = product of:
      0.021582285 = sum of:
        0.021582285 = product of:
          0.04316457 = sum of:
            0.04316457 = weight(_text_:der in 3040) [ClassicSimilarity], result of:
              0.04316457 = score(doc=3040,freq=10.0), product of:
                0.09777089 = queryWeight, product of:
                  2.2337668 = idf(docFreq=12875, maxDocs=44218)
                  0.043769516 = queryNorm
                0.44148692 = fieldWeight in 3040, product of:
                  3.1622777 = tf(freq=10.0), with freq of:
                    10.0 = termFreq=10.0
                  2.2337668 = idf(docFreq=12875, maxDocs=44218)
                  0.0625 = fieldNorm(doc=3040)
          0.5 = coord(1/2)
      0.25 = coord(1/4)
    
    Abstract
    Folgender Beitrag beschäftigt sich mit der Konzeption und Durchführung von nachhaltigen Evaluationen von Information Retrieval Systemen mit Visualisierungskomponenten. Bisherige Evaluationsansätze differieren sowohl in der Methodenauswahl als auch Untersuchungsanlage, wie eine State-of-the-Art-Analyse aufzeigt. Im Anschluss werden die größten Herausforderungen, die sich bei Evaluationen dieser Art ergeben mit Vorschlägen zu potenziellen Lösungsansätzen diskutiert. Auf der Grundlage eines morphologischen Rahmens wird ein Bezugsrahmen für die Evaluation von Information Retrieval Systemen mit Visualisierungskomponenten vorgeschlagen, das einen integrierten Ansatz zur Kombination geeigneter Methoden aus dem Bereich der Usability-Evaluation und der Retrievaleffektivitäts-Evaluation verfolgt.
  20. Rapke, K.: Automatische Indexierung von Volltexten für die Gruner+Jahr Pressedatenbank (2001) 0.01
    0.0051186886 = product of:
      0.020474754 = sum of:
        0.020474754 = product of:
          0.04094951 = sum of:
            0.04094951 = weight(_text_:der in 6386) [ClassicSimilarity], result of:
              0.04094951 = score(doc=6386,freq=16.0), product of:
                0.09777089 = queryWeight, product of:
                  2.2337668 = idf(docFreq=12875, maxDocs=44218)
                  0.043769516 = queryNorm
                0.4188313 = fieldWeight in 6386, product of:
                  4.0 = tf(freq=16.0), with freq of:
                    16.0 = termFreq=16.0
                  2.2337668 = idf(docFreq=12875, maxDocs=44218)
                  0.046875 = fieldNorm(doc=6386)
          0.5 = coord(1/2)
      0.25 = coord(1/4)
    
    Abstract
    Retrieval Tests sind die anerkannteste Methode, um neue Verfahren der Inhaltserschließung gegenüber traditionellen Verfahren zu rechtfertigen. Im Rahmen einer Diplomarbeit wurden zwei grundsätzlich unterschiedliche Systeme der automatischen inhaltlichen Erschließung anhand der Pressedatenbank des Verlagshauses Gruner + Jahr (G+J) getestet und evaluiert. Untersucht wurde dabei natürlichsprachliches Retrieval im Vergleich zu Booleschem Retrieval. Bei den beiden Systemen handelt es sich zum einen um Autonomy von Autonomy Inc. und DocCat, das von IBM an die Datenbankstruktur der G+J Pressedatenbank angepasst wurde. Ersteres ist ein auf natürlichsprachlichem Retrieval basierendes, probabilistisches System. DocCat demgegenüber basiert auf Booleschem Retrieval und ist ein lernendes System, das auf Grund einer intellektuell erstellten Trainingsvorlage indexiert. Methodisch geht die Evaluation vom realen Anwendungskontext der Textdokumentation von G+J aus. Die Tests werden sowohl unter statistischen wie auch qualitativen Gesichtspunkten bewertet. Ein Ergebnis der Tests ist, dass DocCat einige Mängel gegenüber der intellektuellen Inhaltserschließung aufweist, die noch behoben werden müssen, während das natürlichsprachliche Retrieval von Autonomy in diesem Rahmen und für die speziellen Anforderungen der G+J Textdokumentation so nicht einsetzbar ist

Languages

  • d 22
  • e 14
  • m 1
  • More… Less…

Types

  • a 29
  • m 4
  • s 3
  • r 2
  • x 2
  • el 1
  • p 1
  • More… Less…