Search (413 results, page 1 of 21)

  • × theme_ss:"Retrievalstudien"
  1. Schabas, A.H.: ¬A comparative evaluation of the retrieval effectiveness of titles, Library of Congress Subject Headings and PRECIS strings for computer searching of UK MARC data (1979) 0.10
    0.102634095 = product of:
      0.15395114 = sum of:
        0.054054987 = weight(_text_:im in 5277) [ClassicSimilarity], result of:
          0.054054987 = score(doc=5277,freq=2.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.37478244 = fieldWeight in 5277, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.09375 = fieldNorm(doc=5277)
        0.09989615 = product of:
          0.14984421 = sum of:
            0.062307306 = weight(_text_:online in 5277) [ClassicSimilarity], result of:
              0.062307306 = score(doc=5277,freq=2.0), product of:
                0.1548489 = queryWeight, product of:
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.051022716 = queryNorm
                0.40237486 = fieldWeight in 5277, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.09375 = fieldNorm(doc=5277)
            0.08753691 = weight(_text_:retrieval in 5277) [ClassicSimilarity], result of:
              0.08753691 = score(doc=5277,freq=4.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.5671716 = fieldWeight in 5277, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.09375 = fieldNorm(doc=5277)
          0.6666667 = coord(2/3)
      0.6666667 = coord(2/3)
    
    Theme
    Verbale Doksprachen im Online-Retrieval
  2. Tomaiuolo, N.G.; Parker, J.: Maximizing relevant retrieval : keyword and natural language searching (1998) 0.08
    0.080562115 = product of:
      0.24168634 = sum of:
        0.24168634 = sum of:
          0.07269186 = weight(_text_:online in 6418) [ClassicSimilarity], result of:
            0.07269186 = score(doc=6418,freq=2.0), product of:
              0.1548489 = queryWeight, product of:
                3.0349014 = idf(docFreq=5778, maxDocs=44218)
                0.051022716 = queryNorm
              0.46943733 = fieldWeight in 6418, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                3.0349014 = idf(docFreq=5778, maxDocs=44218)
                0.109375 = fieldNorm(doc=6418)
          0.07221426 = weight(_text_:retrieval in 6418) [ClassicSimilarity], result of:
            0.07221426 = score(doc=6418,freq=2.0), product of:
              0.15433937 = queryWeight, product of:
                3.024915 = idf(docFreq=5836, maxDocs=44218)
                0.051022716 = queryNorm
              0.46789268 = fieldWeight in 6418, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                3.024915 = idf(docFreq=5836, maxDocs=44218)
                0.109375 = fieldNorm(doc=6418)
          0.09678023 = weight(_text_:22 in 6418) [ClassicSimilarity], result of:
            0.09678023 = score(doc=6418,freq=2.0), product of:
              0.17867287 = queryWeight, product of:
                3.5018296 = idf(docFreq=3622, maxDocs=44218)
                0.051022716 = queryNorm
              0.5416616 = fieldWeight in 6418, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                3.5018296 = idf(docFreq=3622, maxDocs=44218)
                0.109375 = fieldNorm(doc=6418)
      0.33333334 = coord(1/3)
    
    Source
    Online. 22(1998) no.6, S.57-58
  3. Wolff, C.: Leistungsvergleich der Retrievaloberflächen zwischen Web und klassischen Expertensystemen (2001) 0.08
    0.08035914 = product of:
      0.120538704 = sum of:
        0.054615162 = weight(_text_:im in 5870) [ClassicSimilarity], result of:
          0.054615162 = score(doc=5870,freq=6.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.37866634 = fieldWeight in 5870, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.0546875 = fieldNorm(doc=5870)
        0.06592354 = product of:
          0.09888531 = sum of:
            0.03634593 = weight(_text_:online in 5870) [ClassicSimilarity], result of:
              0.03634593 = score(doc=5870,freq=2.0), product of:
                0.1548489 = queryWeight, product of:
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.051022716 = queryNorm
                0.23471867 = fieldWeight in 5870, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=5870)
            0.062539384 = weight(_text_:retrieval in 5870) [ClassicSimilarity], result of:
              0.062539384 = score(doc=5870,freq=6.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.40520695 = fieldWeight in 5870, product of:
                  2.4494898 = tf(freq=6.0), with freq of:
                    6.0 = termFreq=6.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=5870)
          0.6666667 = coord(2/3)
      0.6666667 = coord(2/3)
    
    Abstract
    Die meisten Web-Auftritte der Hosts waren bisher für den Retrieval-Laien gedacht. Im Hintergrund steht dabei das Ziel: mehr Nutzung durch einfacheres Retrieval. Dieser Ansatz steht aber im Konflikt mit der wachsenden Datenmenge und Dokumentgröße, die eigentlich ein immer ausgefeilteres Retrieval verlangen. Häufig wird von Information Professionals die Kritik geäußert, dass die Webanwendungen einen Verlust an Relevanz bringen. Wie weit der Nutzer tatsächlich einen Kompromiss zwischen Relevanz und Vollständigkeit eingehen muss, soll in diesem Beitrag anhand verschiedener Host-Rechner quantifiziert werden
    Source
    Information Research & Content Management: Orientierung, Ordnung und Organisation im Wissensmarkt; 23. DGI-Online-Tagung der DGI und 53. Jahrestagung der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis e.V. DGI, Frankfurt am Main, 8.-10.5.2001. Proceedings. Hrsg.: R. Schmidt
  4. Drabenstott, K.M.; Vizine-Goetz, D.: Using subject headings for online retrieval : theory, practice and potential (1994) 0.08
    0.076489285 = product of:
      0.11473393 = sum of:
        0.027027493 = weight(_text_:im in 386) [ClassicSimilarity], result of:
          0.027027493 = score(doc=386,freq=2.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.18739122 = fieldWeight in 386, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.046875 = fieldNorm(doc=386)
        0.08770643 = product of:
          0.13155964 = sum of:
            0.06966169 = weight(_text_:online in 386) [ClassicSimilarity], result of:
              0.06966169 = score(doc=386,freq=10.0), product of:
                0.1548489 = queryWeight, product of:
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.051022716 = queryNorm
                0.4498688 = fieldWeight in 386, product of:
                  3.1622777 = tf(freq=10.0), with freq of:
                    10.0 = termFreq=10.0
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.046875 = fieldNorm(doc=386)
            0.06189794 = weight(_text_:retrieval in 386) [ClassicSimilarity], result of:
              0.06189794 = score(doc=386,freq=8.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.40105087 = fieldWeight in 386, product of:
                  2.828427 = tf(freq=8.0), with freq of:
                    8.0 = termFreq=8.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.046875 = fieldNorm(doc=386)
          0.6666667 = coord(2/3)
      0.6666667 = coord(2/3)
    
    Abstract
    Using subject headings for Online Retrieval is an indispensable tool for online system desingners who are developing new systems or refining exicting ones. The book describes subject analysis and subject searching in online catalogs, including the limitations of retrieval, and demonstrates how such limitations can be overcome through system design and programming. The book describes the Library of Congress Subject headings system and system characteristics, shows how information is stored in machine readable files, and offers examples of and recommendations for successful methods. Tables are included to support these recommendations, and diagrams, graphs, and bar charts are used to provide results of data analyses.
    Theme
    Verbale Doksprachen im Online-Retrieval
  5. Bodoff, D.; Kambil, A.: Partial coordination : II. A preliminary evaluation and failure analysis (1998) 0.07
    0.0712926 = product of:
      0.1069389 = sum of:
        0.027027493 = weight(_text_:im in 2323) [ClassicSimilarity], result of:
          0.027027493 = score(doc=2323,freq=2.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.18739122 = fieldWeight in 2323, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.046875 = fieldNorm(doc=2323)
        0.0799114 = product of:
          0.1198671 = sum of:
            0.04405792 = weight(_text_:online in 2323) [ClassicSimilarity], result of:
              0.04405792 = score(doc=2323,freq=4.0), product of:
                0.1548489 = queryWeight, product of:
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.051022716 = queryNorm
                0.284522 = fieldWeight in 2323, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.046875 = fieldNorm(doc=2323)
            0.07580918 = weight(_text_:retrieval in 2323) [ClassicSimilarity], result of:
              0.07580918 = score(doc=2323,freq=12.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.49118498 = fieldWeight in 2323, product of:
                  3.4641016 = tf(freq=12.0), with freq of:
                    12.0 = termFreq=12.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.046875 = fieldNorm(doc=2323)
          0.6666667 = coord(2/3)
      0.6666667 = coord(2/3)
    
    Abstract
    Partial coordination is a new method for cataloging documents for subject access. It is especially designed to enhance the precision of document searches in online environments. This article reports a preliminary evaluation of partial coordination that shows promising results compared with full-text retrieval. We also report the difficulties in empirically evaluating the effectiveness of automatic full-text retrieval in contrast to mixed methods such as partial coordination which combine human cataloging with computerized retrieval. Based on our study, we propose research in this area will substantially benefit from a common framework for failure analysis and a common data set. This will allow information retrieval researchers adapting 'library style'cataloging to large electronic document collections, as well as those developing automated or mixed methods, to directly compare their proposals for indexing and retrieval. This article concludes by suggesting guidelines for constructing such as testbed
    Theme
    Verbale Doksprachen im Online-Retrieval
  6. Keen, E.M.: Aspects of computer-based indexing languages (1991) 0.07
    0.06842273 = product of:
      0.10263409 = sum of:
        0.03603666 = weight(_text_:im in 5072) [ClassicSimilarity], result of:
          0.03603666 = score(doc=5072,freq=2.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.24985497 = fieldWeight in 5072, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.0625 = fieldNorm(doc=5072)
        0.066597424 = product of:
          0.09989613 = sum of:
            0.0415382 = weight(_text_:online in 5072) [ClassicSimilarity], result of:
              0.0415382 = score(doc=5072,freq=2.0), product of:
                0.1548489 = queryWeight, product of:
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.051022716 = queryNorm
                0.2682499 = fieldWeight in 5072, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.0625 = fieldNorm(doc=5072)
            0.058357935 = weight(_text_:retrieval in 5072) [ClassicSimilarity], result of:
              0.058357935 = score(doc=5072,freq=4.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.37811437 = fieldWeight in 5072, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.0625 = fieldNorm(doc=5072)
          0.6666667 = coord(2/3)
      0.6666667 = coord(2/3)
    
    Abstract
    Comments on the relative rarity of research articles on theoretical aspects of subject indexing in computerised retrieval systems and the predominance of articles on software packages and hardware. Concludes that controlled indexing still has a future but points to major differences from the past
    Theme
    Verbale Doksprachen im Online-Retrieval
  7. Voorbij, H.: ¬Een goede titel behoeft geen trefwoord, of toch wel? : een vergelijkend oderzoek titelwoorden - trefwoorden (1997) 0.07
    0.06656098 = product of:
      0.099841475 = sum of:
        0.031532075 = weight(_text_:im in 1446) [ClassicSimilarity], result of:
          0.031532075 = score(doc=1446,freq=2.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.2186231 = fieldWeight in 1446, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.0546875 = fieldNorm(doc=1446)
        0.0683094 = product of:
          0.102464095 = sum of:
            0.051400907 = weight(_text_:online in 1446) [ClassicSimilarity], result of:
              0.051400907 = score(doc=1446,freq=4.0), product of:
                0.1548489 = queryWeight, product of:
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.051022716 = queryNorm
                0.33194235 = fieldWeight in 1446, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=1446)
            0.05106319 = weight(_text_:retrieval in 1446) [ClassicSimilarity], result of:
              0.05106319 = score(doc=1446,freq=4.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.33085006 = fieldWeight in 1446, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=1446)
          0.6666667 = coord(2/3)
      0.6666667 = coord(2/3)
    
    Abstract
    A recent survey at the Royal Library in the Netherlands showed that subject headings are more efficient than title keywords for retrieval purposes. 475 Dutch publications were selected at random and assigned subject headings. The study showed that subject headings provided additional useful information in 56% of titles. Subsequent searching of the library's online catalogue showed that 88% of titles were retrieved via subject headings against 57% through title keywords. Further precision may be achieved with the help of indexing staff, but at considerable cost
    Theme
    Verbale Doksprachen im Online-Retrieval
  8. Rapke, K.: Automatische Indexierung von Volltexten für die Gruner+Jahr Pressedatenbank (2001) 0.06
    0.06317672 = product of:
      0.09476508 = sum of:
        0.03901083 = weight(_text_:im in 5863) [ClassicSimilarity], result of:
          0.03901083 = score(doc=5863,freq=6.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.27047595 = fieldWeight in 5863, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.0390625 = fieldNorm(doc=5863)
        0.055754256 = product of:
          0.08363138 = sum of:
            0.025961377 = weight(_text_:online in 5863) [ClassicSimilarity], result of:
              0.025961377 = score(doc=5863,freq=2.0), product of:
                0.1548489 = queryWeight, product of:
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.051022716 = queryNorm
                0.16765618 = fieldWeight in 5863, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=5863)
            0.05767 = weight(_text_:retrieval in 5863) [ClassicSimilarity], result of:
              0.05767 = score(doc=5863,freq=10.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.37365708 = fieldWeight in 5863, product of:
                  3.1622777 = tf(freq=10.0), with freq of:
                    10.0 = termFreq=10.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=5863)
          0.6666667 = coord(2/3)
      0.6666667 = coord(2/3)
    
    Abstract
    Retrievaltests sind die anerkannteste Methode, um neue Verfahren der Inhaltserschließung gegenüber traditionellen Verfahren zu rechtfertigen. Im Rahmen einer Diplomarbeit wurden zwei grundsätzlich unterschiedliche Systeme der automatischen inhaltlichen Erschließung anhand der Pressedatenbank des Verlagshauses Gruner + Jahr (G+J) getestet und evaluiert. Untersucht wurde dabei natürlichsprachliches Retrieval im Vergleich zu Booleschem Retrieval. Bei den beiden Systemen handelt es sich zum einen um Autonomy von Autonomy Inc. und DocCat, das von IBM an die Datenbankstruktur der G+J Pressedatenbank angepasst wurde. Ersteres ist ein auf natürlichsprachlichem Retrieval basierendes, probabilistisches System. DocCat demgegenüber basiert auf Booleschem Retrieval und ist ein lernendes System, das aufgrund einer intellektuell erstellten Trainingsvorlage indexiert. Methodisch geht die Evaluation vom realen Anwendungskontext der Textdokumentation von G+J aus. Die Tests werden sowohl unter statistischen wie auch qualitativen Gesichtspunkten bewertet. Ein Ergebnis der Tests ist, dass DocCat einige Mängel gegenüber der intellektuellen Inhaltserschließung aufweist, die noch behoben werden müssen, während das natürlichsprachliche Retrieval von Autonomy in diesem Rahmen und für die speziellen Anforderungen der G+J Textdokumentation so nicht einsetzbar ist
    Source
    Information Research & Content Management: Orientierung, Ordnung und Organisation im Wissensmarkt; 23. DGI-Online-Tagung der DGI und 53. Jahrestagung der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis e.V. DGI, Frankfurt am Main, 8.-10.5.2001. Proceedings. Hrsg.: R. Schmidt
  9. Lohmann, H.: KASCADE: Dokumentanreicherung und automatische Inhaltserschließung : Projektbericht und Ergebnisse des Retrievaltests (2000) 0.06
    0.061569244 = product of:
      0.092353866 = sum of:
        0.04729811 = weight(_text_:im in 494) [ClassicSimilarity], result of:
          0.04729811 = score(doc=494,freq=18.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.32793462 = fieldWeight in 494, product of:
              4.2426405 = tf(freq=18.0), with freq of:
                18.0 = termFreq=18.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.02734375 = fieldNorm(doc=494)
        0.045055754 = product of:
          0.06758363 = sum of:
            0.031476498 = weight(_text_:online in 494) [ClassicSimilarity], result of:
              0.031476498 = score(doc=494,freq=6.0), product of:
                0.1548489 = queryWeight, product of:
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.051022716 = queryNorm
                0.20327234 = fieldWeight in 494, product of:
                  2.4494898 = tf(freq=6.0), with freq of:
                    6.0 = termFreq=6.0
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.02734375 = fieldNorm(doc=494)
            0.03610713 = weight(_text_:retrieval in 494) [ClassicSimilarity], result of:
              0.03610713 = score(doc=494,freq=8.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.23394634 = fieldWeight in 494, product of:
                  2.828427 = tf(freq=8.0), with freq of:
                    8.0 = termFreq=8.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.02734375 = fieldNorm(doc=494)
          0.6666667 = coord(2/3)
      0.6666667 = coord(2/3)
    
    Abstract
    Der Test hat gezeigt, dass die Ergänzung der bibliothekarischen Titelaufnahme um zusätzliche inhaltsrelevante Daten zu einer beeindruckenden Verbesserung der Suchergebnisse führt. Die Dokumentanreicherung sollte daher als Ziel bibliothekarischer Bemühungen um eine Verbesserung des OPAC-Retrievals weiterverfolgt werden. Der im Projekt eingeschlagene Weg, die Inhaltsverzeichnisse zu scannen, erwies sich allerdings als wenig sinnvoll. Zwar erzielte das Scanningverfahren gute Ergebnisse, auch arbeitete die Texterkennungssoftware sehr zuverlässig. Das Scanning bietet darüber hinaus die Möglichkeit, die dabei angefertigte Grafik-Datei mit dem Titelsatz im OPAC zu verknüpfen und so dem Nutzer als Entscheidungshilfe bei der Ergebnismengenbeurteilung an die Hand zu geben. Die Arbeiten am Aufbau der Testdatenbank brachten aber die Erkenntnis, dass die Anreicherung im Wege des Scanning technisch außerordentlich problematisch ist und einen nicht vorauszusehenden und letztlich auch nicht zu rechtfertigenden Aufwand erfordert. Diese Methode der Anreicherung kann daher für einen Praxiseinsatz nicht empfohlen werden.
    Verbesserungen des Gewichtungsverfahrens sollten schließlich unterstützt werden durch Maßnahmen zur Optimierung der Retrievalumgebung, etwa durch - den Einsatz von Hypertextwerkzeugen; - die Integration der THEAS-Komponente, mit der die automatische Mehrwortgruppengewinnung mit Hilfe eines Mehrwortgruppen-Parsers möglich ist; dies könnte im Rahmen der Dialogführung mit dem Nutzer eingesetzt werden, wenn dieser Teilkomponenten solcher Mehrwortgruppen im Retrieval verwendet. Mit THEAS wäre daneben der Einstieg in das Retrieval über das Register mit kanonischen Formen möglich; - die Integration von Wörterbuchfunktionen zur Benutzerunterstützung. Eine Weiterentwicklung des SELIX-Verfahrens könnte daneben in diese Richtungen erfolgen: - Bildung von Dokument-Clustern. Dabei werden Dokumente in einem Dokumenten-Raum einander in dem Maße zugeordnet, in dem ihre selektierten Grundformen übereinstimmen. - Errichtung von statistisch basierten semantischen Netzen, in denen Grundformen einander in einem Begriffs-Raum in dem Maße zugeordnet werden, in dem sie "gemeinsam" in Dokumenten auftreten.
    Abgesehen von diesen Überlegungen müssten für einen praktischen Einsatz der KASCADE-Entwicklungen weitere Voraussetzungen geschaffen werden. Erforderlich wäre zunächst die Optimierung und Rationalisierung der Verfahrensabläufe selbst. Die Teilprogramme unter KasKoll sollten in ein kompaktes Programm integriert werden. Die Sortiervorgänge könnten vereinfacht werden, indem die Deskriptoren in eine relationale Datenbank überführt werden. Letztendlich wirken sich diese Punkte aber vor allem auf die Dauer der Maschinenlaufzeiten aus, die bei der Frage nach den Implementierungskosten letztlich nur eine untergeordnete Rolle spielen. Optimiert werden sollte die Oberfläche zur Steuerung des Verfahrens. Bereits jetzt laufen einige der Programme unter einer menügeführten Windows-Schnittstelle (Kasadew) ab, was für alle Verfahrensteile erreicht werden sollte. Schließlich ist zu klären, unter welchen Bedingungen das Gewichtungsverfahren im Praxisbetrieb ablaufen kann.
    Da sich mit jedem Dokument, das zu dem im Gewichtungsverfahren befindlichen Gesamtbestand hinzukommt, die Werte aller bereits gewichteten Deskriptoren ändern können, müsste die Berechnung der Häufigkeitsverteilung jeder Grundform im Prinzip nach jeder Änderung im Dokumentbestand neu berechnet werden. Eine Online-Aktualisierung des Bestandes erscheint daher wenig sinnvoll. In der Praxis könnte eine Neuberechnung in bestimmten zeitlichen Abständen mit einem Abzug des OPAC-Bestandes unabhängig vom eigentlichen Betrieb des OPAC erfolgen, was auch insofern genügen würde, als die zugrunde liegenden Maße auf relativen Häufigkeiten basieren. Dadurch würde nur ein geringer Verzug in der Bereitstellung der aktuellen Gewichte eintreten. Außerdem würde der Zeitfaktor eine nur untergeordnete Rolle spielen, da ein offline ablaufender Gewichtungslauf erst bis zum nächsten Aktualisierungszeitpunkt abgeschlossen sein müsste. Denkbar wäre zusätzlich, für die Zeit zwischen zwei Aktualisierungen des OPACs für die in den Neuzugängen enthaltenen Begriffe Standardgewichte einzusetzen, soweit diese Begriffe bereits in dem Bestand auftreten. Bei entsprechender Optimierung und Rationalisierung der SELIX-Verfahrensabläufe, Nutzung der Gewichte auf der Retrievalseite für ein Ranking der auszugebenden Dokumente und Integration der THEAS-Komponente kann das Verfahren zu einem wirkungsvollen Instrument zur Verbesserung der Retrievaleffektivität weiterentwickelt werden.
    RSWK
    Online-Katalog / Automatische Indexierung / Inhaltsverzeichnis / Scanning / Information Retrieval / Projekt
    Subject
    Online-Katalog / Automatische Indexierung / Inhaltsverzeichnis / Scanning / Information Retrieval / Projekt
  10. Schabas, A.H.: Postcoordinate retrieval : a comparison of two retrieval languages (1982) 0.06
    0.059374597 = product of:
      0.08906189 = sum of:
        0.027027493 = weight(_text_:im in 1202) [ClassicSimilarity], result of:
          0.027027493 = score(doc=1202,freq=2.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.18739122 = fieldWeight in 1202, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.046875 = fieldNorm(doc=1202)
        0.0620344 = product of:
          0.0930516 = sum of:
            0.031153653 = weight(_text_:online in 1202) [ClassicSimilarity], result of:
              0.031153653 = score(doc=1202,freq=2.0), product of:
                0.1548489 = queryWeight, product of:
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.051022716 = queryNorm
                0.20118743 = fieldWeight in 1202, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.046875 = fieldNorm(doc=1202)
            0.06189794 = weight(_text_:retrieval in 1202) [ClassicSimilarity], result of:
              0.06189794 = score(doc=1202,freq=8.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.40105087 = fieldWeight in 1202, product of:
                  2.828427 = tf(freq=8.0), with freq of:
                    8.0 = termFreq=8.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.046875 = fieldNorm(doc=1202)
          0.6666667 = coord(2/3)
      0.6666667 = coord(2/3)
    
    Abstract
    This article reports on a comparison of the postcoordinate retrieval effectiveness of two indexing languages: LCSH and PRECIS. The effect of augmenting each with title words was also studies. The database for the study was over 15.000 UK MARC records. Users returned 5.326 relevant judgements for citations retrieved for 61 SDI profiles, representing a wide variety of subjects. Results are reported in terms of precision and relative recall. Pure/applied sciences data and social science data were analyzed separately. Cochran's significance tests for ratios were used to interpret the findings. Recall emerged as the more important measure discriminating the behavior of the two languages. Addition of title words was found to improve recall of both indexing languages significantly. A direct relationship was observed between recall and exhaustivity. For the social sciences searches, recalls from PRECIS alone and from PRECIS with title words were significantly higher than those from LCSH alone and from LCSH with title words, respectively. Corresponding comparisons for the pure/applied sciences searches revealed no significant differences
    Theme
    Verbale Doksprachen im Online-Retrieval
  11. McJunkin, M.C.: Precision and recall in title keyword searching (1995) 0.05
    0.05135473 = product of:
      0.07703209 = sum of:
        0.027027493 = weight(_text_:im in 3351) [ClassicSimilarity], result of:
          0.027027493 = score(doc=3351,freq=2.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.18739122 = fieldWeight in 3351, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.046875 = fieldNorm(doc=3351)
        0.050004594 = product of:
          0.07500689 = sum of:
            0.04405792 = weight(_text_:online in 3351) [ClassicSimilarity], result of:
              0.04405792 = score(doc=3351,freq=4.0), product of:
                0.1548489 = queryWeight, product of:
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.051022716 = queryNorm
                0.284522 = fieldWeight in 3351, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  3.0349014 = idf(docFreq=5778, maxDocs=44218)
                  0.046875 = fieldNorm(doc=3351)
            0.03094897 = weight(_text_:retrieval in 3351) [ClassicSimilarity], result of:
              0.03094897 = score(doc=3351,freq=2.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.20052543 = fieldWeight in 3351, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.046875 = fieldNorm(doc=3351)
          0.6666667 = coord(2/3)
      0.6666667 = coord(2/3)
    
    Abstract
    Investigates the extent to which title keywords convey subject content and compares the relative effectiveness of searching title keywords using 2 search strategies to examine whether adjacency operators in title keyword searches are effective in improving recall and precision of online searching. Title keywords from a random sample of titles in the field of economics were searched on FirstSearch, using the WorldCat database, which is equivalent in coverage to the OCLC OLUC, with and without adjacency of the keywords specified. The LCSH of the items retrieved were compared with the sample title subject headings to determine the degree of match or relevance and the values for precision and recall were calculated. Results indicated that, when keywords were discipline specific, adjacency operators improved precision with little degradation of recall. Systems that allow positional operators or rank output by proximity of terms may increase search success
    Theme
    Verbale Doksprachen im Online-Retrieval
  12. Mandl, T.: Neue Entwicklungen bei den Evaluierungsinitiativen im Information Retrieval (2006) 0.05
    0.04985871 = product of:
      0.074788064 = sum of:
        0.050963532 = weight(_text_:im in 5975) [ClassicSimilarity], result of:
          0.050963532 = score(doc=5975,freq=4.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.35334828 = fieldWeight in 5975, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.0625 = fieldNorm(doc=5975)
        0.023824528 = product of:
          0.07147358 = sum of:
            0.07147358 = weight(_text_:retrieval in 5975) [ClassicSimilarity], result of:
              0.07147358 = score(doc=5975,freq=6.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.46309367 = fieldWeight in 5975, product of:
                  2.4494898 = tf(freq=6.0), with freq of:
                    6.0 = termFreq=6.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.0625 = fieldNorm(doc=5975)
          0.33333334 = coord(1/3)
      0.6666667 = coord(2/3)
    
    Abstract
    Im Information Retrieval tragen Evaluierungsinitiativen erheblich zur empirisch fundierten Forschung bei. Mit umfangreichen Kollektionen und Aufgaben unterstützen sie die Standardisierung und damit die Systementwicklung. Die wachsenden Anforderungen hinsichtlich der Korpora und Anwendungsszenarien führten zu einer starken Diversifizierung innerhalb der Evaluierungsinitiativen. Dieser Artikel gibt einen Überblick über den aktuellen Stand der wichtigsten Evaluierungsinitiativen und neuen Trends.
    Source
    Effektive Information Retrieval Verfahren in Theorie und Praxis: ausgewählte und erweiterte Beiträge des Vierten Hildesheimer Evaluierungs- und Retrievalworkshop (HIER 2005), Hildesheim, 20.7.2005. Hrsg.: T. Mandl u. C. Womser-Hacker
  13. Mandl, T.: Evaluierung im Information Retrieval : die Hildesheimer Antwort auf aktuelle Herausforderungen der globalisierten Informationsgesellschaft (2010) 0.05
    0.046944123 = product of:
      0.07041618 = sum of:
        0.050963532 = weight(_text_:im in 4011) [ClassicSimilarity], result of:
          0.050963532 = score(doc=4011,freq=4.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.35334828 = fieldWeight in 4011, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.0625 = fieldNorm(doc=4011)
        0.019452646 = product of:
          0.058357935 = sum of:
            0.058357935 = weight(_text_:retrieval in 4011) [ClassicSimilarity], result of:
              0.058357935 = score(doc=4011,freq=4.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.37811437 = fieldWeight in 4011, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.0625 = fieldNorm(doc=4011)
          0.33333334 = coord(1/3)
      0.6666667 = coord(2/3)
    
    Abstract
    Die Forschung zur Evaluierung von Information Retrieval Systemen hat in den letzten Jahren neue Richtungen eingeschlagen und interessante Ergebnisse erzielt. Während früher primär die Überlegenheit einzelner Verfahren in heterogenen Anwendungsszenarien im Fokus stand, gerät zunehmend die Validität der Evaluierungsmethodik ins Zentrum der Aufmerksamkeit. Dieser Artikel fasst die aktuelle Forschung zu innovativen Evaluierungsmaßen und zur Zuverlässigkeit des so genannten Cranfield-Paradigmas zusammen.
  14. Wartena, C.; Golub, K.: Evaluierung von Verschlagwortung im Kontext des Information Retrievals (2021) 0.04
    0.044885032 = product of:
      0.067327544 = sum of:
        0.05516964 = weight(_text_:im in 376) [ClassicSimilarity], result of:
          0.05516964 = score(doc=376,freq=12.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.38251072 = fieldWeight in 376, product of:
              3.4641016 = tf(freq=12.0), with freq of:
                12.0 = termFreq=12.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.0390625 = fieldNorm(doc=376)
        0.012157904 = product of:
          0.03647371 = sum of:
            0.03647371 = weight(_text_:retrieval in 376) [ClassicSimilarity], result of:
              0.03647371 = score(doc=376,freq=4.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.23632148 = fieldWeight in 376, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=376)
          0.33333334 = coord(1/3)
      0.6666667 = coord(2/3)
    
    Abstract
    Dieser Beitrag möchte einen Überblick über die in der Literatur diskutierten Möglichkeiten, Herausforderungen und Grenzen geben, Retrieval als eine extrinsische Evaluierungsmethode für die Ergebnisse verbaler Sacherschließung zu nutzen. Die inhaltliche Erschließung im Allgemeinen und die Verschlagwortung im Besonderen können intrinsisch oder extrinsisch evaluiert werden. Die intrinsische Evaluierung bezieht sich auf Eigenschaften der Erschließung, von denen vermutet wird, dass sie geeignete Indikatoren für die Qualität der Erschließung sind, wie formale Einheitlichkeit (im Hinblick auf die Anzahl zugewiesener Deskriptoren pro Dokument, auf die Granularität usw.), Konsistenz oder Übereinstimmung der Ergebnisse verschiedener Erschließer:innen. Bei einer extrinsischen Evaluierung geht es darum, die Qualität der gewählten Deskriptoren daran zu messen, wie gut sie sich tatsächlich bei der Suche bewähren. Obwohl die extrinsische Evaluierung direktere Auskunft darüber gibt, ob die Erschließung ihren Zweck erfüllt, und daher den Vorzug verdienen sollte, ist sie kompliziert und oft problematisch. In einem Retrievalsystem greifen verschiedene Algorithmen und Datenquellen in vielschichtiger Weise ineinander und interagieren bei der Evaluierung darüber hinaus noch mit Nutzer:innen und Rechercheaufgaben. Die Evaluierung einer Komponente im System kann nicht einfach dadurch vorgenommen werden, dass man sie austauscht und mit einer anderen Komponente vergleicht, da die gleiche Ressource oder der gleiche Algorithmus sich in unterschiedlichen Umgebungen unterschiedlich verhalten kann. Wir werden relevante Evaluierungsansätze vorstellen und diskutieren, und zum Abschluss einige Empfehlungen für die Evaluierung von Verschlagwortung im Kontext von Retrieval geben.
  15. Mandl, T.: Web- und Multimedia-Dokumente : Neuere Entwicklungen bei der Evaluierung von Information Retrieval Systemen (2003) 0.04
    0.04452933 = product of:
      0.06679399 = sum of:
        0.03603666 = weight(_text_:im in 1734) [ClassicSimilarity], result of:
          0.03603666 = score(doc=1734,freq=2.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.24985497 = fieldWeight in 1734, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.0625 = fieldNorm(doc=1734)
        0.030757334 = product of:
          0.092272 = sum of:
            0.092272 = weight(_text_:retrieval in 1734) [ClassicSimilarity], result of:
              0.092272 = score(doc=1734,freq=10.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.59785134 = fieldWeight in 1734, product of:
                  3.1622777 = tf(freq=10.0), with freq of:
                    10.0 = termFreq=10.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.0625 = fieldNorm(doc=1734)
          0.33333334 = coord(1/3)
      0.6666667 = coord(2/3)
    
    Abstract
    Die Menge an Daten im Internet steigt weiter rapide an. Damit wächst auch der Bedarf an qualitativ hochwertigen Information Retrieval Diensten zur Orientierung und problemorientierten Suche. Die Entscheidung für die Benutzung oder Beschaffung von Information Retrieval Software erfordert aussagekräftige Evaluierungsergebnisse. Dieser Beitrag stellt neuere Entwicklungen bei der Evaluierung von Information Retrieval Systemen vor und zeigt den Trend zu Spezialisierung und Diversifizierung von Evaluierungsstudien, die den Realitätsgrad derErgebnisse erhöhen. DerSchwerpunkt liegt auf dem Retrieval von Fachtexten, Internet-Seiten und Multimedia-Objekten.
  16. Schirrmeister, N.-P.; Keil, S.: Aufbau einer Infrastruktur für Information Retrieval-Evaluationen (2012) 0.04
    0.04452933 = product of:
      0.06679399 = sum of:
        0.03603666 = weight(_text_:im in 3097) [ClassicSimilarity], result of:
          0.03603666 = score(doc=3097,freq=2.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.24985497 = fieldWeight in 3097, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.0625 = fieldNorm(doc=3097)
        0.030757334 = product of:
          0.092272 = sum of:
            0.092272 = weight(_text_:retrieval in 3097) [ClassicSimilarity], result of:
              0.092272 = score(doc=3097,freq=10.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.59785134 = fieldWeight in 3097, product of:
                  3.1622777 = tf(freq=10.0), with freq of:
                    10.0 = termFreq=10.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.0625 = fieldNorm(doc=3097)
          0.33333334 = coord(1/3)
      0.6666667 = coord(2/3)
    
    Abstract
    Das Projekt "Aufbau einer Infrastruktur für Information Retrieval-Evaluationen" (AIIRE) bietet eine Softwareinfrastruktur zur Unterstützung von Information Retrieval-Evaluationen (IR-Evaluationen). Die Infrastruktur basiert auf einem Tool-Kit, das bei GESIS im Rahmen des DFG-Projekts IRM entwickelt wurde. Ziel ist es, ein System zu bieten, das zur Forschung und Lehre am Fachbereich Media für IR-Evaluationen genutzt werden kann. This paper describes some aspects of a project called "Aufbau einer Infrastruktur für Information Retrieval-Evaluationen" (AIIRE). Its goal is to build a software-infrastructure which supports the evaluation of information retrieval algorithms.
  17. Munkelt, J.: Erstellung einer DNB-Retrieval-Testkollektion (2018) 0.04
    0.044433918 = product of:
      0.066650875 = sum of:
        0.054615162 = weight(_text_:im in 4310) [ClassicSimilarity], result of:
          0.054615162 = score(doc=4310,freq=6.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.37866634 = fieldWeight in 4310, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.0546875 = fieldNorm(doc=4310)
        0.012035711 = product of:
          0.03610713 = sum of:
            0.03610713 = weight(_text_:retrieval in 4310) [ClassicSimilarity], result of:
              0.03610713 = score(doc=4310,freq=2.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.23394634 = fieldWeight in 4310, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=4310)
          0.33333334 = coord(1/3)
      0.6666667 = coord(2/3)
    
    Abstract
    Seit Herbst 2017 findet in der Deutschen Nationalbibliothek die Inhaltserschließung bestimmter Medienwerke rein maschinell statt. Die Qualität dieses Verfahrens, das die Prozessorganisation von Bibliotheken maßgeblich prägen kann, wird unter Fachleuten kontrovers diskutiert. Ihre Standpunkte werden zunächst hinreichend erläutert, ehe die Notwendigkeit einer Qualitätsprüfung des Verfahrens und dessen Grundlagen dargelegt werden. Zentraler Bestandteil einer künftigen Prüfung ist eine Testkollektion. Ihre Erstellung und deren Dokumentation steht im Fokus dieser Arbeit. In diesem Zusammenhang werden auch die Entstehungsgeschichte und Anforderungen an gelungene Testkollektionen behandelt. Abschließend wird ein Retrievaltest durchgeführt, der die Einsatzfähigkeit der erarbeiteten Testkollektion belegt. Seine Ergebnisse dienen ausschließlich der Funktionsüberprüfung. Eine Qualitätsbeurteilung maschineller Inhaltserschließung im Speziellen sowie im Allgemeinen findet nicht statt und ist nicht Ziel der Ausarbeitung.
  18. Scherer, B.: Automatische Indexierung und ihre Anwendung im DFG-Projekt "Gemeinsames Portal für Bibliotheken, Archive und Museen (BAM)" (2003) 0.04
    0.042511053 = product of:
      0.06376658 = sum of:
        0.05516964 = weight(_text_:im in 4283) [ClassicSimilarity], result of:
          0.05516964 = score(doc=4283,freq=12.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.38251072 = fieldWeight in 4283, product of:
              3.4641016 = tf(freq=12.0), with freq of:
                12.0 = termFreq=12.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.0390625 = fieldNorm(doc=4283)
        0.008596936 = product of:
          0.025790809 = sum of:
            0.025790809 = weight(_text_:retrieval in 4283) [ClassicSimilarity], result of:
              0.025790809 = score(doc=4283,freq=2.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.16710453 = fieldWeight in 4283, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=4283)
          0.33333334 = coord(1/3)
      0.6666667 = coord(2/3)
    
    Abstract
    Automatische Indexierung verzeichnet schon seit einigen Jahren aufgrund steigender Informationsflut ein wachsendes Interesse. Allerdings gibt es immer noch Vorbehalte gegenüber der intellektuellen Indexierung in Bezug auf Qualität und größerem Aufwand der Systemimplementierung bzw. -pflege. Neuere Entwicklungen aus dem Bereich des Wissensmanagements, wie beispielsweise Verfahren aus der Künstlichen Intelligenz, der Informationsextraktion, dem Text Mining bzw. der automatischen Klassifikation sollen die automatische Indexierung aufwerten und verbessern. Damit soll eine intelligentere und mehr inhaltsbasierte Erschließung geleistet werden. In dieser Masterarbeit wird außerhalb der Darstellung von Grundlagen und Verfahren der automatischen Indexierung sowie neueren Entwicklungen auch Möglichkeiten der Evaluation dargestellt. Die mögliche Anwendung der automatischen Indexierung im DFG-ProjektGemeinsames Portal für Bibliotheken, Archive und Museen (BAM)" bilden den Schwerpunkt der Arbeit. Im Portal steht die bibliothekarische Erschließung von Texten im Vordergrund. In einem umfangreichen Test werden drei deutsche, linguistische Systeme mit statistischen Verfahren kombiniert (die aber teilweise im System bereits integriert ist) und evaluiert, allerdings nur auf der Basis der ausgegebenen Indexate. Abschließend kann festgestellt werden, dass die Ergebnisse und damit die Qualität (bezogen auf die Indexate) von intellektueller und automatischer Indexierung noch signifikant unterschiedlich sind. Die Gründe liegen in noch zu lösenden semantischen Problemen bzw, in der Obereinstimmung mit Worten aus einem Thesaurus, die von einem automatischen Indexierungssystem nicht immer nachvollzogen werden kann. Eine Inhaltsanreicherung mit den Indexaten zum Vorteil beim Retrieval kann, je nach System oder auch über die Einbindung durch einen Thesaurus, erreicht werden.
    Footnote
    Masterarbeit im Studiengang Information Engineering zur Erlagung des Grades eines Master of Science in Information science,
  19. Rapke, K.: Automatische Indexierung von Volltexten für die Gruner+Jahr Pressedatenbank (2001) 0.04
    0.04232825 = product of:
      0.06349237 = sum of:
        0.03822265 = weight(_text_:im in 6386) [ClassicSimilarity], result of:
          0.03822265 = score(doc=6386,freq=4.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.26501122 = fieldWeight in 6386, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.046875 = fieldNorm(doc=6386)
        0.025269728 = product of:
          0.07580918 = sum of:
            0.07580918 = weight(_text_:retrieval in 6386) [ClassicSimilarity], result of:
              0.07580918 = score(doc=6386,freq=12.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.49118498 = fieldWeight in 6386, product of:
                  3.4641016 = tf(freq=12.0), with freq of:
                    12.0 = termFreq=12.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.046875 = fieldNorm(doc=6386)
          0.33333334 = coord(1/3)
      0.6666667 = coord(2/3)
    
    Abstract
    Retrieval Tests sind die anerkannteste Methode, um neue Verfahren der Inhaltserschließung gegenüber traditionellen Verfahren zu rechtfertigen. Im Rahmen einer Diplomarbeit wurden zwei grundsätzlich unterschiedliche Systeme der automatischen inhaltlichen Erschließung anhand der Pressedatenbank des Verlagshauses Gruner + Jahr (G+J) getestet und evaluiert. Untersucht wurde dabei natürlichsprachliches Retrieval im Vergleich zu Booleschem Retrieval. Bei den beiden Systemen handelt es sich zum einen um Autonomy von Autonomy Inc. und DocCat, das von IBM an die Datenbankstruktur der G+J Pressedatenbank angepasst wurde. Ersteres ist ein auf natürlichsprachlichem Retrieval basierendes, probabilistisches System. DocCat demgegenüber basiert auf Booleschem Retrieval und ist ein lernendes System, das auf Grund einer intellektuell erstellten Trainingsvorlage indexiert. Methodisch geht die Evaluation vom realen Anwendungskontext der Textdokumentation von G+J aus. Die Tests werden sowohl unter statistischen wie auch qualitativen Gesichtspunkten bewertet. Ein Ergebnis der Tests ist, dass DocCat einige Mängel gegenüber der intellektuellen Inhaltserschließung aufweist, die noch behoben werden müssen, während das natürlichsprachliche Retrieval von Autonomy in diesem Rahmen und für die speziellen Anforderungen der G+J Textdokumentation so nicht einsetzbar ist
  20. Womser-Hacker, C.: Evaluierung im Information Retrieval (2013) 0.04
    0.041493133 = product of:
      0.062239695 = sum of:
        0.045045823 = weight(_text_:im in 728) [ClassicSimilarity], result of:
          0.045045823 = score(doc=728,freq=2.0), product of:
            0.1442303 = queryWeight, product of:
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.051022716 = queryNorm
            0.3123187 = fieldWeight in 728, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.8267863 = idf(docFreq=7115, maxDocs=44218)
              0.078125 = fieldNorm(doc=728)
        0.017193872 = product of:
          0.051581617 = sum of:
            0.051581617 = weight(_text_:retrieval in 728) [ClassicSimilarity], result of:
              0.051581617 = score(doc=728,freq=2.0), product of:
                0.15433937 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.051022716 = queryNorm
                0.33420905 = fieldWeight in 728, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.078125 = fieldNorm(doc=728)
          0.33333334 = coord(1/3)
      0.6666667 = coord(2/3)
    

Languages

Types

  • a 378
  • s 15
  • el 8
  • m 8
  • r 6
  • x 5
  • p 2
  • d 1
  • More… Less…