Search (228 results, page 2 of 12)

Sack, H.: Hybride Künstliche Intelligenz in der automatisierten Inhaltserschließung (2021) 0.02

0.02310831 = product of:
  0.09243324 = sum of:
    0.017148608 = weight(_text_:23 in 372) [ClassicSimilarity], result of:
      0.017148608 = score(doc=372,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.23759183 = fieldWeight in 372, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.046875 = fieldNorm(doc=372)
    0.017148608 = weight(_text_:23 in 372) [ClassicSimilarity], result of:
      0.017148608 = score(doc=372,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.23759183 = fieldWeight in 372, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.046875 = fieldNorm(doc=372)
    0.016063396 = weight(_text_:und in 372) [ClassicSimilarity], result of:
      0.016063396 = score(doc=372,freq=12.0), product of:
        0.044633795 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02013827 = queryNorm
        0.35989314 = fieldWeight in 372, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.046875 = fieldNorm(doc=372)
    0.017148608 = weight(_text_:23 in 372) [ClassicSimilarity], result of:
      0.017148608 = score(doc=372,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.23759183 = fieldWeight in 372, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.046875 = fieldNorm(doc=372)
    0.024924017 = weight(_text_:der in 372) [ClassicSimilarity], result of:
      0.024924017 = score(doc=372,freq=28.0), product of:
        0.044984195 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.02013827 = queryNorm
        0.55406165 = fieldWeight in 372, product of:
          5.2915025 = tf(freq=28.0), with freq of:
            28.0 = termFreq=28.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.046875 = fieldNorm(doc=372)
  0.25 = coord(5/20)

Abstract: Effizienter (Online-)Zugang zu Bibliotheks- und Archivmaterialien erfordert eine qualitativ hinreichende inhaltliche Erschließung dieser Dokumente. Die passgenaue Verschlagwortung und Kategorisierung dieser unstrukturierten Dokumente ermöglichen einen strukturell gegliederten Zugang sowohl in der analogen als auch in der digitalen Welt. Darüber hinaus erweitert eine vollständige Transkription der Dokumente den Zugang über die Möglichkeiten der Volltextsuche. Angesichts der in jüngster Zeit erzielten spektakulären Erfolge der Künstlichen Intelligenz liegt die Schlussfolgerung nahe, dass auch das Problem der automatisierten Inhaltserschließung für Bibliotheken und Archive als mehr oder weniger gelöst anzusehen wäre. Allerdings lassen sich die oftmals nur in thematisch engen Teilbereichen erzielten Erfolge nicht immer problemlos verallgemeinern oder in einen neuen Kontext übertragen. Das Ziel der vorliegenden Darstellung liegt in der Diskussion des aktuellen Stands der Technik der automatisierten inhaltlichen Erschließung anhand ausgewählter Beispiele sowie möglicher Fortschritte und Prognosen basierend auf aktuellen Entwicklungen des maschinellen Lernens und der Künstlichen Intelligenz einschließlich deren Kritik.
Date: 23. 9.2021 16:09:53
Series: Bibliotheks- und Informationspraxis; 70
Source: Qualität in der Inhaltserschließung. Hrsg.: M. Franke-Maier, u.a

Kasprzik, A.: Voraussetzungen und Anwendungspotentiale einer präzisen Sacherschließung aus Sicht der Wissenschaft (2018) 0.02

0.02200665 = product of:
  0.110033244 = sum of:
    0.01874063 = weight(_text_:und in 5195) [ClassicSimilarity], result of:
      0.01874063 = score(doc=5195,freq=12.0), product of:
        0.044633795 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02013827 = queryNorm
        0.41987535 = fieldWeight in 5195, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5195)
    0.059151303 = weight(_text_:methoden in 5195) [ClassicSimilarity], result of:
      0.059151303 = score(doc=5195,freq=4.0), product of:
        0.10436003 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.02013827 = queryNorm
        0.56680036 = fieldWeight in 5195, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5195)
    0.025774913 = weight(_text_:der in 5195) [ClassicSimilarity], result of:
      0.025774913 = score(doc=5195,freq=22.0), product of:
        0.044984195 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.02013827 = queryNorm
        0.57297707 = fieldWeight in 5195, product of:
          4.690416 = tf(freq=22.0), with freq of:
            22.0 = termFreq=22.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5195)
    0.006366401 = product of:
      0.019099202 = sum of:
        0.019099202 = weight(_text_:22 in 5195) [ClassicSimilarity], result of:
          0.019099202 = score(doc=5195,freq=2.0), product of:
            0.07052079 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.02013827 = queryNorm
            0.2708308 = fieldWeight in 5195, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0546875 = fieldNorm(doc=5195)
      0.33333334 = coord(1/3)
  0.2 = coord(4/20)

Abstract: Große Aufmerksamkeit richtet sich im Moment auf das Potential von automatisierten Methoden in der Sacherschließung und deren Interaktionsmöglichkeiten mit intellektuellen Methoden. In diesem Kontext befasst sich der vorliegende Beitrag mit den folgenden Fragen: Was sind die Anforderungen an bibliothekarische Metadaten aus Sicht der Wissenschaft? Was wird gebraucht, um den Informationsbedarf der Fachcommunities zu bedienen? Und was bedeutet das entsprechend für die Automatisierung der Metadatenerstellung und -pflege? Dieser Beitrag fasst die von der Autorin eingenommene Position in einem Impulsvortrag und der Podiumsdiskussion beim Workshop der FAG "Erschließung und Informationsvermittlung" des GBV zusammen. Der Workshop fand im Rahmen der 22. Verbundkonferenz des GBV statt.

Kasprzik, A.: Aufbau eines produktiven Dienstes für die automatisierte Inhaltserschließung an der ZBW : ein Status- und Erfahrungsbericht. (2023) 0.02

0.021995079 = product of:
  0.087980315 = sum of:
    0.019808875 = weight(_text_:software in 935) [ClassicSimilarity], result of:
      0.019808875 = score(doc=935,freq=4.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.24794699 = fieldWeight in 935, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.03125 = fieldNorm(doc=935)
    0.013825171 = weight(_text_:und in 935) [ClassicSimilarity], result of:
      0.013825171 = score(doc=935,freq=20.0), product of:
        0.044633795 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02013827 = queryNorm
        0.3097467 = fieldWeight in 935, product of:
          4.472136 = tf(freq=20.0), with freq of:
            20.0 = termFreq=20.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=935)
    0.019808875 = weight(_text_:software in 935) [ClassicSimilarity], result of:
      0.019808875 = score(doc=935,freq=4.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.24794699 = fieldWeight in 935, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.03125 = fieldNorm(doc=935)
    0.014728521 = weight(_text_:der in 935) [ClassicSimilarity], result of:
      0.014728521 = score(doc=935,freq=22.0), product of:
        0.044984195 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.02013827 = queryNorm
        0.32741547 = fieldWeight in 935, product of:
          4.690416 = tf(freq=22.0), with freq of:
            22.0 = termFreq=22.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.03125 = fieldNorm(doc=935)
    0.019808875 = weight(_text_:software in 935) [ClassicSimilarity], result of:
      0.019808875 = score(doc=935,freq=4.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.24794699 = fieldWeight in 935, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.03125 = fieldNorm(doc=935)
  0.25 = coord(5/20)

Abstract: Die ZBW - Leibniz-Informationszentrum Wirtschaft betreibt seit 2016 eigene angewandte Forschung im Bereich Machine Learning mit dem Zweck, praktikable Lösungen für eine automatisierte oder maschinell unterstützte Inhaltserschließung zu entwickeln. 2020 begann ein Team an der ZBW die Konzeption und Implementierung einer Softwarearchitektur, die es ermöglichte, diese prototypischen Lösungen in einen produktiven Dienst zu überführen und mit den bestehenden Nachweis- und Informationssystemen zu verzahnen. Sowohl die angewandte Forschung als auch die für dieses Vorhaben ("AutoSE") notwendige Softwareentwicklung sind direkt im Bibliotheksbereich der ZBW angesiedelt, werden kontinuierlich anhand des State of the Art vorangetrieben und profitieren von einem engen Austausch mit den Verantwortlichen für die intellektuelle Inhaltserschließung. Dieser Beitrag zeigt die Meilensteine auf, die das AutoSE-Team in zwei Jahren in Bezug auf den Aufbau und die Integration der Software erreicht hat, und skizziert, welche bis zum Ende der Pilotphase (2024) noch ausstehen. Die Architektur basiert auf Open-Source-Software und die eingesetzten Machine-Learning-Komponenten werden im Rahmen einer internationalen Zusammenarbeit im engen Austausch mit der Finnischen Nationalbibliothek (NLF) weiterentwickelt und zur Nachnutzung in dem von der NLF entwickelten Open-Source-Werkzeugkasten Annif aufbereitet. Das Betriebsmodell des AutoSE-Dienstes sieht regelmäßige Überprüfungen sowohl einzelner Komponenten als auch des Produktionsworkflows als Ganzes vor und erlaubt eine fortlaufende Weiterentwicklung der Architektur. Eines der Ergebnisse, das bis zum Ende der Pilotphase vorliegen soll, ist die Dokumentation der Anforderungen an einen dauerhaften produktiven Betrieb des Dienstes, damit die Ressourcen dafür im Rahmen eines tragfähigen Modells langfristig gesichert werden können. Aus diesem Praxisbeispiel lässt sich ableiten, welche Bedingungen gegeben sein müssen, um Machine-Learning-Lösungen wie die in Annif enthaltenen erfolgreich an einer Institution für die Inhaltserschließung einsetzen zu können.

Faraj, N.: Analyse d'une methode d'indexation automatique basée sur une analyse syntaxique de texte (1996) 0.02

0.021946156 = product of:
  0.10973078 = sum of:
    0.028013978 = weight(_text_:software in 685) [ClassicSimilarity], result of:
      0.028013978 = score(doc=685,freq=2.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.35064998 = fieldWeight in 685, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.0625 = fieldNorm(doc=685)
    0.028013978 = weight(_text_:software in 685) [ClassicSimilarity], result of:
      0.028013978 = score(doc=685,freq=2.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.35064998 = fieldWeight in 685, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.0625 = fieldNorm(doc=685)
    0.028013978 = weight(_text_:software in 685) [ClassicSimilarity], result of:
      0.028013978 = score(doc=685,freq=2.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.35064998 = fieldWeight in 685, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.0625 = fieldNorm(doc=685)
    0.025688844 = product of:
      0.051377688 = sum of:
        0.051377688 = weight(_text_:engineering in 685) [ClassicSimilarity], result of:
          0.051377688 = score(doc=685,freq=2.0), product of:
            0.10819342 = queryWeight, product of:
              5.372528 = idf(docFreq=557, maxDocs=44218)
              0.02013827 = queryNorm
            0.47486886 = fieldWeight in 685, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.372528 = idf(docFreq=557, maxDocs=44218)
              0.0625 = fieldNorm(doc=685)
      0.5 = coord(1/2)
  0.2 = coord(4/20)

Abstract: Evaluates an automatic indexing method based on syntactical text analysis combined with statistical analysis. Tests many combinations for the choice of term categories and weighting methods. The experiment, conducted on a software engineering corpus, shows systematic improvement in the use of syntactic term phrases compared to using only individual words as index terms

Ward, M.L.: ¬The future of the human indexer (1996) 0.02

0.02193875 = product of:
  0.087755 = sum of:
    0.021010485 = weight(_text_:software in 7244) [ClassicSimilarity], result of:
      0.021010485 = score(doc=7244,freq=2.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.2629875 = fieldWeight in 7244, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.046875 = fieldNorm(doc=7244)
    0.021010485 = weight(_text_:software in 7244) [ClassicSimilarity], result of:
      0.021010485 = score(doc=7244,freq=2.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.2629875 = fieldWeight in 7244, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.046875 = fieldNorm(doc=7244)
    0.021010485 = weight(_text_:software in 7244) [ClassicSimilarity], result of:
      0.021010485 = score(doc=7244,freq=2.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.2629875 = fieldWeight in 7244, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.046875 = fieldNorm(doc=7244)
    0.019266631 = product of:
      0.038533263 = sum of:
        0.038533263 = weight(_text_:engineering in 7244) [ClassicSimilarity], result of:
          0.038533263 = score(doc=7244,freq=2.0), product of:
            0.10819342 = queryWeight, product of:
              5.372528 = idf(docFreq=557, maxDocs=44218)
              0.02013827 = queryNorm
            0.35615164 = fieldWeight in 7244, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.372528 = idf(docFreq=557, maxDocs=44218)
              0.046875 = fieldNorm(doc=7244)
      0.5 = coord(1/2)
    0.005456915 = product of:
      0.016370745 = sum of:
        0.016370745 = weight(_text_:22 in 7244) [ClassicSimilarity], result of:
          0.016370745 = score(doc=7244,freq=2.0), product of:
            0.07052079 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.02013827 = queryNorm
            0.23214069 = fieldWeight in 7244, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.046875 = fieldNorm(doc=7244)
      0.33333334 = coord(1/3)
  0.25 = coord(5/20)

Abstract: Considers the principles of indexing and the intellectual skills involved in order to determine what automatic indexing systems would be required in order to supplant or complement the human indexer. Good indexing requires: considerable prior knowledge of the literature; judgement as to what to index and what depth to index; reading skills; abstracting skills; and classification skills, Illustrates these features with a detailed description of abstracting and indexing processes involved in generating entries for the mechanical engineering database POWERLINK. Briefly assesses the possibility of replacing human indexers with specialist indexing software, with particular reference to the Object Analyzer from the InTEXT automatic indexing system and using the criteria described for human indexers. At present, it is unlikely that the automatic indexer will replace the human indexer, but when more primary texts are available in electronic form, it may be a useful productivity tool for dealing with large quantities of low grade texts (should they be wanted in the database)
Date: 9. 2.1997 18:44:22

Kempf, A.O.: Automatische Inhaltserschließung in der Fachinformation (2013) 0.02

0.021913076 = product of:
  0.0876523 = sum of:
    0.017508736 = weight(_text_:software in 905) [ClassicSimilarity], result of:
      0.017508736 = score(doc=905,freq=2.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.21915624 = fieldWeight in 905, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.0390625 = fieldNorm(doc=905)
    0.010929758 = weight(_text_:und in 905) [ClassicSimilarity], result of:
      0.010929758 = score(doc=905,freq=8.0), product of:
        0.044633795 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02013827 = queryNorm
        0.24487628 = fieldWeight in 905, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=905)
    0.017508736 = weight(_text_:software in 905) [ClassicSimilarity], result of:
      0.017508736 = score(doc=905,freq=2.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.21915624 = fieldWeight in 905, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.0390625 = fieldNorm(doc=905)
    0.024196338 = weight(_text_:der in 905) [ClassicSimilarity], result of:
      0.024196338 = score(doc=905,freq=38.0), product of:
        0.044984195 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.02013827 = queryNorm
        0.5378853 = fieldWeight in 905, product of:
          6.164414 = tf(freq=38.0), with freq of:
            38.0 = termFreq=38.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.0390625 = fieldNorm(doc=905)
    0.017508736 = weight(_text_:software in 905) [ClassicSimilarity], result of:
      0.017508736 = score(doc=905,freq=2.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.21915624 = fieldWeight in 905, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.0390625 = fieldNorm(doc=905)
  0.25 = coord(5/20)

Abstract: Der Artikel basiert auf einer Masterarbeit mit dem Titel "Automatische Indexierung in der sozialwissenschaftlichen Fachinformation. Eine Evaluationsstudie zur maschinellen Erschließung für die Datenbank SOLIS" (Kempf 2012), die im Rahmen des Aufbaustudiengangs Bibliotheks- und Informationswissenschaft an der Humboldt- Universität zu Berlin am Lehrstuhl Information Retrieval verfasst wurde. Auf der Grundlage des Schalenmodells zur Inhaltserschließung in der Fachinformation stellt der Artikel Evaluationsergebnisse eines automatischen Erschließungsverfahrens für den Einsatz in der sozialwissenschaftlichen Fachinformation vor. Ausgehend von dem von Krause beschriebenen Anwendungsszenario, wonach SOLIS-Datenbestände (Sozialwissenschaftliches Literaturinformationssystem) von geringerer Relevanz automatisch erschlossen werden sollten, wurden auf dieser Dokumentgrundlage zwei Testreihen mit der Indexierungssoftware MindServer der Firma Recommind durchgeführt. Neben den Auswirkungen allgemeiner Systemeinstellungen in der ersten Testreihe wurde in der zweiten Testreihe die Indexierungsleistung der Software für die Rand- und die Kernbereiche der Literaturdatenbank miteinander verglichen. Für letztere Testreihe wurden für beide Bereiche der Datenbank spezifische Versionen der Indexierungssoftware aufgebaut, die anhand von Dokumentkorpora aus den entsprechenden Bereichen trainiert wurden. Die Ergebnisse der Evaluation, die auf der Grundlage intellektuell generierter Vergleichsdaten erfolgt, weisen auf Unterschiede in der Indexierungsleistung zwischen Rand- und Kernbereichen hin, die einerseits gegen den Einsatz automatischer Indexierungsverfahren in den Randbereichen sprechen. Andererseits deutet sich an, dass sich die Indexierungsresultate durch den Aufbau fachteilgebietsspezifischer Trainingsmengen verbessern lassen.
Source: Information - Wissenschaft und Praxis. 64(2013) H.2/3, S.96-106

Yu, C.T.; Salton, G.: Precision weighting : an effective automatic indexing method (1976) 0.02

0.020578332 = product of:
  0.13718888 = sum of:
    0.045729626 = weight(_text_:23 in 5490) [ClassicSimilarity], result of:
      0.045729626 = score(doc=5490,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.63357824 = fieldWeight in 5490, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.125 = fieldNorm(doc=5490)
    0.045729626 = weight(_text_:23 in 5490) [ClassicSimilarity], result of:
      0.045729626 = score(doc=5490,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.63357824 = fieldWeight in 5490, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.125 = fieldNorm(doc=5490)
    0.045729626 = weight(_text_:23 in 5490) [ClassicSimilarity], result of:
      0.045729626 = score(doc=5490,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.63357824 = fieldWeight in 5490, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.125 = fieldNorm(doc=5490)
  0.15 = coord(3/20)

Source: Journal of the Association for Computing Machinery. 23(1976), S.76-88

Salton, G.: Another look at automatic text-retrieval systems (1986) 0.02

0.019901834 = product of:
  0.09950917 = sum of:
    0.028581016 = weight(_text_:23 in 1356) [ClassicSimilarity], result of:
      0.028581016 = score(doc=1356,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.3959864 = fieldWeight in 1356, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.078125 = fieldNorm(doc=1356)
    0.028581016 = weight(_text_:23 in 1356) [ClassicSimilarity], result of:
      0.028581016 = score(doc=1356,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.3959864 = fieldWeight in 1356, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.078125 = fieldNorm(doc=1356)
    0.028581016 = weight(_text_:23 in 1356) [ClassicSimilarity], result of:
      0.028581016 = score(doc=1356,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.3959864 = fieldWeight in 1356, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.078125 = fieldNorm(doc=1356)
    0.013766123 = product of:
      0.027532246 = sum of:
        0.027532246 = weight(_text_:29 in 1356) [ClassicSimilarity], result of:
          0.027532246 = score(doc=1356,freq=2.0), product of:
            0.070840135 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.02013827 = queryNorm
            0.38865322 = fieldWeight in 1356, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.078125 = fieldNorm(doc=1356)
      0.5 = coord(1/2)
  0.2 = coord(4/20)

Footnote: Bezugnahme auf: Blair, D.C.: An evaluation of retrieval effectiveness for a full-text document-retrieval system. Comm. ACM 28(1985) S.280-299. - Vgl. auch: Blair, D.C.: Full text retrieval ... Int. Class. 13(1986) S.18-23; Blair, D.C., M.E. Maron: full-text information retrieval ... Inf. Proc. Man. 26(1990) S.437-447.
Source: Communications of the Association for Computing Machinery. 29(1986), S.648-656

Bredack, J.: Terminologieextraktion von Mehrwortgruppen in kunsthistorischen Fachtexten (2013) 0.02
```
0.019195372 = product of:
  0.07678149 = sum of:
    0.017332766 = weight(_text_:software in 1054) [ClassicSimilarity], result of:
      0.017332766 = score(doc=1054,freq=4.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.21695362 = fieldWeight in 1054, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02734375 = fieldNorm(doc=1054)
    0.013792731 = weight(_text_:und in 1054) [ClassicSimilarity], result of:
      0.013792731 = score(doc=1054,freq=26.0), product of:
        0.044633795 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02013827 = queryNorm
        0.3090199 = fieldWeight in 1054, product of:
          5.0990195 = tf(freq=26.0), with freq of:
            26.0 = termFreq=26.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02734375 = fieldNorm(doc=1054)
    0.017332766 = weight(_text_:software in 1054) [ClassicSimilarity], result of:
      0.017332766 = score(doc=1054,freq=4.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.21695362 = fieldWeight in 1054, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02734375 = fieldNorm(doc=1054)
    0.0109904595 = weight(_text_:der in 1054) [ClassicSimilarity], result of:
      0.0109904595 = score(doc=1054,freq=16.0), product of:
        0.044984195 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.02013827 = queryNorm
        0.24431825 = fieldWeight in 1054, product of:
          4.0 = tf(freq=16.0), with freq of:
            16.0 = termFreq=16.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.02734375 = fieldNorm(doc=1054)
    0.017332766 = weight(_text_:software in 1054) [ClassicSimilarity], result of:
      0.017332766 = score(doc=1054,freq=4.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.21695362 = fieldWeight in 1054, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02734375 = fieldNorm(doc=1054)
  0.25 = coord(5/20)
```
Abstract

Mit Hilfe eines algorithmisch arbeitenden Verfahrens können Mehrwortgruppen aus elektronisch vorliegenden Texten identifiziert und extrahiert werden. Als Datengrundlage für diese Arbeit dienen kunsthistorische Lexikonartikel des Reallexikons zur Deutschen Kunstgeschichte. Die linguistisch, wörterbuchbasierte Open-Source-Software Lingo wurde in dieser Studie genutzt. Mit Lingo ist es möglich, auf Basis erstellter Wortmuster, bestimmte Wortfolgen aus elektronisch vorliegenden Daten algorithmisch zu identifizieren und zu extrahieren. Die erstellten Wortmuster basieren auf Wortklassen, mit denen die lexikalisierten Einträge in den Wörterbüchern getaggt sind und dadurch näher definiert werden. So wurden individuelle Wortklassen für Fachterminologie, Eigennamen, oder Adjektive vergeben. In der vorliegenden Arbeit werden zusätzlich Funktionswörter in die Musterbildung mit einbezogen. Dafür wurden neue Wortklassen definiert. Funktionswörter bestimmen Artikel, Konjunktionen und Präpositionen. Ziel war es fachterminologische Mehrwortgruppen mit kunsthistorischen Inhalten zu extrahieren unter der gezielten Einbindung von Funktionswörtern. Anhand selbst gebildeter Kriterien, wurden die extrahierten Mehrwortgruppen qualitativ analysiert. Es konnte festgestellt werden, dass die Verwendung von Funktionswörtern fachterminologische Mehrwortgruppen erzeugt, die als potentielle Indexterme weitere Verwendung im Information Retrieval finden können.
Mehrwortgruppen sind als lexikalische Einheit zu betrachten und bestehen aus mindestens zwei miteinander in Verbindung stehenden Begriffen. Durch die Ver-bindung mehrerer Fachwörter transportieren sie in Fachtexten aussagekräftige Informationen. Sie vermitteln eindeutige Informationen, da aus den resultierenden Beziehungen zwischen den in Verbindung stehenden Fachbegriffen die inhaltliche Bedeutung eines Fachtextes ersichtlich wird. Demzufolge ist es sinnvoll, Mehrwort-gruppen aus Fachtexten zu extrahieren, da diese die Inhalte eindeutig repräsentieren. So können Mehrwortgruppen für eine inhaltliche Erschließung genutzt und beispiels-weise als Indexterme im Information Retrieval bereitgestellt werden. Mehrwortgruppen enthalten Informationen eines Textes, die in natürlicher Sprache vorliegen. Zur Extraktion von Informationen eines elektronisch vorliegenden Textes kommen maschinelle Verfahren zum Einsatz, da Sprache Strukturen aufweist, die maschinell verarbeitet werden können. Eine mögliche Methode Mehrwortgruppen innerhalb von elektronisch vorliegenden Fachtexten zu identifizieren und extrahieren ist ein algorithmisches Verfahren. Diese Methode erkennt Wortfolgen durch das Bilden von Wortmustern, aus denen sich eine Mehrwortgruppe in einem Text zusammensetzt. Die Wortmuster repräsentieren somit die einzelnen Bestandteile einer Mehrwortgruppe. Bereits an mathematischen Fachtexten wurde dieses Verfahren untersucht und analysiert. Relevante Mehrwortgruppen, die ein mathematisches Konzept oder mathe-matischen Inhalt repräsentierten, konnten erfolgreich extrahiert werden. Zum Einsatz kam das Indexierungssystem Lingo, mit dessen Programmodul sequencer eine algorithmische Identifizierung und Extraktion von Mehrwortgruppen möglich ist. In der vorliegenden Arbeit wird dieses algorithmische Verfahren unter Einsatz der Software Lingo genutzt, um Mehrwortgruppen aus kunsthistorischen Fachtexten zu extrahieren. Als Datenquelle dienen kunsthistorische Lexikonartikel aus dem Reallexikon zur Deutschen Kunstgeschichte, welches in deutscher Sprache vorliegt. Es wird untersucht, ob positive Ergebnisse im Sinne von fachterminologischen Mehrwort-gruppen mit kunsthistorischen Inhalten erzeugt werden können. Dabei soll zusätzlich die Einbindung von Funktionswörtern innerhalb einer Mehrwortgruppe erfolgen. Funktionswörter definieren Artikel, Konjunktionen und Präpositionen, die für sich alleinstehend keine inhaltstragende Bedeutung besitzen, allerdings innerhalb einer Mehrwortgruppe syntaktische Funktionen erfüllen. Anhand der daraus resultierenden Ergebnisse wird analysiert, ob das Hinzufügen von Funktionswörtern innerhalb einer Mehrwortgruppe zu positiven Ergebnissen führt. Ziel soll es demnach sein, fach-terminologische Mehrwortgruppen mit kunsthistorischen Inhalten zu erzeugen, unter Einbindung von Funktionswörtern. Bei der Extraktion fachterminologischer Mehrwortgruppen wird im Folgenden insbesondere auf die Erstellung von Wortmustern eingegangen, da diese die Basis liefern, mit welchen das Programmmodul sequencer Wortfolgen innerhalb der kunst-historischen Lexikonartikel identifiziert. Eine Einordung der Indexierungsergebnisse erfolgt anhand selbst gebildeter Kriterien, die definieren, was unter einer fach-terminologischen Mehrwortgruppe zu verstehen ist.

Content

Beiliegende CD enthält die Arbeitsergebnisse und Hilfsdateien

Footnote

Bachelorarbeit, Studiengang Bibliothekswesen, Fakultät für Informations- und Kommunikationswissenschaften, Fachhochschule Köln.

Imprint

Köln : Fachhochschule, Fakultät für Informations- und Kommunikationswissenschaften

Rapke, K.: Automatische Indexierung von Volltexten für die Gruner+Jahr Pressedatenbank (2001) 0.02

0.019184796 = product of:
  0.076739185 = sum of:
    0.014290508 = weight(_text_:23 in 5863) [ClassicSimilarity], result of:
      0.014290508 = score(doc=5863,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.1979932 = fieldWeight in 5863, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5863)
    0.014290508 = weight(_text_:23 in 5863) [ClassicSimilarity], result of:
      0.014290508 = score(doc=5863,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.1979932 = fieldWeight in 5863, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5863)
    0.015457011 = weight(_text_:und in 5863) [ClassicSimilarity], result of:
      0.015457011 = score(doc=5863,freq=16.0), product of:
        0.044633795 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02013827 = queryNorm
        0.34630734 = fieldWeight in 5863, product of:
          4.0 = tf(freq=16.0), with freq of:
            16.0 = termFreq=16.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5863)
    0.014290508 = weight(_text_:23 in 5863) [ClassicSimilarity], result of:
      0.014290508 = score(doc=5863,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.1979932 = fieldWeight in 5863, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5863)
    0.018410651 = weight(_text_:der in 5863) [ClassicSimilarity], result of:
      0.018410651 = score(doc=5863,freq=22.0), product of:
        0.044984195 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.02013827 = queryNorm
        0.40926933 = fieldWeight in 5863, product of:
          4.690416 = tf(freq=22.0), with freq of:
            22.0 = termFreq=22.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5863)
  0.25 = coord(5/20)

Abstract: Retrievaltests sind die anerkannteste Methode, um neue Verfahren der Inhaltserschließung gegenüber traditionellen Verfahren zu rechtfertigen. Im Rahmen einer Diplomarbeit wurden zwei grundsätzlich unterschiedliche Systeme der automatischen inhaltlichen Erschließung anhand der Pressedatenbank des Verlagshauses Gruner + Jahr (G+J) getestet und evaluiert. Untersucht wurde dabei natürlichsprachliches Retrieval im Vergleich zu Booleschem Retrieval. Bei den beiden Systemen handelt es sich zum einen um Autonomy von Autonomy Inc. und DocCat, das von IBM an die Datenbankstruktur der G+J Pressedatenbank angepasst wurde. Ersteres ist ein auf natürlichsprachlichem Retrieval basierendes, probabilistisches System. DocCat demgegenüber basiert auf Booleschem Retrieval und ist ein lernendes System, das aufgrund einer intellektuell erstellten Trainingsvorlage indexiert. Methodisch geht die Evaluation vom realen Anwendungskontext der Textdokumentation von G+J aus. Die Tests werden sowohl unter statistischen wie auch qualitativen Gesichtspunkten bewertet. Ein Ergebnis der Tests ist, dass DocCat einige Mängel gegenüber der intellektuellen Inhaltserschließung aufweist, die noch behoben werden müssen, während das natürlichsprachliche Retrieval von Autonomy in diesem Rahmen und für die speziellen Anforderungen der G+J Textdokumentation so nicht einsetzbar ist
Series: Tagungen der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis; 4
Source: Information Research & Content Management: Orientierung, Ordnung und Organisation im Wissensmarkt; 23. DGI-Online-Tagung der DGI und 53. Jahrestagung der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis e.V. DGI, Frankfurt am Main, 8.-10.5.2001. Proceedings. Hrsg.: R. Schmidt

Hlava, M.M.K.: Machine aided indexing (MAI) in a multilingual environment (1993) 0.02

0.019105393 = product of:
  0.12736928 = sum of:
    0.04245643 = weight(_text_:software in 7405) [ClassicSimilarity], result of:
      0.04245643 = score(doc=7405,freq=6.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.53142565 = fieldWeight in 7405, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.0546875 = fieldNorm(doc=7405)
    0.04245643 = weight(_text_:software in 7405) [ClassicSimilarity], result of:
      0.04245643 = score(doc=7405,freq=6.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.53142565 = fieldWeight in 7405, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.0546875 = fieldNorm(doc=7405)
    0.04245643 = weight(_text_:software in 7405) [ClassicSimilarity], result of:
      0.04245643 = score(doc=7405,freq=6.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.53142565 = fieldWeight in 7405, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.0546875 = fieldNorm(doc=7405)
  0.15 = coord(3/20)

Abstract: The machine aided indexing (MAI) software devloped by Access Innovations, Inc., is a semantic based, Boolean statement, rule interpreting application with 3 modules: the MA engine which accepts input files, matches terms in the knowledge base, interprets rules, and outputs a text file with suggested indexing terms; a rule building application allowing each Boolean style rule in the knowledge base to be created or modifies; and a statistical computation module which analyzes performance of the MA software against text manually indexed by professional human indexers. The MA software can be applied across multiple languages and can be used where the text to be searched is in one language and the indexes to be output are in another

Oberhauser, O.; Labner, J.: OPAC-Erweiterung durch automatische Indexierung : Empirische Untersuchung mit Daten aus dem Österreichischen Verbundkatalog (2002) 0.02

0.019031703 = product of:
  0.076126814 = sum of:
    0.017148608 = weight(_text_:23 in 883) [ClassicSimilarity], result of:
      0.017148608 = score(doc=883,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.23759183 = fieldWeight in 883, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.046875 = fieldNorm(doc=883)
    0.017148608 = weight(_text_:23 in 883) [ClassicSimilarity], result of:
      0.017148608 = score(doc=883,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.23759183 = fieldWeight in 883, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.046875 = fieldNorm(doc=883)
    0.011358538 = weight(_text_:und in 883) [ClassicSimilarity], result of:
      0.011358538 = score(doc=883,freq=6.0), product of:
        0.044633795 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02013827 = queryNorm
        0.2544829 = fieldWeight in 883, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.046875 = fieldNorm(doc=883)
    0.017148608 = weight(_text_:23 in 883) [ClassicSimilarity], result of:
      0.017148608 = score(doc=883,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.23759183 = fieldWeight in 883, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.046875 = fieldNorm(doc=883)
    0.013322448 = weight(_text_:der in 883) [ClassicSimilarity], result of:
      0.013322448 = score(doc=883,freq=8.0), product of:
        0.044984195 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.02013827 = queryNorm
        0.29615843 = fieldWeight in 883, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.046875 = fieldNorm(doc=883)
  0.25 = coord(5/20)

Abstract: In Anlehnung an die in den neunziger Jahren durchgeführten Erschließungsprojekte MILOS I und MILOS II, die die Eignung eines Verfahrens zur automatischen Indexierung für Bibliothekskataloge zum Thema hatten, wurde eine empirische Untersuchung anhand einer repräsentativen Stichprobe von Titelsätzen aus dem Österreichischen Verbundkatalog durchgeführt. Ziel war die Prüfung und Bewertung der Einsatzmöglichkeit dieses Verfahrens in den Online-Katalogen des Verbundes. Der Realsituation der OPAC-Benutzung gemäß wurde ausschließlich die Auswirkung auf den automatisch generierten Begriffen angereicherten Basic Index ("Alle Felder") untersucht. Dazu wurden 100 Suchanfragen zunächst im ursprünglichen Basic Index und sodann im angereicherten Basic Index in einem OPAC unter Aleph 500 durchgeführt. Die Tests erbrachten einen Zuwachs an relevanten Treffern bei nur leichten Verlusten an Precision, eine Reduktion der Nulltreffer-Ergebnisse sowie Aufschlüsse über die Auswirkung einer vorhandenen verbalen Sacherschließung.
Source: ABI-Technik. 23(2003) H.4, S.305-314

Salton, G.: ¬A new comparison between conventional indexing (MEDLARS) and automatic text processing (SMART) (1972) 0.02

0.018006042 = product of:
  0.12004027 = sum of:
    0.04001342 = weight(_text_:23 in 2325) [ClassicSimilarity], result of:
      0.04001342 = score(doc=2325,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.55438095 = fieldWeight in 2325, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.109375 = fieldNorm(doc=2325)
    0.04001342 = weight(_text_:23 in 2325) [ClassicSimilarity], result of:
      0.04001342 = score(doc=2325,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.55438095 = fieldWeight in 2325, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.109375 = fieldNorm(doc=2325)
    0.04001342 = weight(_text_:23 in 2325) [ClassicSimilarity], result of:
      0.04001342 = score(doc=2325,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.55438095 = fieldWeight in 2325, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.109375 = fieldNorm(doc=2325)
  0.15 = coord(3/20)

Source: Journal of the American Society for Information Science. 23(1972), S.75-84

Gaus, W.; Kaluscha, R.: Maschinelle inhaltliche Erschließung von Arztbriefen und Auswertung von Reha-Entlassungsberichten (2006) 0.02
```
0.017915964 = product of:
  0.07166386 = sum of:
    0.0114324065 = weight(_text_:23 in 6078) [ClassicSimilarity], result of:
      0.0114324065 = score(doc=6078,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.15839456 = fieldWeight in 6078, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.03125 = fieldNorm(doc=6078)
    0.0114324065 = weight(_text_:23 in 6078) [ClassicSimilarity], result of:
      0.0114324065 = score(doc=6078,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.15839456 = fieldWeight in 6078, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.03125 = fieldNorm(doc=6078)
    0.019056682 = weight(_text_:und in 6078) [ClassicSimilarity], result of:
      0.019056682 = score(doc=6078,freq=38.0), product of:
        0.044633795 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02013827 = queryNorm
        0.42695636 = fieldWeight in 6078, product of:
          6.164414 = tf(freq=38.0), with freq of:
            38.0 = termFreq=38.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=6078)
    0.0114324065 = weight(_text_:23 in 6078) [ClassicSimilarity], result of:
      0.0114324065 = score(doc=6078,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.15839456 = fieldWeight in 6078, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.03125 = fieldNorm(doc=6078)
    0.018309955 = weight(_text_:der in 6078) [ClassicSimilarity], result of:
      0.018309955 = score(doc=6078,freq=34.0), product of:
        0.044984195 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.02013827 = queryNorm
        0.40703082 = fieldWeight in 6078, product of:
          5.8309517 = tf(freq=34.0), with freq of:
            34.0 = termFreq=34.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.03125 = fieldNorm(doc=6078)
  0.25 = coord(5/20)
```
Abstract

Schon Hippokrates empfahl den Ärzten, Krankenakten zu führen. Heute ist die detaillierte Dokumentation eine Standespflicht der Ärzte [Gaus et al 1999]. Diese Dokumentationen medizinischer Behandlungen bergen einen riesigen und wertvollen Erfahrungsschatz. Informationen zu Therapien und Behandlungsergebnissen, die in Studien erst mühsam erhoben werden müssten, sind bereits in der Routinedokumentation wie Operations- und Entlassungsberichten oder Arztbriefen zahlreich vorhanden. Mit der Einführung der elektronischen Datenverarbeitung in der Medizin liegen diese Informationen seit einigen Jahren auch maschinenlesbar vor, so dass ein Haupthemmnis für die Nutzung dieser Dokumentationen, nämlich die mühsame manuelle Aufbereitung der Papierakten, entfällt. Während die formale Erschließung nach Patientenmerkmalen wie Name und Geburtsdatum von den Krankenhaus- bzw. Praxisinformationssystemen heutzutage gut gelöst ist, bleibt die inhaltliche Erschließung dieser Dokumentationen schwierig, da nur wenige Informationen in strukturierter oder intellektuell indexierter Form vorliegen [Leiner et al. 2003]. Auch wenn nach der Einführung der Fallpauschalen (diagnosis related groups, DRG) in den Krankenhäusern die Diagnosen nach ICD-10 verschlüsselt werden, besteht ein Großteil der Informationen weiterhin aus freiem Text, dessen computerbasierte Erschließung aufgrund der Komplexität menschlicher Sprache nicht trivial ist. Zu diesen medizinischen Texten gehören u.a. Gutachten, verbal beschriebene (Differential-) Diagnosen, vielfältige Untersuchungs- und Befundberichte, Visitenblätter, Operationsberichte und der Arztbrief bzw. Entlassungsbericht. Arztbrief und Entlassbericht dienen der Information des einweisenden oder weiterbehandelnden Arztes (z.B. Hausarzt) über das, was mit dem Patienten geschehen ist, und geben Empfehlungen zur Weiterbehandlung. Sie fassen eine (stationäre) Behandlung epikritisch - also nachdem die Krankheit überwunden ist, im Rückblick - zusammen und geben einen Überblick über Anamnese (Vorgeschichte), Beschwerden und Symptome, die eingesetzten diagnostischen Verfahren, die gestellte(n) Diagnose(n), Therapie, Verlauf, Komplikationen und das erzielte Ergebnis. Sie haben somit eine ähnliche Funktion wie das Abstract in der Literaturdokumentation, oft wird eine Kopie in der Krankenakte obenauf abgelegt. Zumindest in Universitätskliniken möchten wissenschaftlich arbeitende Ärzte auch unter inhaltlichen Gesichtspunkten auf die Krankenakten zugreifen können, z.B. die Krankenakten aller Patienten mit einer bestimmten Diagnose einsehen, exzerpieren und die exzerpierten Daten auswerten. Auch bei der Suche nach ähnlichen Fällen oder im Bereich der Aus- und Fortbildung hilft eine inhaltliche Erschließung weiter. So könnte etwa ein Assistenzarzt, der im Rahmen seiner Weiterbildung demnächst Sonografien des Kniegelenkes durchzuführen hat, sich vorhandene Berichte von solchen Sonografien anschauen und sich so über relevante Untersuchungstechniken und Befunde vorab informieren.

Date

13.10.2006 9:35:23

Source

Information und Sprache: Beiträge zu Informationswissenschaft, Computerlinguistik, Bibliothekswesen und verwandten Fächern. Festschrift für Harald H. Zimmermann. Herausgegeben von Ilse Harms, Heinz-Dirk Luckhardt und Hans W. Giessen

Nohr, H.: Theorie des Information Retrieval II : Automatische Indexierung (2004) 0.02

0.017444495 = product of:
  0.06977798 = sum of:
    0.014290508 = weight(_text_:23 in 8) [ClassicSimilarity], result of:
      0.014290508 = score(doc=8,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.1979932 = fieldWeight in 8, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.0390625 = fieldNorm(doc=8)
    0.014290508 = weight(_text_:23 in 8) [ClassicSimilarity], result of:
      0.014290508 = score(doc=8,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.1979932 = fieldWeight in 8, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.0390625 = fieldNorm(doc=8)
    0.01221984 = weight(_text_:und in 8) [ClassicSimilarity], result of:
      0.01221984 = score(doc=8,freq=10.0), product of:
        0.044633795 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02013827 = queryNorm
        0.27378 = fieldWeight in 8, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=8)
    0.014290508 = weight(_text_:23 in 8) [ClassicSimilarity], result of:
      0.014290508 = score(doc=8,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.1979932 = fieldWeight in 8, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.0390625 = fieldNorm(doc=8)
    0.01468662 = weight(_text_:der in 8) [ClassicSimilarity], result of:
      0.01468662 = score(doc=8,freq=14.0), product of:
        0.044984195 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.02013827 = queryNorm
        0.326484 = fieldWeight in 8, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.0390625 = fieldNorm(doc=8)
  0.25 = coord(5/20)

Abstract: Ein großer Teil der Informationen - Schätzungen zufolge bis zu 80% - liegt in Organisationen in unstrukturierten Dokumenten vor. In der Vergangenheit wurden Lösungen für das Management strukturierter Informationen entwickelt, die es nun auch zu erreichen gilt für unstrukturierte Informationen. Neben Verfahren des Data Mining für die Datenanalyse treten Versuche, Text Mining (Lit. 06) auf die Textanalyse anzuwenden. Um gezielt Dokumente im Repository suchen zu können, ist eine effektive Inhaltserkennung und -kennzeichnung erforderlich, d.h. eine Zuordnung der Dokumente zu Themengebieten bzw die Speicherung geeigneter Indexterme als Metadaten. Zu diesem Zweck müssen die Dokumenteninhalte repräsentiert, d.h. indexiert oder klassifiziert, werden. Dokumentanalyse dient auch der Steuerung des Informations- und Dokumentenflusses. Ziel ist die Einleitung eines "Workflow nach Posteingang". Eine Dokumentanalyse kann anhand erkannter Merkmale Eingangspost automatisch an den Sachbearbeiter oder die zuständige Organisationseinheit (Rechnungen in die Buchhaltung, Aufträge in den Vertrieb) im Unternehmen leiten. Dokumentanalysen werden auch benötigt, wenn Mitarbeiter über einen persönlichen Informationsfilter relevante Dokumente automatisch zugestellt bekommen sollen. Aufgrund der Systemintegration werden Indexierungslösungen in den Funktionsumfang von DMS- bzw. Workflow-Produkten integriert. Eine Architektur solcher Systeme zeigt Abb. 1. Die Architektur zeigt die Indexierungs- bzw. Klassifizierungsfunktion im Zentrum der Anwendung. Dabei erfüllt sie Aufgaben für die Repräsentation von Dokumenten (Metadaten) und das spätere Retrieval.
Date: 5. 4.2013 10:23:51
Source: Grundlagen der praktischen Information und Dokumentation. 5., völlig neu gefaßte Ausgabe. 2 Bde. Hrsg. von R. Kuhlen, Th. Seeger u. D. Strauch. Begründet von Klaus Laisiepen, Ernst Lutterbeck, Karl-Heinrich Meyer-Uhlenried. Bd.1: Handbuch zur Einführung in die Informationswissenschaft und -praxis

Lustig, G.: Methoden der automatischen Indexierung (1970) 0.02

0.016183963 = product of:
  0.10789308 = sum of:
    0.013115709 = weight(_text_:und in 4999) [ClassicSimilarity], result of:
      0.013115709 = score(doc=4999,freq=2.0), product of:
        0.044633795 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02013827 = queryNorm
        0.29385152 = fieldWeight in 4999, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.09375 = fieldNorm(doc=4999)
    0.071702205 = weight(_text_:methoden in 4999) [ClassicSimilarity], result of:
      0.071702205 = score(doc=4999,freq=2.0), product of:
        0.10436003 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.02013827 = queryNorm
        0.6870658 = fieldWeight in 4999, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.09375 = fieldNorm(doc=4999)
    0.023075162 = weight(_text_:der in 4999) [ClassicSimilarity], result of:
      0.023075162 = score(doc=4999,freq=6.0), product of:
        0.044984195 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.02013827 = queryNorm
        0.5129615 = fieldWeight in 4999, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.09375 = fieldNorm(doc=4999)
  0.15 = coord(3/20)

Source: Sprachliche Ansätze im Informations- und Dokumentationsbereich. Referate der Arbeitstagung des Komitees Automation der Dokumentation des DGD am 24.-25.2.1970 in Frankfurt

Pritchard, J.: Information retrieval : smarter indexing (1991) 0.02

0.015757862 = product of:
  0.10505241 = sum of:
    0.03501747 = weight(_text_:software in 4890) [ClassicSimilarity], result of:
      0.03501747 = score(doc=4890,freq=2.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.43831247 = fieldWeight in 4890, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.078125 = fieldNorm(doc=4890)
    0.03501747 = weight(_text_:software in 4890) [ClassicSimilarity], result of:
      0.03501747 = score(doc=4890,freq=2.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.43831247 = fieldWeight in 4890, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.078125 = fieldNorm(doc=4890)
    0.03501747 = weight(_text_:software in 4890) [ClassicSimilarity], result of:
      0.03501747 = score(doc=4890,freq=2.0), product of:
        0.07989157 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02013827 = queryNorm
        0.43831247 = fieldWeight in 4890, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.078125 = fieldNorm(doc=4890)
  0.15 = coord(3/20)

Abstract: Describes full text retrieval (FTR) which indexes every occurrence of every word except defined 'stop' words. This permits much more sophisticated searching than with keyword indexing. Also discusses document imaging processing (DIP). Lists suppliers and users of the software and describes the experiences of ESOO's Planning Division with Computer Intertrade Ltd. (CIL) ImagePro DIP and their operational practices

Beyer, C.; Trunk, D.: Automatische Verfahren für die Formalerschließung im Projekt PETRUS (2011) 0.02

0.015467648 = product of:
  0.07733824 = sum of:
    0.022864813 = weight(_text_:23 in 1712) [ClassicSimilarity], result of:
      0.022864813 = score(doc=1712,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.31678912 = fieldWeight in 1712, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.0625 = fieldNorm(doc=1712)
    0.022864813 = weight(_text_:23 in 1712) [ClassicSimilarity], result of:
      0.022864813 = score(doc=1712,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.31678912 = fieldWeight in 1712, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.0625 = fieldNorm(doc=1712)
    0.008743806 = weight(_text_:und in 1712) [ClassicSimilarity], result of:
      0.008743806 = score(doc=1712,freq=2.0), product of:
        0.044633795 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02013827 = queryNorm
        0.19590102 = fieldWeight in 1712, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0625 = fieldNorm(doc=1712)
    0.022864813 = weight(_text_:23 in 1712) [ClassicSimilarity], result of:
      0.022864813 = score(doc=1712,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.31678912 = fieldWeight in 1712, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.0625 = fieldNorm(doc=1712)
  0.2 = coord(4/20)

Abstract: Die Deutsche Nationalbibliothek (DNB) erstellt für Netzpublikationen seit Anfang 2010 keine intellektuell per Autopsie und nach gültigem Regelwerk (RAK-WB bzw. RAK-NBM) erschlossen Titeldaten mehr. Da das stetig wachsende Kontingent an Netzpublikationen durch intellektuelle Bearbeitung nicht mehr zu bewältigen ist, wurde mit dem Projekt PETRUS damit begonnen, die Erschließungsprozesse für Netzpublikationen zu automatisieren.
Source: Dialog mit Bibliotheken. 23(2011), S.5-10

Lepsky, K.: Automatische Indexierung des Reallexikons zur Deutschen Kunstgeschichte (2006) 0.02
```
0.015371827 = product of:
  0.06148731 = sum of:
    0.010003355 = weight(_text_:23 in 6080) [ClassicSimilarity], result of:
      0.010003355 = score(doc=6080,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.13859524 = fieldWeight in 6080, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02734375 = fieldNorm(doc=6080)
    0.010003355 = weight(_text_:23 in 6080) [ClassicSimilarity], result of:
      0.010003355 = score(doc=6080,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.13859524 = fieldWeight in 6080, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02734375 = fieldNorm(doc=6080)
    0.013251626 = weight(_text_:und in 6080) [ClassicSimilarity], result of:
      0.013251626 = score(doc=6080,freq=24.0), product of:
        0.044633795 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02013827 = queryNorm
        0.2968967 = fieldWeight in 6080, product of:
          4.8989797 = tf(freq=24.0), with freq of:
            24.0 = termFreq=24.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02734375 = fieldNorm(doc=6080)
    0.010003355 = weight(_text_:23 in 6080) [ClassicSimilarity], result of:
      0.010003355 = score(doc=6080,freq=2.0), product of:
        0.07217676 = queryWeight, product of:
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02013827 = queryNorm
        0.13859524 = fieldWeight in 6080, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5840597 = idf(docFreq=3336, maxDocs=44218)
          0.02734375 = fieldNorm(doc=6080)
    0.018225616 = weight(_text_:der in 6080) [ClassicSimilarity], result of:
      0.018225616 = score(doc=6080,freq=44.0), product of:
        0.044984195 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.02013827 = queryNorm
        0.405156 = fieldWeight in 6080, product of:
          6.6332498 = tf(freq=44.0), with freq of:
            44.0 = termFreq=44.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.02734375 = fieldNorm(doc=6080)
  0.25 = coord(5/20)
```
Abstract

Digitalisierungsvorhaben sorgen für eine immer größere Verfügbarkeit von Inhalten bislang ausschließlich gedruckt vorliegender Werke, zunehmend auch von ganzen Büchern. Projekte wie "Google Print" versprechen die völlige elektronische Verfügbarkeit von Informationen nahezu unabhängig von Zeit und Ort und sorgen dafür, dass die Hüter der konventionellen Information, die Bibliotheken, in Angst und Schrecken versetzt werden angesichts des befürchteten Verlusts ihrer traditionellen Rolle. Die Debatte kreist dabei eher selten um die Frage, welcher Nutzen sich konkret aus dem elektronischen Volltext ergibt: Der Nutzen steht schlichtweg außer Frage, Volltexte gelten prinzipiell als nützlich. Das ist insofern zu optimistisch, als die reine Verfügbarkeit von Information noch lange nicht fir deren sinnvolle Verwertung sorgt - die bloße Verfügbarkeit des Volltexts von Kants "Kritik der reinen Vernunft" enthebt nicht der Notwendigkeit, das Werk zu lesen und verstehen zu wollen. Lesen wird man besser auch nicht am Bildschirm sondern in der (neu-deutsch) "PrintAusgabe". Elektronische Volltexte von Büchern dienen nicht der Lektüre. Falls ihr Sinn nicht ohnehin ein rein verkaufsfördernder ist (das "Publishers Program" von Google Print erweckt in der Tat diesen Eindruck), bleibt ihr potenzieller Nutzen als Nachschlageinstrument. Nur der Volltext bietet die Möglichkeit, Informationen in einem Werk zu finden, die nicht explizit erschlossen wurden, durch ein Inhaltsverzeichnis etwa oder, eine noch günstigere Ausgangslage, durch ein Sachregister. Allerdings sind die meisten Werke nicht für einen solchen Zweck verfasst worden, d.h. es ist nicht zu erwarten, dass ein Werk über die "Geschichte des Römischen Reiches" im Volltextzugriff zu einem Lexikon zur Geschichte des Römischen Reiches wird. Entspricht also die hinter Google Print und zahllosen anderen Digitalisierungsinitiativen stehende Auffassung einem doch sehr naiven Bild von der Nützlichkeit gedruckter Information?
Seriöse Information darf erwarten, wer renommierte Nachschlagewerke befragt. Zumindest für die über die Primärordnung (Stichwort/Lemma) erschlossenen Sachverhalte ist für Buchausgaben ein gezielter Zugriff möglich, Verweisungen zwischen Artikeln sorgen für weitere Einstiege. Anzunehmen ist, dass sich der Nutzen von Nachschlagewerken in elektronischer Form noch deutlich erhöhen lässt: Produkte wie z.B. "Brockhaus multimedial" oder "Encyclopedia Britannica" sorgen mit leistungsfähigen Techniken über den wahlfreien Volltextzugriff hinaus für zahlreiche Navigations- und Recherchemöglichkeiten. Es liegt daher nahe, über eine Digitalisierung konventionell vorliegender Nachschlagewerke auch deren Anwendung zu verbessern, die im Print möglichen Zugriffsmöglichkeiten deutlich zu erweitern. Beispiele für diesen Ansatz sind die Digitalisierung der "Oekonomischen Encyklopädie" von Johann Georg Krünitz, die mit hohem Aufwand nicht maschinell (Scanning und OCR) sondern manuell realisiert wurde oder auch die im "Projekt Runeberg' , vorgenommenen zahlreichen Digitalisierungen u.a. auch von Nachschlagewerken. Ob die einfache Volltextindexierung derartig umfangreicher und - weil bereits als Nachschlagewerk konzipiert - gleichzeitig extrem verdichteter Quellen für einen größtmöglichen Nutzen der elektronischen Version ausreicht, darf zu Recht bezweifelt werden. In kommerziellen Produkten sorgen daher zusätzliche Techniken für einerseits thematisch gezielte Zugriffe auch über Nicht-Stichwörter, andererseits für Querverbindungen zu möglicherweise weiteren Artikeln von Interesse ("Wissensnetz" des Brockhaus, "Knowledge Navigator" der Britannica). Es darf angenommen werden, dass derartige Techniken dabei auf Informationen aufsetzen können (Strukturierung der Artikel, gekennzeichnete (getaggte) Personennamen, Querverweise etc.), die in den zu verarbeitenden Artikeln in nutzbarer Form vorliegen. Für digitalisierte Druckausgaben kommen derartige Verfahren nicht in Frage, weil lediglich flache, noch dazu in der Regel mit OCR-Fehlern behaftete Texte vorliegen. Die Zugriffsmöglichkeiten bewegen sich daher zwischen der 1:1-Umsetzung der Druckausgabe, d.h. dem Primärzugriff über Stichwort, und der Volltextsuche auf den vollständigen Lexikontext. Beides ist angesichts der im elektronischen Volltext liegenden Möglichkeiten sicher nicht die Methode der Wahl. Für die Digitalisierung des "Reallexikons zur Deutschen Kunstgeschichte" im Rahmen des von der Deutschen Forschungsgemeinschaft geförderten Projekts "RDKWeb" wird daher versucht, mit den Mitteln der Automatischen Indexierung eine Lösung zu erzielen, die über eine reine Volltextsuchmöglichkeit hinaus Suchunterstützungen bietet, die sich an den Fähigkeiten kommerzieller Produkte orientieren (nicht messen!).

Date

13.10.2006 9:35:23

Source

Information und Sprache: Beiträge zu Informationswissenschaft, Computerlinguistik, Bibliothekswesen und verwandten Fächern. Festschrift für Harald H. Zimmermann. Herausgegeben von Ilse Harms, Heinz-Dirk Luckhardt und Hans W. Giessen

Pielmeier, S.; Voß, V.; Carstensen, H.; Kahl, B.: Online-Workshop "Computerunterstützte Inhaltserschließung" 2020 (2021) 0.02

0.015003918 = product of:
  0.100026116 = sum of:
    0.06041306 = weight(_text_:230 in 4409) [ClassicSimilarity], result of:
      0.06041306 = score(doc=4409,freq=2.0), product of:
        0.13547163 = queryWeight, product of:
          6.727074 = idf(docFreq=143, maxDocs=44218)
          0.02013827 = queryNorm
        0.44594622 = fieldWeight in 4409, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          6.727074 = idf(docFreq=143, maxDocs=44218)
          0.046875 = fieldNorm(doc=4409)
    0.018548414 = weight(_text_:und in 4409) [ClassicSimilarity], result of:
      0.018548414 = score(doc=4409,freq=16.0), product of:
        0.044633795 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02013827 = queryNorm
        0.41556883 = fieldWeight in 4409, product of:
          4.0 = tf(freq=16.0), with freq of:
            16.0 = termFreq=16.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.046875 = fieldNorm(doc=4409)
    0.021064643 = weight(_text_:der in 4409) [ClassicSimilarity], result of:
      0.021064643 = score(doc=4409,freq=20.0), product of:
        0.044984195 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.02013827 = queryNorm
        0.46826762 = fieldWeight in 4409, product of:
          4.472136 = tf(freq=20.0), with freq of:
            20.0 = termFreq=20.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.046875 = fieldNorm(doc=4409)
  0.15 = coord(3/20)

Abstract: Zum ersten Mal in digitaler Form und mit 230 Teilnehmer*innen fand am 11. und 12. November 2020 der 4. Workshop "Computerunterstützte Inhaltserschließung" statt, organisiert von der Deutschen Nationalbibliothek (DNB), der Firma Eurospider Information Technology, der Staatsbibliothek zu Berlin - Preußischer Kulturbesitz (SBB), der UB Stuttgart und dem Bibliotheksservice-Zentrum Baden-Württemberg (BSZ). Im Mittelpunkt stand der "Digitale Assistent DA-3": In elf Vorträgen wurden Anwendungsszenarien und Erfahrungen mit dem System vorgestellt, das Bibliotheken und andere Wissenschafts- und Kultureinrichtungen bei der Inhaltserschließung unterstützen soll. Die Begrüßung und Einführung in die beiden Workshop-Tage übernahm Frank Scholze (Generaldirektor der DNB). Er sieht den DA-3 als Baustein für die Verzahnung der intellektuellen und der maschinellen Erschließung.

Search (228 results, page 2 of 12)

Authors

Years

Languages

Types

Themes

Subjects

Classifications