Search (21 results, page 1 of 2)

  • × theme_ss:"Automatisches Indexieren"
  • × theme_ss:"Retrievalstudien"
  1. Fuhr, N.; Niewelt, B.: ¬Ein Retrievaltest mit automatisch indexierten Dokumenten (1984) 0.02
    0.024857149 = product of:
      0.074571446 = sum of:
        0.03316972 = weight(_text_:und in 262) [ClassicSimilarity], result of:
          0.03316972 = score(doc=262,freq=2.0), product of:
            0.09675359 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.043654136 = queryNorm
            0.34282678 = fieldWeight in 262, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.109375 = fieldNorm(doc=262)
        0.04140173 = product of:
          0.08280346 = sum of:
            0.08280346 = weight(_text_:22 in 262) [ClassicSimilarity], result of:
              0.08280346 = score(doc=262,freq=2.0), product of:
                0.15286934 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.043654136 = queryNorm
                0.5416616 = fieldWeight in 262, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.109375 = fieldNorm(doc=262)
          0.5 = coord(1/2)
      0.33333334 = coord(2/6)
    
    Date
    20.10.2000 12:22:23
    Source
    Deutscher Dokumentartag 1983, Göttingen, 3.-7.10.1983: Fachinformation und Bildschirmtext. Bearb.: H. Strohl-Goebel
  2. Scherer, B.: Automatische Indexierung und ihre Anwendung im DFG-Projekt "Gemeinsames Portal für Bibliotheken, Archive und Museen (BAM)" (2003) 0.02
    0.016739912 = product of:
      0.050219737 = sum of:
        0.010929906 = weight(_text_:in in 4283) [ClassicSimilarity], result of:
          0.010929906 = score(doc=4283,freq=12.0), product of:
            0.059380736 = queryWeight, product of:
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.043654136 = queryNorm
            0.18406484 = fieldWeight in 4283, product of:
              3.4641016 = tf(freq=12.0), with freq of:
                12.0 = termFreq=12.0
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.0390625 = fieldNorm(doc=4283)
        0.039289832 = weight(_text_:und in 4283) [ClassicSimilarity], result of:
          0.039289832 = score(doc=4283,freq=22.0), product of:
            0.09675359 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.043654136 = queryNorm
            0.40608138 = fieldWeight in 4283, product of:
              4.690416 = tf(freq=22.0), with freq of:
                22.0 = termFreq=22.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0390625 = fieldNorm(doc=4283)
      0.33333334 = coord(2/6)
    
    Abstract
    Automatische Indexierung verzeichnet schon seit einigen Jahren aufgrund steigender Informationsflut ein wachsendes Interesse. Allerdings gibt es immer noch Vorbehalte gegenüber der intellektuellen Indexierung in Bezug auf Qualität und größerem Aufwand der Systemimplementierung bzw. -pflege. Neuere Entwicklungen aus dem Bereich des Wissensmanagements, wie beispielsweise Verfahren aus der Künstlichen Intelligenz, der Informationsextraktion, dem Text Mining bzw. der automatischen Klassifikation sollen die automatische Indexierung aufwerten und verbessern. Damit soll eine intelligentere und mehr inhaltsbasierte Erschließung geleistet werden. In dieser Masterarbeit wird außerhalb der Darstellung von Grundlagen und Verfahren der automatischen Indexierung sowie neueren Entwicklungen auch Möglichkeiten der Evaluation dargestellt. Die mögliche Anwendung der automatischen Indexierung im DFG-ProjektGemeinsames Portal für Bibliotheken, Archive und Museen (BAM)" bilden den Schwerpunkt der Arbeit. Im Portal steht die bibliothekarische Erschließung von Texten im Vordergrund. In einem umfangreichen Test werden drei deutsche, linguistische Systeme mit statistischen Verfahren kombiniert (die aber teilweise im System bereits integriert ist) und evaluiert, allerdings nur auf der Basis der ausgegebenen Indexate. Abschließend kann festgestellt werden, dass die Ergebnisse und damit die Qualität (bezogen auf die Indexate) von intellektueller und automatischer Indexierung noch signifikant unterschiedlich sind. Die Gründe liegen in noch zu lösenden semantischen Problemen bzw, in der Obereinstimmung mit Worten aus einem Thesaurus, die von einem automatischen Indexierungssystem nicht immer nachvollzogen werden kann. Eine Inhaltsanreicherung mit den Indexaten zum Vorteil beim Retrieval kann, je nach System oder auch über die Einbindung durch einen Thesaurus, erreicht werden.
    Footnote
    Masterarbeit im Studiengang Information Engineering zur Erlagung des Grades eines Master of Science in Information science,
    Imprint
    Konstanz : Universität / Fachbereich Informatik und Informationswissenschaft
  3. Munkelt, J.: Erstellung einer DNB-Retrieval-Testkollektion (2018) 0.02
    0.016486328 = product of:
      0.049458984 = sum of:
        0.008834538 = weight(_text_:in in 4310) [ClassicSimilarity], result of:
          0.008834538 = score(doc=4310,freq=4.0), product of:
            0.059380736 = queryWeight, product of:
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.043654136 = queryNorm
            0.14877784 = fieldWeight in 4310, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.0546875 = fieldNorm(doc=4310)
        0.040624447 = weight(_text_:und in 4310) [ClassicSimilarity], result of:
          0.040624447 = score(doc=4310,freq=12.0), product of:
            0.09675359 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.043654136 = queryNorm
            0.41987535 = fieldWeight in 4310, product of:
              3.4641016 = tf(freq=12.0), with freq of:
                12.0 = termFreq=12.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0546875 = fieldNorm(doc=4310)
      0.33333334 = coord(2/6)
    
    Abstract
    Seit Herbst 2017 findet in der Deutschen Nationalbibliothek die Inhaltserschließung bestimmter Medienwerke rein maschinell statt. Die Qualität dieses Verfahrens, das die Prozessorganisation von Bibliotheken maßgeblich prägen kann, wird unter Fachleuten kontrovers diskutiert. Ihre Standpunkte werden zunächst hinreichend erläutert, ehe die Notwendigkeit einer Qualitätsprüfung des Verfahrens und dessen Grundlagen dargelegt werden. Zentraler Bestandteil einer künftigen Prüfung ist eine Testkollektion. Ihre Erstellung und deren Dokumentation steht im Fokus dieser Arbeit. In diesem Zusammenhang werden auch die Entstehungsgeschichte und Anforderungen an gelungene Testkollektionen behandelt. Abschließend wird ein Retrievaltest durchgeführt, der die Einsatzfähigkeit der erarbeiteten Testkollektion belegt. Seine Ergebnisse dienen ausschließlich der Funktionsüberprüfung. Eine Qualitätsbeurteilung maschineller Inhaltserschließung im Speziellen sowie im Allgemeinen findet nicht statt und ist nicht Ziel der Ausarbeitung.
    Content
    Bachelorarbeit, Bibliothekswissenschaften, Fakultät für Informations- und Kommunikationswissenschaften, Technische Hochschule Köln
    Imprint
    Köln : Technische Hochschule, Fakultät für Informations- und Kommunikationswissenschaften
  4. Lohmann, H.: KASCADE: Dokumentanreicherung und automatische Inhaltserschließung : Projektbericht und Ergebnisse des Retrievaltests (2000) 0.01
    0.013460441 = product of:
      0.04038132 = sum of:
        0.01287844 = weight(_text_:in in 494) [ClassicSimilarity], result of:
          0.01287844 = score(doc=494,freq=34.0), product of:
            0.059380736 = queryWeight, product of:
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.043654136 = queryNorm
            0.2168791 = fieldWeight in 494, product of:
              5.8309517 = tf(freq=34.0), with freq of:
                34.0 = termFreq=34.0
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.02734375 = fieldNorm(doc=494)
        0.027502881 = weight(_text_:und in 494) [ClassicSimilarity], result of:
          0.027502881 = score(doc=494,freq=22.0), product of:
            0.09675359 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.043654136 = queryNorm
            0.28425696 = fieldWeight in 494, product of:
              4.690416 = tf(freq=22.0), with freq of:
                22.0 = termFreq=22.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.02734375 = fieldNorm(doc=494)
      0.33333334 = coord(2/6)
    
    Abstract
    Der Test hat gezeigt, dass die Ergänzung der bibliothekarischen Titelaufnahme um zusätzliche inhaltsrelevante Daten zu einer beeindruckenden Verbesserung der Suchergebnisse führt. Die Dokumentanreicherung sollte daher als Ziel bibliothekarischer Bemühungen um eine Verbesserung des OPAC-Retrievals weiterverfolgt werden. Der im Projekt eingeschlagene Weg, die Inhaltsverzeichnisse zu scannen, erwies sich allerdings als wenig sinnvoll. Zwar erzielte das Scanningverfahren gute Ergebnisse, auch arbeitete die Texterkennungssoftware sehr zuverlässig. Das Scanning bietet darüber hinaus die Möglichkeit, die dabei angefertigte Grafik-Datei mit dem Titelsatz im OPAC zu verknüpfen und so dem Nutzer als Entscheidungshilfe bei der Ergebnismengenbeurteilung an die Hand zu geben. Die Arbeiten am Aufbau der Testdatenbank brachten aber die Erkenntnis, dass die Anreicherung im Wege des Scanning technisch außerordentlich problematisch ist und einen nicht vorauszusehenden und letztlich auch nicht zu rechtfertigenden Aufwand erfordert. Diese Methode der Anreicherung kann daher für einen Praxiseinsatz nicht empfohlen werden.
    Verbesserungen des Gewichtungsverfahrens sollten schließlich unterstützt werden durch Maßnahmen zur Optimierung der Retrievalumgebung, etwa durch - den Einsatz von Hypertextwerkzeugen; - die Integration der THEAS-Komponente, mit der die automatische Mehrwortgruppengewinnung mit Hilfe eines Mehrwortgruppen-Parsers möglich ist; dies könnte im Rahmen der Dialogführung mit dem Nutzer eingesetzt werden, wenn dieser Teilkomponenten solcher Mehrwortgruppen im Retrieval verwendet. Mit THEAS wäre daneben der Einstieg in das Retrieval über das Register mit kanonischen Formen möglich; - die Integration von Wörterbuchfunktionen zur Benutzerunterstützung. Eine Weiterentwicklung des SELIX-Verfahrens könnte daneben in diese Richtungen erfolgen: - Bildung von Dokument-Clustern. Dabei werden Dokumente in einem Dokumenten-Raum einander in dem Maße zugeordnet, in dem ihre selektierten Grundformen übereinstimmen. - Errichtung von statistisch basierten semantischen Netzen, in denen Grundformen einander in einem Begriffs-Raum in dem Maße zugeordnet werden, in dem sie "gemeinsam" in Dokumenten auftreten.
    Abgesehen von diesen Überlegungen müssten für einen praktischen Einsatz der KASCADE-Entwicklungen weitere Voraussetzungen geschaffen werden. Erforderlich wäre zunächst die Optimierung und Rationalisierung der Verfahrensabläufe selbst. Die Teilprogramme unter KasKoll sollten in ein kompaktes Programm integriert werden. Die Sortiervorgänge könnten vereinfacht werden, indem die Deskriptoren in eine relationale Datenbank überführt werden. Letztendlich wirken sich diese Punkte aber vor allem auf die Dauer der Maschinenlaufzeiten aus, die bei der Frage nach den Implementierungskosten letztlich nur eine untergeordnete Rolle spielen. Optimiert werden sollte die Oberfläche zur Steuerung des Verfahrens. Bereits jetzt laufen einige der Programme unter einer menügeführten Windows-Schnittstelle (Kasadew) ab, was für alle Verfahrensteile erreicht werden sollte. Schließlich ist zu klären, unter welchen Bedingungen das Gewichtungsverfahren im Praxisbetrieb ablaufen kann.
    Da sich mit jedem Dokument, das zu dem im Gewichtungsverfahren befindlichen Gesamtbestand hinzukommt, die Werte aller bereits gewichteten Deskriptoren ändern können, müsste die Berechnung der Häufigkeitsverteilung jeder Grundform im Prinzip nach jeder Änderung im Dokumentbestand neu berechnet werden. Eine Online-Aktualisierung des Bestandes erscheint daher wenig sinnvoll. In der Praxis könnte eine Neuberechnung in bestimmten zeitlichen Abständen mit einem Abzug des OPAC-Bestandes unabhängig vom eigentlichen Betrieb des OPAC erfolgen, was auch insofern genügen würde, als die zugrunde liegenden Maße auf relativen Häufigkeiten basieren. Dadurch würde nur ein geringer Verzug in der Bereitstellung der aktuellen Gewichte eintreten. Außerdem würde der Zeitfaktor eine nur untergeordnete Rolle spielen, da ein offline ablaufender Gewichtungslauf erst bis zum nächsten Aktualisierungszeitpunkt abgeschlossen sein müsste. Denkbar wäre zusätzlich, für die Zeit zwischen zwei Aktualisierungen des OPACs für die in den Neuzugängen enthaltenen Begriffe Standardgewichte einzusetzen, soweit diese Begriffe bereits in dem Bestand auftreten. Bei entsprechender Optimierung und Rationalisierung der SELIX-Verfahrensabläufe, Nutzung der Gewichte auf der Retrievalseite für ein Ranking der auszugebenden Dokumente und Integration der THEAS-Komponente kann das Verfahren zu einem wirkungsvollen Instrument zur Verbesserung der Retrievaleffektivität weiterentwickelt werden.
    Footnote
    Zugl.: Köln, Fachhochsch., Fachbereich Bibliotheks- und Informationswesen, Hausarbeit
    Imprint
    Düsseldorf : Universitäts- und Landesbibliothek
    Series
    Schriften der Universitäts- und Landesbibliothek Düsseldorf; 31
  5. Krause, J.; Womser-Hacker, C.: PADOK-II : Retrievaltests zur Bewertung von Volltextindexierungsvarianten für das deutsche Patentinformationssystem (1990) 0.01
    0.013322966 = product of:
      0.039968897 = sum of:
        0.0071393843 = weight(_text_:in in 2653) [ClassicSimilarity], result of:
          0.0071393843 = score(doc=2653,freq=2.0), product of:
            0.059380736 = queryWeight, product of:
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.043654136 = queryNorm
            0.120230645 = fieldWeight in 2653, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.0625 = fieldNorm(doc=2653)
        0.032829512 = weight(_text_:und in 2653) [ClassicSimilarity], result of:
          0.032829512 = score(doc=2653,freq=6.0), product of:
            0.09675359 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.043654136 = queryNorm
            0.33931053 = fieldWeight in 2653, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0625 = fieldNorm(doc=2653)
      0.33333334 = coord(2/6)
    
    Abstract
    Vorgestellt werden die Ergebnisse extensiver Retrievaltests von zwei Varianten von Inhalteserschließungen (Freitext und PASSAT) für das deutsche Patentinformationssystem auf der Basis von Volltexten. Die Tests führte die Fachgruppe Linguistische Informationswissenschaft der Universität Regensburg von 1986-1989 in Zusammenarbeit mit dem Deutschen Patentamt, dem Fachinformationszentrum Karlsruhe und meheren industrieellen Partnern durch. Der Schwerpunkt des Berichts liegt auf dem allgemeinen Ansatz der Bewertung der Ziele des Projekts und auf der Darstellung der statistischen Evaluierungsergebnisse.
  6. Hodges, P.R.: Keyword in title indexes : effectiveness of retrieval in computer searches (1983) 0.01
    0.01278998 = product of:
      0.03836994 = sum of:
        0.017669076 = weight(_text_:in in 5001) [ClassicSimilarity], result of:
          0.017669076 = score(doc=5001,freq=16.0), product of:
            0.059380736 = queryWeight, product of:
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.043654136 = queryNorm
            0.29755569 = fieldWeight in 5001, product of:
              4.0 = tf(freq=16.0), with freq of:
                16.0 = termFreq=16.0
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.0546875 = fieldNorm(doc=5001)
        0.020700864 = product of:
          0.04140173 = sum of:
            0.04140173 = weight(_text_:22 in 5001) [ClassicSimilarity], result of:
              0.04140173 = score(doc=5001,freq=2.0), product of:
                0.15286934 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.043654136 = queryNorm
                0.2708308 = fieldWeight in 5001, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=5001)
          0.5 = coord(1/2)
      0.33333334 = coord(2/6)
    
    Abstract
    A study was done to test the effectiveness of retrieval using title word searching. It was based on actual search profiles used in the Mechanized Information Center at Ohio State University, in order ro replicate as closely as possible actual searching conditions. Fewer than 50% of the relevant titles were retrieved by keywords in titles. The low rate of retrieval can be attributes to three sources: titles themselves, user and information specialist ignorance of the subject vocabulary in use, and to general language problems. Across fields it was found that the social sciences had the best retrieval rate, with science having the next best, and arts and humanities the lowest. Ways to enhance and supplement keyword in title searching on the computer and in printed indexes are discussed.
    Date
    14. 3.1996 13:22:21
  7. Rapke, K.: Automatische Indexierung von Volltexten für die Gruner+Jahr Pressedatenbank (2001) 0.01
    0.012656199 = product of:
      0.037968595 = sum of:
        0.0044621155 = weight(_text_:in in 5863) [ClassicSimilarity], result of:
          0.0044621155 = score(doc=5863,freq=2.0), product of:
            0.059380736 = queryWeight, product of:
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.043654136 = queryNorm
            0.07514416 = fieldWeight in 5863, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.0390625 = fieldNorm(doc=5863)
        0.03350648 = weight(_text_:und in 5863) [ClassicSimilarity], result of:
          0.03350648 = score(doc=5863,freq=16.0), product of:
            0.09675359 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.043654136 = queryNorm
            0.34630734 = fieldWeight in 5863, product of:
              4.0 = tf(freq=16.0), with freq of:
                16.0 = termFreq=16.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0390625 = fieldNorm(doc=5863)
      0.33333334 = coord(2/6)
    
    Abstract
    Retrievaltests sind die anerkannteste Methode, um neue Verfahren der Inhaltserschließung gegenüber traditionellen Verfahren zu rechtfertigen. Im Rahmen einer Diplomarbeit wurden zwei grundsätzlich unterschiedliche Systeme der automatischen inhaltlichen Erschließung anhand der Pressedatenbank des Verlagshauses Gruner + Jahr (G+J) getestet und evaluiert. Untersucht wurde dabei natürlichsprachliches Retrieval im Vergleich zu Booleschem Retrieval. Bei den beiden Systemen handelt es sich zum einen um Autonomy von Autonomy Inc. und DocCat, das von IBM an die Datenbankstruktur der G+J Pressedatenbank angepasst wurde. Ersteres ist ein auf natürlichsprachlichem Retrieval basierendes, probabilistisches System. DocCat demgegenüber basiert auf Booleschem Retrieval und ist ein lernendes System, das aufgrund einer intellektuell erstellten Trainingsvorlage indexiert. Methodisch geht die Evaluation vom realen Anwendungskontext der Textdokumentation von G+J aus. Die Tests werden sowohl unter statistischen wie auch qualitativen Gesichtspunkten bewertet. Ein Ergebnis der Tests ist, dass DocCat einige Mängel gegenüber der intellektuellen Inhaltserschließung aufweist, die noch behoben werden müssen, während das natürlichsprachliche Retrieval von Autonomy in diesem Rahmen und für die speziellen Anforderungen der G+J Textdokumentation so nicht einsetzbar ist
    Series
    Tagungen der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis; 4
    Source
    Information Research & Content Management: Orientierung, Ordnung und Organisation im Wissensmarkt; 23. DGI-Online-Tagung der DGI und 53. Jahrestagung der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis e.V. DGI, Frankfurt am Main, 8.-10.5.2001. Proceedings. Hrsg.: R. Schmidt
  8. Rapke, K.: Automatische Indexierung von Volltexten für die Gruner+Jahr Pressedatenbank (2001) 0.01
    0.0123805255 = product of:
      0.037141576 = sum of:
        0.005354538 = weight(_text_:in in 6386) [ClassicSimilarity], result of:
          0.005354538 = score(doc=6386,freq=2.0), product of:
            0.059380736 = queryWeight, product of:
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.043654136 = queryNorm
            0.09017298 = fieldWeight in 6386, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.046875 = fieldNorm(doc=6386)
        0.031787038 = weight(_text_:und in 6386) [ClassicSimilarity], result of:
          0.031787038 = score(doc=6386,freq=10.0), product of:
            0.09675359 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.043654136 = queryNorm
            0.328536 = fieldWeight in 6386, product of:
              3.1622777 = tf(freq=10.0), with freq of:
                10.0 = termFreq=10.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.046875 = fieldNorm(doc=6386)
      0.33333334 = coord(2/6)
    
    Abstract
    Retrieval Tests sind die anerkannteste Methode, um neue Verfahren der Inhaltserschließung gegenüber traditionellen Verfahren zu rechtfertigen. Im Rahmen einer Diplomarbeit wurden zwei grundsätzlich unterschiedliche Systeme der automatischen inhaltlichen Erschließung anhand der Pressedatenbank des Verlagshauses Gruner + Jahr (G+J) getestet und evaluiert. Untersucht wurde dabei natürlichsprachliches Retrieval im Vergleich zu Booleschem Retrieval. Bei den beiden Systemen handelt es sich zum einen um Autonomy von Autonomy Inc. und DocCat, das von IBM an die Datenbankstruktur der G+J Pressedatenbank angepasst wurde. Ersteres ist ein auf natürlichsprachlichem Retrieval basierendes, probabilistisches System. DocCat demgegenüber basiert auf Booleschem Retrieval und ist ein lernendes System, das auf Grund einer intellektuell erstellten Trainingsvorlage indexiert. Methodisch geht die Evaluation vom realen Anwendungskontext der Textdokumentation von G+J aus. Die Tests werden sowohl unter statistischen wie auch qualitativen Gesichtspunkten bewertet. Ein Ergebnis der Tests ist, dass DocCat einige Mängel gegenüber der intellektuellen Inhaltserschließung aufweist, die noch behoben werden müssen, während das natürlichsprachliche Retrieval von Autonomy in diesem Rahmen und für die speziellen Anforderungen der G+J Textdokumentation so nicht einsetzbar ist
    Source
    nfd Information - Wissenschaft und Praxis. 52(2001) H.5, S.251-262
  9. Oberhauser, O.; Labner, J.: OPAC-Erweiterung durch automatische Indexierung : Empirische Untersuchung mit Daten aus dem Österreichischen Verbundkatalog (2002) 0.01
    0.011777069 = product of:
      0.03533121 = sum of:
        0.010709076 = weight(_text_:in in 883) [ClassicSimilarity], result of:
          0.010709076 = score(doc=883,freq=8.0), product of:
            0.059380736 = queryWeight, product of:
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.043654136 = queryNorm
            0.18034597 = fieldWeight in 883, product of:
              2.828427 = tf(freq=8.0), with freq of:
                8.0 = termFreq=8.0
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.046875 = fieldNorm(doc=883)
        0.024622133 = weight(_text_:und in 883) [ClassicSimilarity], result of:
          0.024622133 = score(doc=883,freq=6.0), product of:
            0.09675359 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.043654136 = queryNorm
            0.2544829 = fieldWeight in 883, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.046875 = fieldNorm(doc=883)
      0.33333334 = coord(2/6)
    
    Abstract
    In Anlehnung an die in den neunziger Jahren durchgeführten Erschließungsprojekte MILOS I und MILOS II, die die Eignung eines Verfahrens zur automatischen Indexierung für Bibliothekskataloge zum Thema hatten, wurde eine empirische Untersuchung anhand einer repräsentativen Stichprobe von Titelsätzen aus dem Österreichischen Verbundkatalog durchgeführt. Ziel war die Prüfung und Bewertung der Einsatzmöglichkeit dieses Verfahrens in den Online-Katalogen des Verbundes. Der Realsituation der OPAC-Benutzung gemäß wurde ausschließlich die Auswirkung auf den automatisch generierten Begriffen angereicherten Basic Index ("Alle Felder") untersucht. Dazu wurden 100 Suchanfragen zunächst im ursprünglichen Basic Index und sodann im angereicherten Basic Index in einem OPAC unter Aleph 500 durchgeführt. Die Tests erbrachten einen Zuwachs an relevanten Treffern bei nur leichten Verlusten an Precision, eine Reduktion der Nulltreffer-Ergebnisse sowie Aufschlüsse über die Auswirkung einer vorhandenen verbalen Sacherschließung.
  10. Mielke, B.: Wider einige gängige Ansichten zur juristischen Informationserschließung (2002) 0.01
    0.00979274 = product of:
      0.02937822 = sum of:
        0.009274333 = weight(_text_:in in 2145) [ClassicSimilarity], result of:
          0.009274333 = score(doc=2145,freq=6.0), product of:
            0.059380736 = queryWeight, product of:
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.043654136 = queryNorm
            0.1561842 = fieldWeight in 2145, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.046875 = fieldNorm(doc=2145)
        0.020103889 = weight(_text_:und in 2145) [ClassicSimilarity], result of:
          0.020103889 = score(doc=2145,freq=4.0), product of:
            0.09675359 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.043654136 = queryNorm
            0.20778441 = fieldWeight in 2145, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.046875 = fieldNorm(doc=2145)
      0.33333334 = coord(2/6)
    
    Abstract
    Ausgehend von einer Betrachtung in der Rechtsinformatik geläufiger Annahmen zur juristischen Informationserschließung beschreibt der Beitrag wesentliche Ergebnisse einer empirischen Studie der Retrievaleffektivität von Re-cherchen in juristischen Datenbanken. Dabei steht die Frage nach der Notwendigkeit einer intellektuellen Erschließung einerseits, der Effektivität der sogenannten Stichwortsuche andererseits im Mittelpunkt. Die Ergebnisse der Studie, bei der auch ein Vergleich zwischen einem Informationssystem auf der Basis eines Booleschen Retrievalmodells mit einem System auf der Basis statistischer Verfahren vorgenommen wurde, legen den Schluss nahe, dass in der rechtsinformatischen Fachliteratur analytisch begründete Annahmen wie die Gefahr zu großer Antwortmengen bei der Stichwortsuche empirisch nicht zu belegen sind. Auch zeigt sich keine Überlegenheit intellektueller Erschließungsverfahren (Beschlagwortung) gegenüber der automatischen Indexierung, im Gegenteil führt der Einsatz eines statistischen Verfahrens bei identischer Dokumentkollektion zu einer höheren Wiedergewinnungsrate (recall).
    Source
    Information und Mobilität: Optimierung und Vermeidung von Mobilität durch Information. Proceedings des 8. Internationalen Symposiums für Informationswissenschaft (ISI 2002), 7.-10.10.2002, Regensburg. Hrsg.: Rainer Hammwöhner, Christian Wolff, Christa Womser-Hacker
  11. Lepsky, K.; Siepmann, J.; Zimmermann, A.: Automatische Indexierung für Online-Kataloge : Ergebnisse eines Retrievaltests (1996) 0.01
    0.0091349725 = product of:
      0.027404916 = sum of:
        0.010820055 = weight(_text_:in in 3251) [ClassicSimilarity], result of:
          0.010820055 = score(doc=3251,freq=6.0), product of:
            0.059380736 = queryWeight, product of:
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.043654136 = queryNorm
            0.1822149 = fieldWeight in 3251, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.0546875 = fieldNorm(doc=3251)
        0.01658486 = weight(_text_:und in 3251) [ClassicSimilarity], result of:
          0.01658486 = score(doc=3251,freq=2.0), product of:
            0.09675359 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.043654136 = queryNorm
            0.17141339 = fieldWeight in 3251, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0546875 = fieldNorm(doc=3251)
      0.33333334 = coord(2/6)
    
    Abstract
    Examines the effectiveness of automated indexing and presents the results of a study of information retrieval from a segment (40.000 items) of the ULB Düsseldorf database. The segment was selected randomly and all the documents included were indexed automatically. The search topics included 50 subject areas ranging from economic growth to alternative energy sources. While there were 876 relevant documents in the database segment for each of the 50 search topics, the recall ranged from 1 to 244 references, with the average being 17.52 documents per topic. Therefore it seems that, in the immediate future, automatic indexing should be used in combination with intellectual indexing
    Source
    Zeitschrift für Bibliothekswesen und Bibliographie. 43(1996) H.1, S.47-56
  12. Lohmann, H.: Verbesserung der Literatursuche durch Dokumentanreicherung und automatische Inhaltserschließung : Das Projekt 'KASCADE' an der Universitäts- und Landesbibliothek Düsseldorf (1999) 0.01
    0.008207378 = product of:
      0.049244266 = sum of:
        0.049244266 = weight(_text_:und in 1221) [ClassicSimilarity], result of:
          0.049244266 = score(doc=1221,freq=6.0), product of:
            0.09675359 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.043654136 = queryNorm
            0.5089658 = fieldWeight in 1221, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.09375 = fieldNorm(doc=1221)
      0.16666667 = coord(1/6)
    
    Imprint
    Köln : Fachhochschule, Fachbereich Bibliotheks- und Informationswesen
  13. Biebricher, P.; Fuhr, N.; Niewelt, B.: ¬Der AIR-Retrievaltest (1986) 0.01
    0.0068394816 = product of:
      0.04103689 = sum of:
        0.04103689 = weight(_text_:und in 4040) [ClassicSimilarity], result of:
          0.04103689 = score(doc=4040,freq=6.0), product of:
            0.09675359 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.043654136 = queryNorm
            0.42413816 = fieldWeight in 4040, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.078125 = fieldNorm(doc=4040)
      0.16666667 = coord(1/6)
    
    Abstract
    Der Beitrag enthält eine Darstellung zur Durchführung und zu den Ergebnissen des Retrievaltests zum AIR/PHYS-Projekt. Er zählt mit seinen 309 Fragen und 15.000 Dokumenten zu den größten Retrievaltests, die bisher zur Evaluierung automatisierter Indexierungs- oder Retrievalverfahren vorgenommen wurden.
    Source
    Automatische Indexierung zwischen Forschung und Anwendung, Hrsg.: G. Lustig
  14. Sachse, E.; Liebig, M.; Gödert, W.: Automatische Indexierung unter Einbeziehung semantischer Relationen : Ergebnisse des Retrievaltests zum MILOS II-Projekt (1998) 0.01
    0.005528287 = product of:
      0.03316972 = sum of:
        0.03316972 = weight(_text_:und in 3577) [ClassicSimilarity], result of:
          0.03316972 = score(doc=3577,freq=8.0), product of:
            0.09675359 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.043654136 = queryNorm
            0.34282678 = fieldWeight in 3577, product of:
              2.828427 = tf(freq=8.0), with freq of:
                8.0 = termFreq=8.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0546875 = fieldNorm(doc=3577)
      0.16666667 = coord(1/6)
    
    Abstract
    Im Rahmen von MILOS II wurde das erste MILOS-Projekt zur automatischen Indexierung von Titeldaten um eine semantischer Komponente erweitert, indem Thesaurusrelationen der Schlagwortnormdatei eingebunden wurden. Der abschließend zur Evaluierung durchgeführte Retrievaltest und seine Ergebnisse stehen im Mittelpunkt dieses Texts. Zusätzlich wird ein Überblick über bereits durchgeführte Retrievaltests (vorwiegend des anglo-amerikanischen Raums) gegeben und es wird erläutert, welche grundlegenden Fragestellungen bei der praktischen Durchführung eines Retrievaltests zu beachten sind
    Imprint
    Köln : FH Köln, Fachbereich Bibliotheks- und Informationswesen
    Series
    Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; Bd.14
  15. Grummann, M.: Sind Verfahren zur maschinellen Indexierung für Literaturbestände Öffentlicher Bibliotheken geeignet? : Retrievaltests von indexierten ekz-Daten mit der Software IDX (2000) 0.01
    0.0054715853 = product of:
      0.032829512 = sum of:
        0.032829512 = weight(_text_:und in 1879) [ClassicSimilarity], result of:
          0.032829512 = score(doc=1879,freq=6.0), product of:
            0.09675359 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.043654136 = queryNorm
            0.33931053 = fieldWeight in 1879, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0625 = fieldNorm(doc=1879)
      0.16666667 = coord(1/6)
    
    Abstract
    Maschinelles Indexieren vereinheitlicht und vermehrt das Suchvokabular eines Bibliothekskatalogs durch verschiedene Methoden (u.a. Ermittlung der Grundform, Kompositazerlegung, Wortableitungen). Ein Retrievaltest mit einem für öffentliche Bibliotheken typischen Sachbuchbestand zeigt, dass dieses Verfahren die Ergebnisse von OPAC-Recherchen verbessert - trotz 'blumiger' Titelformulierungen. Im Vergleich zu herkömmlichen Erschließungsmethoden (Stich- und Schlagwörter) werden mehr relevante Titel gefunden, ohne gleichzeitig den 'Ballast' zu erhöhen. Das maschinelle Indexieren kann die Verschlagwortung jedoch nicht ersetzen, sondern nur ergänzen
    Source
    Bibliothek: Forschung und Praxis. 24(2000) H.3, S.297-318
  16. Munkelt, J.; Schaer, P.; Lepsky, K.: Towards an IR test collection for the German National Library (2018) 0.00
    0.0023611297 = product of:
      0.014166778 = sum of:
        0.014166778 = weight(_text_:in in 4311) [ClassicSimilarity], result of:
          0.014166778 = score(doc=4311,freq=14.0), product of:
            0.059380736 = queryWeight, product of:
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.043654136 = queryNorm
            0.23857531 = fieldWeight in 4311, product of:
              3.7416575 = tf(freq=14.0), with freq of:
                14.0 = termFreq=14.0
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.046875 = fieldNorm(doc=4311)
      0.16666667 = coord(1/6)
    
    Abstract
    Automatic content indexing is one of the innovations that are increasingly changing the way libraries work. In theory, it promises a cataloguing service that would hardly be possible with humans in terms of speed, quantity and maybe quality. The German National Library (DNB) has also recognised this potential and is increasingly relying on the automatic indexing of their catalogue content. The DNB took a major step in this direction in 2017, which was announced in two papers. The announcement was rather restrained, but the content of the papers is all the more explosive for the library community: Since September 2017, the DNB has discontinued the intellectual indexing of series Band H and has switched to an automatic process for these series. The subject indexing of online publications (series O) has been purely automatical since 2010; from September 2017, monographs and periodicals published outside the publishing industry and university publications will no longer be indexed by people. This raises the question: What is the quality of the automatic indexing compared to the manual work or in other words to which degree can the automatic indexing replace people without a signi cant drop in regards to quality?
  17. Wan, T.-L.; Evens, M.; Wan, Y.-W.; Pao, Y.-Y.: Experiments with automatic indexing and a relational thesaurus in a Chinese information retrieval system (1997) 0.00
    0.0020823204 = product of:
      0.012493922 = sum of:
        0.012493922 = weight(_text_:in in 956) [ClassicSimilarity], result of:
          0.012493922 = score(doc=956,freq=8.0), product of:
            0.059380736 = queryWeight, product of:
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.043654136 = queryNorm
            0.21040362 = fieldWeight in 956, product of:
              2.828427 = tf(freq=8.0), with freq of:
                8.0 = termFreq=8.0
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.0546875 = fieldNorm(doc=956)
      0.16666667 = coord(1/6)
    
    Abstract
    This article describes a series of experiments with an interactive Chinese information retrieval system named CIRS and an interactive relational thesaurus. 2 important issues have been explored: whether thesauri enhance the retrieval effectiveness of Chinese documents, and whether automatic indexing can complete with manual indexing in a Chinese information retrieval system. Recall and precision are used to measure and evaluate the effectiveness of the system. Statistical analysis of the recall and precision measures suggest that the use of the relational thesaurus does improve the retrieval effectiveness both in the automatic indexing environment and in the manual indexing environment and that automatic indexing is at least as good as manual indexing
  18. Lochbaum, K.E.; Streeter, A.R.: Comparing and combining the effectiveness of latent semantic indexing and the ordinary vector space model for information retrieval (1989) 0.00
    0.0019955188 = product of:
      0.011973113 = sum of:
        0.011973113 = weight(_text_:in in 3458) [ClassicSimilarity], result of:
          0.011973113 = score(doc=3458,freq=10.0), product of:
            0.059380736 = queryWeight, product of:
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.043654136 = queryNorm
            0.20163295 = fieldWeight in 3458, product of:
              3.1622777 = tf(freq=10.0), with freq of:
                10.0 = termFreq=10.0
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.046875 = fieldNorm(doc=3458)
      0.16666667 = coord(1/6)
    
    Abstract
    A retrievalsystem was built to find individuals with appropriate expertise within a large research establishment on the basis of their authored documents. The expert-locating system uses a new method for automatic indexing and retrieval based on singular value decomposition, a matrix decomposition technique related to the factor analysis. Organizational groups, represented by the documents they write, and the terms contained in these documents, are fit simultaneously into a 100-dimensional "semantic" space. User queries are positioned in the semantic space, and the most similar groups are returned to the user. Here we compared the standard vector-space model with this new technique and found that combining the two methods improved performance over either alone. We also examined the effects of various experimental variables on the system`s retrieval accuracy. In particular, the effects of: term weighting functions in the semantic space construction and in query construction, suffix stripping, and using lexical units larger than a a single word were studied.
  19. Buckley, C.; Allan, J.; Salton, G.: Automatic routing and retrieval using Smart : TREC-2 (1995) 0.00
    0.0015457221 = product of:
      0.009274333 = sum of:
        0.009274333 = weight(_text_:in in 5699) [ClassicSimilarity], result of:
          0.009274333 = score(doc=5699,freq=6.0), product of:
            0.059380736 = queryWeight, product of:
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.043654136 = queryNorm
            0.1561842 = fieldWeight in 5699, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.046875 = fieldNorm(doc=5699)
      0.16666667 = coord(1/6)
    
    Abstract
    The Smart information retrieval project emphazises completely automatic approaches to the understanding and retrieval of large quantities of text. The work in the TREC-2 environment continues, performing both routing and ad hoc experiments. The ad hoc work extends investigations into combining global similarities, giving an overall indication of how a document matches a query, with local similarities identifying a smaller part of the document that matches the query. The performance of ad hoc runs is good, but it is clear that full advantage of the available local information is not been taken advantage of. The routing experiments use conventional relevance feedback approaches to routing, but with a much greater degree of query expansion than was previously done. The length of a query vector is increased by a factor of 5 to 10 by adding terms found in previously seen relevant documents. This approach improves effectiveness by 30-40% over the original query
    Theme
    Semantisches Umfeld in Indexierung u. Retrieval
  20. Gödert, W.; Liebig, M.: Maschinelle Indexierung auf dem Prüfstand : Ergebnisse eines Retrievaltests zum MILOS II Projekt (1997) 0.00
    0.0014724231 = product of:
      0.008834538 = sum of:
        0.008834538 = weight(_text_:in in 1174) [ClassicSimilarity], result of:
          0.008834538 = score(doc=1174,freq=4.0), product of:
            0.059380736 = queryWeight, product of:
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.043654136 = queryNorm
            0.14877784 = fieldWeight in 1174, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              1.3602545 = idf(docFreq=30841, maxDocs=44218)
              0.0546875 = fieldNorm(doc=1174)
      0.16666667 = coord(1/6)
    
    Abstract
    The test ran between Nov 95-Aug 96 in Cologne Fachhochschule fur Bibliothekswesen (College of Librarianship).The test basis was a database of 190,000 book titles published between 1990-95. MILOS II mechanized indexing methods proved helpful in avoiding or reducing numbers of unsatisfied/no result retrieval searches. Retrieval from mechanised indexing is 3 times more successful than from title keyword data. MILOS II also used a standardized semantic vocabulary. Mechanised indexing demands high quality software and output data