Search (199 results, page 1 of 10)

7e Dag van het Document : 19 & 20 mei 1998, Congrescentrum De Reehorst, Ede ; proceedings (1998) 0.09

0.08824871 = product of:
  0.33093265 = sum of:
    0.14194393 = weight(_text_:allgemeines in 2427) [ClassicSimilarity], result of:
      0.14194393 = score(doc=2427,freq=4.0), product of:
        0.15922415 = queryWeight, product of:
          5.705423 = idf(docFreq=399, maxDocs=44218)
          0.027907511 = queryNorm
        0.89147234 = fieldWeight in 2427, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          5.705423 = idf(docFreq=399, maxDocs=44218)
          0.078125 = fieldNorm(doc=2427)
    0.0965965 = weight(_text_:medien in 2427) [ClassicSimilarity], result of:
      0.0965965 = score(doc=2427,freq=4.0), product of:
        0.13135035 = queryWeight, product of:
          4.7066307 = idf(docFreq=1085, maxDocs=44218)
          0.027907511 = queryNorm
        0.73541105 = fieldWeight in 2427, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          4.7066307 = idf(docFreq=1085, maxDocs=44218)
          0.078125 = fieldNorm(doc=2427)
    0.021420246 = weight(_text_:und in 2427) [ClassicSimilarity], result of:
      0.021420246 = score(doc=2427,freq=4.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.34630734 = fieldWeight in 2427, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.078125 = fieldNorm(doc=2427)
    0.070971966 = product of:
      0.14194393 = sum of:
        0.14194393 = weight(_text_:allgemeines in 2427) [ClassicSimilarity], result of:
          0.14194393 = score(doc=2427,freq=4.0), product of:
            0.15922415 = queryWeight, product of:
              5.705423 = idf(docFreq=399, maxDocs=44218)
              0.027907511 = queryNorm
            0.89147234 = fieldWeight in 2427, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              5.705423 = idf(docFreq=399, maxDocs=44218)
              0.078125 = fieldNorm(doc=2427)
      0.5 = coord(1/2)
  0.26666668 = coord(4/15)

BK: 06.00 (Information und Dokumentation: Allgemeines)
05.38 (Neue elektronische Medien, Kommunikationswissenschaft)
Classification: 06.00 (Information und Dokumentation: Allgemeines)
05.38 (Neue elektronische Medien, Kommunikationswissenschaft)

Nohr, H.: Automatische Indexierung : Einführung in betriebliche Verfahren, Systeme und Anwendungen (2001) 0.03
```
0.032103293 = product of:
  0.12038734 = sum of:
    0.05677757 = weight(_text_:allgemeines in 2543) [ClassicSimilarity], result of:
      0.05677757 = score(doc=2543,freq=4.0), product of:
        0.15922415 = queryWeight, product of:
          5.705423 = idf(docFreq=399, maxDocs=44218)
          0.027907511 = queryNorm
        0.35658893 = fieldWeight in 2543, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          5.705423 = idf(docFreq=399, maxDocs=44218)
          0.03125 = fieldNorm(doc=2543)
    0.021844452 = weight(_text_:und in 2543) [ClassicSimilarity], result of:
      0.021844452 = score(doc=2543,freq=26.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.3531656 = fieldWeight in 2543, product of:
          5.0990195 = tf(freq=26.0), with freq of:
            26.0 = termFreq=26.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=2543)
    0.013376532 = weight(_text_:des in 2543) [ClassicSimilarity], result of:
      0.013376532 = score(doc=2543,freq=4.0), product of:
        0.077284485 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.027907511 = queryNorm
        0.17308173 = fieldWeight in 2543, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.03125 = fieldNorm(doc=2543)
    0.028388785 = product of:
      0.05677757 = sum of:
        0.05677757 = weight(_text_:allgemeines in 2543) [ClassicSimilarity], result of:
          0.05677757 = score(doc=2543,freq=4.0), product of:
            0.15922415 = queryWeight, product of:
              5.705423 = idf(docFreq=399, maxDocs=44218)
              0.027907511 = queryNorm
            0.35658893 = fieldWeight in 2543, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              5.705423 = idf(docFreq=399, maxDocs=44218)
              0.03125 = fieldNorm(doc=2543)
      0.5 = coord(1/2)
  0.26666668 = coord(4/15)
```
Abstract

Das vorliegende Buch zur automatischen Indexierung trägt dem Umstand Rechnung, dass ein ständig wachsender Berg von Dokumenten in Unternehmen, öffentlichen Verwaltungen, Einrichtungen der Fachinformation oder dem Internet entscheidungsrelevante Informationen enthält, die mit manuellen Mitteln und Methoden kaum mehr beherrschbar und erschließbar sind. Diese unstrukturierten Informationen sind in einer zunehmend von der schnellen Verarbeitung der Ressource Information abhängigen Wirtschaft von größter Bedeutung, ihre Beherrschung ist unabdingbar für den Wettbewerbserfolg. Verfahren der automatischen Indexierung von Dokumenten sind damit eine Basistechnik der betrieblichen Informationswirtschaft geworden. Trotz dieses Urnstandes, liegt bis auf den heutigen Tag keine einführende Darstellung in die Thematik vor. Die Zielsetzung dieses Buches ist es, einführend die Grundlagen sowie die verschiedenen Ansätze und Verfahren der automatischen Indexierung von Dokumenten vorzustellen. Die Darstellung verzichtet dabei bewusst auf die allzu detaillierte Tiefendarstellung einzelner Verfahren und Indexierungssysteme zugunsten einer Übersicht der grundsätzlichen Ansätze mit ihren jeweiligen Voraussetzungen, ihren Möglichkeiten und ihren Beschränkungen. Soweit einzelne Verfahren und Indexierungssysteme behandelt werden, besitzen diese beispielhaften Charakter für den behandelten Ansatz. Bei der Darstellung war ich stets uni eine verständliche Sprache bemüht. Der Text dieses Buches ist entstanden aus Vorlesungen in entsprechenden Lehrveranstaltungen im Studiengang Informationswirtschaft an der Fachhochschule Stuttgart. Die Darstellung richtet sich an Studierende und Lehrende der Informationswirtschaft, des Informationsmanagements, der Dokumentation sowie der Wirtschaftsinformatik, zugleich aber auch an die interessierten und mit der Thernatik konfrontierten Praktiker, die weniger an der technischen Seite der automatischen Indexierung, als vielmehr einen grundsätzlichen Informationsbedarf über die Möglichkeiten und die Schwierigkeiten des Einsatzes entsprechender Verfahren haben

Classification

AN 95300 Allgemeines / Buch- und Bibliothekswesen, Informationswissenschaft / Informationswissenschaft / Informationspraxis / Automatisches Indexing (z.B. KWIC, KWOC)

RVK

AN 95300 Allgemeines / Buch- und Bibliothekswesen, Informationswissenschaft / Informationswissenschaft / Informationspraxis / Automatisches Indexing (z.B. KWIC, KWOC)

Series

Materialien zur Information und Dokumentation; Bd.13
Carevic, Z.: Semi-automatische Verschlagwortung zur Integration externer semantischer Inhalte innerhalb einer medizinischen Kooperationsplattform (2012) 0.03
```
0.03171307 = product of:
  0.11892401 = sum of:
    0.05677757 = weight(_text_:allgemeines in 897) [ClassicSimilarity], result of:
      0.05677757 = score(doc=897,freq=4.0), product of:
        0.15922415 = queryWeight, product of:
          5.705423 = idf(docFreq=399, maxDocs=44218)
          0.027907511 = queryNorm
        0.35658893 = fieldWeight in 897, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          5.705423 = idf(docFreq=399, maxDocs=44218)
          0.03125 = fieldNorm(doc=897)
    0.014840383 = weight(_text_:und in 897) [ClassicSimilarity], result of:
      0.014840383 = score(doc=897,freq=12.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.23992877 = fieldWeight in 897, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=897)
    0.018917272 = weight(_text_:des in 897) [ClassicSimilarity], result of:
      0.018917272 = score(doc=897,freq=8.0), product of:
        0.077284485 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.027907511 = queryNorm
        0.24477452 = fieldWeight in 897, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.03125 = fieldNorm(doc=897)
    0.028388785 = product of:
      0.05677757 = sum of:
        0.05677757 = weight(_text_:allgemeines in 897) [ClassicSimilarity], result of:
          0.05677757 = score(doc=897,freq=4.0), product of:
            0.15922415 = queryWeight, product of:
              5.705423 = idf(docFreq=399, maxDocs=44218)
              0.027907511 = queryNorm
            0.35658893 = fieldWeight in 897, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              5.705423 = idf(docFreq=399, maxDocs=44218)
              0.03125 = fieldNorm(doc=897)
      0.5 = coord(1/2)
  0.26666668 = coord(4/15)
```
Abstract

Die vorliegende Arbeit beschäftigt sich mit der Integration von externen semantischen Inhalten auf Basis eines medizinischen Begriffssystems. Die zugrundeliegende Annahme ist, dass die Verwendung einer einheitlichen Terminologie auf Seiten des Anfragesystems und der Wissensbasis zu qualitativ hochwertigen Ergebnissen führt. Um dies zu erreichen muss auf Seiten des Anfragesystems eine Abbildung natürlicher Sprache auf die verwendete Terminologie gewährleistet werden. Dies geschieht auf Basis einer (semi-)automatischen Verschlagwortung textbasierter Inhalte. Im Wesentlichen lassen sich folgende Fragestellungen festhalten: Automatische Verschlagwortung textbasierter Inhalte Kann eine automatische Verschlagwortung textbasierter Inhalte auf Basis eines Begriffssystems optimiert werden? Der zentrale Aspekt der vorliegenden Arbeit ist die (semi-)automatische Verschlagwortung textbasierter Inhalte auf Basis eines medizinischen Begriffssystems. Zu diesem Zweck wird der aktuelle Stand der Forschung betrachtet. Es werden eine Reihe von Tokenizern verglichen um zu erfahren welche Algorithmen sich zur Ermittlung von Wortgrenzen eignen. Speziell wird betrachtet, wie die Ermittlung von Wortgrenzen in einer domänenspezifischen Umgebung eingesetzt werden kann. Auf Basis von identifizierten Token in einem Text werden die Auswirkungen des Stemming und POS-Tagging auf die Gesamtmenge der zu analysierenden Inhalte beobachtet. Abschließend wird evaluiert wie ein kontrolliertes Vokabular die Präzision bei der Verschlagwortung erhöhen kann. Dies geschieht unter der Annahme dass domänenspezifische Inhalte auch innerhalb eines domänenspezifischen Begriffssystems definiert sind. Zu diesem Zweck wird ein allgemeines Prozessmodell entwickelt anhand dessen eine Verschlagwortung vorgenommen wird.
Integration externer Inhalte Inwieweit kann die Nutzung einer einheitlichen Terminologie zwischen Anfragesystem und Wissensbasis den Prozess der Informationsbeschaffung unterstützen? Zu diesem Zweck wird in einer ersten Phase ermittelt welche Wissensbasen aus der medizinischen Domäne in der Linked Data Cloud zur Verfügung stehen. Aufbauend auf den Ergebnissen werden Informationen aus verschiedenen dezentralen Wissensbasen exemplarisch integriert. Der Fokus der Betrachtung liegt dabei auf der verwendeten Terminologie sowie der Nutzung von Semantic Web Technologien. Neben Informationen aus der Linked Data Cloud erfolgt eine Suche nach medizinischer Literatur in PubMed. Wie auch in der Linked Data Cloud erfolgt die Integration unter Verwendung einer einheitlichen Terminologie. Eine weitere Fragestellung ist, wie Informationen aus insgesamt 21. Mio Aufsatzzitaten in PubMed sinnvoll integriert werden können. Dabei wird ermittelt welche Mechanismen eingesetzt werden können um die Präzision der Ergebnisse zu optimieren. Eignung medizinischer Begriffssystem Welche medizinischen Begriffssysteme existieren und wie eignen sich diese als zugrungeliegendes Vokabular für die automatische Verschlagwortung und Integration semantischer Inhalte? Der Fokus liegt dabei speziell auf einer Bewertung der Reichhaltigkeit von Begriffssystemen, wobei insbesondere der Detaillierungsgrad von Interesse ist. Handelt es sich um ein spezifisches oder allgemeines Begriffssystem und eignet sich dieses auch dafür bestimmte Teilaspekte der Medizin, wie bspw. die Chirurige oder die Anästhesie, in einer ausreichenden Tiefe zu beschreiben?

Content

Masterarbeit, ausgearbeitet von Zeljko Carevic zur Erlangung des akademischen Grades Master of Science vorgelegt an der Fachhochschule Köln Campus Gummersbach im Studiengang Medieninformatik. Vgl.. unter: http://opus.bibl.fh-koeln.de/volltexte/2012/376/pdf/Carevic.pdf.

Glaesener, L.: Automatisches Indexieren einer informationswissenschaftlichen Datenbank mit Mehrwortgruppen (2012) 0.03

0.029442795 = product of:
  0.110410474 = sum of:
    0.027094709 = weight(_text_:und in 401) [ClassicSimilarity], result of:
      0.027094709 = score(doc=401,freq=10.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.438048 = fieldWeight in 401, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0625 = fieldNorm(doc=401)
    0.049274165 = product of:
      0.09854833 = sum of:
        0.09854833 = weight(_text_:kommunikationswissenschaften in 401) [ClassicSimilarity], result of:
          0.09854833 = score(doc=401,freq=4.0), product of:
            0.1483304 = queryWeight, product of:
              5.315071 = idf(docFreq=590, maxDocs=44218)
              0.027907511 = queryNorm
            0.6643839 = fieldWeight in 401, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              5.315071 = idf(docFreq=590, maxDocs=44218)
              0.0625 = fieldNorm(doc=401)
      0.5 = coord(1/2)
    0.018917272 = weight(_text_:des in 401) [ClassicSimilarity], result of:
      0.018917272 = score(doc=401,freq=2.0), product of:
        0.077284485 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.027907511 = queryNorm
        0.24477452 = fieldWeight in 401, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.0625 = fieldNorm(doc=401)
    0.01512433 = product of:
      0.03024866 = sum of:
        0.03024866 = weight(_text_:22 in 401) [ClassicSimilarity], result of:
          0.03024866 = score(doc=401,freq=2.0), product of:
            0.09772735 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.027907511 = queryNorm
            0.30952093 = fieldWeight in 401, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0625 = fieldNorm(doc=401)
      0.5 = coord(1/2)
  0.26666668 = coord(4/15)

Abstract: Ein Bericht über die Ergebnisse und die Prozessanalyse einer automatischen Indexierung mit Mehrwortgruppen. Diese Bachelorarbeit beschreibt, inwieweit der Inhalt informationswissenschaftlicher Fachtexte durch informationswissenschaftliches Fachvokabular erschlossen werden kann und sollte und dass in diesen wissenschaftlichen Texten ein Großteil der fachlichen Inhalte in Mehrwortgruppen vorkommt. Die Ergebnisse wurden durch eine automatische Indexierung mit Mehrwortgruppen mithilfe des Programme Lingo an einer informationswissenschaftlichen Datenbank ermittelt.
Content: Bachelorarbeit im Studiengang Bibliothekswesen der Fakultät für Informations- und Kommunikationswissenschaften an der Fachhochschule Köln.
Date: 11. 9.2012 19:43:22
Imprint: Köln : Fachhochschule / Fakultät für Informations- und Kommunikationswissenschaften

Mödden, E.; Dreger, A.; Hommes, K.P.; Mohammadianbisheh, N.; Mölck, L.; Pinna, L.; Sitte-Zöllner, D.: ¬Der Weg zur Gründung der AG Erschließung ÖB-DNB und die Entwicklung eines maschinellen Verfahrens zur Verschlagwortung der Kinder- und Jugendliteratur mit GND-Vokabular (2020) 0.02
```
0.02104538 = product of:
  0.1052269 = sum of:
    0.06325043 = weight(_text_:medien in 71) [ClassicSimilarity], result of:
      0.06325043 = score(doc=71,freq=14.0), product of:
        0.13135035 = queryWeight, product of:
          4.7066307 = idf(docFreq=1085, maxDocs=44218)
          0.027907511 = queryNorm
        0.48153985 = fieldWeight in 71, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          4.7066307 = idf(docFreq=1085, maxDocs=44218)
          0.02734375 = fieldNorm(doc=71)
    0.025423856 = weight(_text_:und in 71) [ClassicSimilarity], result of:
      0.025423856 = score(doc=71,freq=46.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.41103485 = fieldWeight in 71, product of:
          6.78233 = tf(freq=46.0), with freq of:
            46.0 = termFreq=46.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02734375 = fieldNorm(doc=71)
    0.016552612 = weight(_text_:des in 71) [ClassicSimilarity], result of:
      0.016552612 = score(doc=71,freq=8.0), product of:
        0.077284485 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.027907511 = queryNorm
        0.2141777 = fieldWeight in 71, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.02734375 = fieldNorm(doc=71)
  0.2 = coord(3/15)
```
Abstract

Öffentliche Bibliotheken und die Deutsche Nationalbibliothek haben viele Gemeinsamkeiten. Öffentliche Bibliotheken und die Deutsche Nationalbibliothek haben aber auch viele Unterschiede. Zu den Gemeinsamkeiten zählt zweifelsohne die inhaltliche Vielfalt des Medienangebots. Anders als institutionell gebundene Bibliotheken wie Hochschulbibliotheken, seien es Universitäts- oder Fachhochschulbibliotheken, offerieren Öffentliche Bibliotheken wie auch die DNB ein über institutionelle Belange hinausreichendes universelles Angebot. Sie haben Kinderbücher und philosophische Abhandlungen, Ratgeber und Romane, Spiele und Noten im Bestand. Die Vielfalt der inhaltlichen und formalen Medien korrespondiert mit der Vielfalt der Nutzerinnen und Nutzer. Die Nutzerinnen und Nutzer der Öffentlichen Bibliotheken und der DNB müssen nicht Angehörige einer Institution sein; es reicht, dass sie ein wie auch immer geartetes je persönliches Informationsbedürfnis haben. Zu den Unterschieden zählen neben den gesetzlichen Aufgaben, für die DNB festgelegt als Bundesgesetz, für Öffentliche Bibliotheken in einigen Bundesländern durch entsprechende Landesgesetze, der ganz unterschiedliche Umgang mit Medien. Haben Öffentliche Bibliotheken den Anspruch, Gebrauchsbibliotheken zu sein, in denen Medien, intensiv genutzt, ein zeitlich begrenztes Aufenthaltsrecht haben, so fungiert die DNB als Gedächtnisinstitution, um die Medien auch für nachfolgende Generationen zu erhalten. Die DNB hat dabei die Aufgabe, die Medien "zu erschließen und bibliografisch zu verzeichnen" und hierbei "zentrale bibliothekarische und nationalbiografische Dienste zu leisten" sowie die Medien "für die Allgemeinheit nutzbar zu machen" (DNBG §2, Satz 1)1. Die Gebrauchsorientierung der Öffentlichen Bibliotheken impliziert, dass mit der hohen Kundenorientierung die gute Auffindbarkeit von Medien im Zentrum der Erschließung steht. Was liegt daher näher, als hierfür die zentralen Metadatendienste der DNB zu nutzen? Die Versorgung mit zentral erfassten Metadaten in hoher Qualität für die Erschließung lokaler Medienbestände ist wirtschaftlich und ermöglicht, die knappen personellen Ressourcen auf dringend erforderliche Vermittlungstätigkeiten zu konzentrieren. Soweit die Theorie, soweit auch die Praxis, bis vor etwa zehn Jahren Veränderungen eintraten.
Man einigte sich auf das Vorhaben, die THEMA-angereicherten Daten des Buchhandels bibliotheksspezifisch aufzuarbeiten und maschinell in verbale Erschließungskategorien zu transferieren. Es wurde darüber informiert, dass die Marketing- und Verlagsservice für den Buchhandel GmbH - MVB sich intensiv bemüht, die Verwendung von THEMA durch die Verlage im Rahmen einer Offensive zur Verbesserung der Qualität der Daten im Verzeichnis Lieferbarer Bücher zu forcieren. Die Workshop-Teilnehmenden waren sich einig in der Auffassung, an der Normierung des Schlagwortvokabulars, wie sie über die GND stattfindet, festzuhalten. Denkbar sei, freie Schlagwörter aus den MVB-Daten mit der GND abzugleichen und/oder eine Liste von Begriffen zu erstellen, die für ein Mapping der THEMA-Notationen auf die GND geeignet wären. Als geeignetstes Segment empfahl sich die Kinderliteratur, zum einen wegen ihrer großen Menge und hohen Bedeutung in den ÖBs und der mangelnden Erschließung durch jedwede Klassifikation, zum anderen wegen der Menge und Qualität der freien Schlagwörter in den Daten des Buchhandels. Verabredet wurde, dass die DNB eine Skizze für ein Projekt zur Nutzbarmachung von THEMA und der freien MVB-Schlagwörter erarbeiten und zur Verfügung stellen sollte, während die ÖB-Vertretungen eine Liste von Schlagwörtern im Bereich der Kinderliteratur, die von besonderer Relevanz z.B. bei der Auskunftserteilung sind, an die DNB übermitteln wollten.
Pollmeier, M.: Verlagsschlagwörter als Grundlage für den Einsatz eines maschinellen Verfahrens zur verbalen Erschließung der Kinder- und Jugendliteratur durch die Deutsche Nationalbibliothek : eine Datenanalyse (2019) 0.02
```
0.01808287 = product of:
  0.09041435 = sum of:
    0.04829825 = weight(_text_:medien in 1081) [ClassicSimilarity], result of:
      0.04829825 = score(doc=1081,freq=4.0), product of:
        0.13135035 = queryWeight, product of:
          4.7066307 = idf(docFreq=1085, maxDocs=44218)
          0.027907511 = queryNorm
        0.36770552 = fieldWeight in 1081, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          4.7066307 = idf(docFreq=1085, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1081)
    0.030292805 = weight(_text_:und in 1081) [ClassicSimilarity], result of:
      0.030292805 = score(doc=1081,freq=32.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.48975256 = fieldWeight in 1081, product of:
          5.656854 = tf(freq=32.0), with freq of:
            32.0 = termFreq=32.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1081)
    0.011823296 = weight(_text_:des in 1081) [ClassicSimilarity], result of:
      0.011823296 = score(doc=1081,freq=2.0), product of:
        0.077284485 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.027907511 = queryNorm
        0.15298408 = fieldWeight in 1081, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1081)
  0.2 = coord(3/15)
```
Abstract

Die Inhaltserschließung durch Schlagwörter wird aktuell in vielen Öffentlichen Bibliotheken Deutschlands zurückgefahren. Aufgrund von Personalmangel und den vielfältigen anderen bibliothekarischen Dienstleistungen, die für die Benutzer zu leisten sind, kommt sie oft zu kurz. Die Deutsche Nationalbibliothek unterstützte diese Bibliotheken bisher als wichtigster Datenlieferant, jedoch stellte sie 2017 die intellektuelle Inhaltserschließung der Kinder- und Jugendliteratur und der Belletristik ein. Um diese problematische Situation zu verbessern, wird aktuell in der Deutschen Nationalbibliothek ein Verfahren erprobt, das aus Schlagwörtern von Verlagen maschinell bibliothekarische Schlagwörter aus der Gemeinsamen Normdatei generiert. Auf die Titel der Kinder- und Jugendliteratur aus den Jahren 2018 und 2019 wurde es bereits angewendet. In dieser Arbeit geht es um eine erste Analyse dieser Erschließungsergebnisse, um Aussagen über die Nützlichkeit der Verlagsschlagwörter und des automatischen Verfahrens zu treffen. Im theoretischen Teil werden einerseits die Inhaltserschließung im bibliothekarischen Bereich und deren aktuelle Entwicklungen hinsichtlich der Automatisierung beschrieben. Andererseits wird näher auf die Erschließungspraxis in der Deutschen Nationalbibliothek hinsichtlich der Automatisierung und der Kinder- und Jugendliteratur eingegangen. Im Analyseteil werden sowohl die Verlagsschlagwörter als auch die bibliothekarischen Schlagwörter nach festgelegten Kriterien untersucht und schließlich miteinander verglichen.

Footnote

Bachelorarbeit an der Hochschule für Technik, Wirtschaft und Kultur Leipzig Fakultät Informatik und Medien Studiengang Bibliotheks- und Informationswissenschaft.

Imprint

Leipzig : Hochschule für Technik, Wirtschaft und Kultur / Fakultät Informatik und Medien

Munkelt, J.: Erstellung einer DNB-Retrieval-Testkollektion (2018) 0.02

0.017127637 = product of:
  0.08563818 = sum of:
    0.02597067 = weight(_text_:und in 4310) [ClassicSimilarity], result of:
      0.02597067 = score(doc=4310,freq=12.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.41987535 = fieldWeight in 4310, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0546875 = fieldNorm(doc=4310)
    0.043114897 = product of:
      0.086229794 = sum of:
        0.086229794 = weight(_text_:kommunikationswissenschaften in 4310) [ClassicSimilarity], result of:
          0.086229794 = score(doc=4310,freq=4.0), product of:
            0.1483304 = queryWeight, product of:
              5.315071 = idf(docFreq=590, maxDocs=44218)
              0.027907511 = queryNorm
            0.5813359 = fieldWeight in 4310, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              5.315071 = idf(docFreq=590, maxDocs=44218)
              0.0546875 = fieldNorm(doc=4310)
      0.5 = coord(1/2)
    0.016552612 = weight(_text_:des in 4310) [ClassicSimilarity], result of:
      0.016552612 = score(doc=4310,freq=2.0), product of:
        0.077284485 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.027907511 = queryNorm
        0.2141777 = fieldWeight in 4310, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.0546875 = fieldNorm(doc=4310)
  0.2 = coord(3/15)

Abstract: Seit Herbst 2017 findet in der Deutschen Nationalbibliothek die Inhaltserschließung bestimmter Medienwerke rein maschinell statt. Die Qualität dieses Verfahrens, das die Prozessorganisation von Bibliotheken maßgeblich prägen kann, wird unter Fachleuten kontrovers diskutiert. Ihre Standpunkte werden zunächst hinreichend erläutert, ehe die Notwendigkeit einer Qualitätsprüfung des Verfahrens und dessen Grundlagen dargelegt werden. Zentraler Bestandteil einer künftigen Prüfung ist eine Testkollektion. Ihre Erstellung und deren Dokumentation steht im Fokus dieser Arbeit. In diesem Zusammenhang werden auch die Entstehungsgeschichte und Anforderungen an gelungene Testkollektionen behandelt. Abschließend wird ein Retrievaltest durchgeführt, der die Einsatzfähigkeit der erarbeiteten Testkollektion belegt. Seine Ergebnisse dienen ausschließlich der Funktionsüberprüfung. Eine Qualitätsbeurteilung maschineller Inhaltserschließung im Speziellen sowie im Allgemeinen findet nicht statt und ist nicht Ziel der Ausarbeitung.
Content: Bachelorarbeit, Bibliothekswissenschaften, Fakultät für Informations- und Kommunikationswissenschaften, Technische Hochschule Köln
Imprint: Köln : Technische Hochschule, Fakultät für Informations- und Kommunikationswissenschaften

Lepsky, K.: Automatisierung in der Sacherschließung : Maschinelles Indexieren von Titeldaten (1996) 0.01

0.014355887 = product of:
  0.107669145 = sum of:
    0.08196484 = weight(_text_:medien in 3418) [ClassicSimilarity], result of:
      0.08196484 = score(doc=3418,freq=2.0), product of:
        0.13135035 = queryWeight, product of:
          4.7066307 = idf(docFreq=1085, maxDocs=44218)
          0.027907511 = queryNorm
        0.62401694 = fieldWeight in 3418, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.7066307 = idf(docFreq=1085, maxDocs=44218)
          0.09375 = fieldNorm(doc=3418)
    0.025704298 = weight(_text_:und in 3418) [ClassicSimilarity], result of:
      0.025704298 = score(doc=3418,freq=4.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.41556883 = fieldWeight in 3418, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.09375 = fieldNorm(doc=3418)
  0.13333334 = coord(2/15)

Series: Zeitschrift für Bibliothekswesen und Bibliographie: Sonderh.63
Source: 85. Deutscher Bibliothekartag in Göttingen 1995: Die Herausforderung der Bibliotheken durch elektronische Medien und neue Organisationsformen. Hrsg.: S. Wefers

Hauer, M: Silicon Valley Vorarlberg : Maschinelle Indexierung und semantisches Retrieval verbessert den Katalog der Vorarlberger Landesbibliothek (2004) 0.01
```
0.013202424 = product of:
  0.06601212 = sum of:
    0.03415202 = weight(_text_:medien in 2489) [ClassicSimilarity], result of:
      0.03415202 = score(doc=2489,freq=2.0), product of:
        0.13135035 = queryWeight, product of:
          4.7066307 = idf(docFreq=1085, maxDocs=44218)
          0.027907511 = queryNorm
        0.26000705 = fieldWeight in 2489, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.7066307 = idf(docFreq=1085, maxDocs=44218)
          0.0390625 = fieldNorm(doc=2489)
    0.020036805 = weight(_text_:und in 2489) [ClassicSimilarity], result of:
      0.020036805 = score(doc=2489,freq=14.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.32394084 = fieldWeight in 2489, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=2489)
    0.011823296 = weight(_text_:des in 2489) [ClassicSimilarity], result of:
      0.011823296 = score(doc=2489,freq=2.0), product of:
        0.077284485 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.027907511 = queryNorm
        0.15298408 = fieldWeight in 2489, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.0390625 = fieldNorm(doc=2489)
  0.2 = coord(3/15)
```
Abstract

10 Jahre Internet haben die WeIt um die Bibliotheken herum stark geändert. Der Web-OPAC war eine Antwort der Bibliotheken. Doch reicht ein Web-OPAC im Zeitalter des Internets noch aus? Außer Web ist es doch der alte Katalog. Ca. 90% aller Bibliotheksrecherchen durch Benutzer sind Themenrecherchen. Ein Anteil dieser Recherchen bringt kein Ergebnis. Es kann leicht gemessen werden, dass null Medien gefunden wurden. Die Gründe hierfür wurden auch immer wieder untersucht: Plural- anstelle Singularformen, zu spezifische Suchbegriffe, Schreib- oder Bedienungsfehler. Zu wenig untersucht sind aber die Recherchen, die nicht mit einer Ausleihe enden, denn auch dann kann man in vielen Fällen von einem Retrieval-Mangel ausgehen. Schließlich: Von den ausgeliehenen Büchern werden nach Einschätzung vieler Bibliothekare 80% nicht weiter als bis zum Inhaltsverzeichnis gelesen (außer in Präsenzbibliotheken) - und erst nach Wochen zurückgegeben. Ein Politiker würde dies neudeutsch als "ein Vermittlungsproblem" bezeichnen. Ein Controller als nicht hinreichende Kapitalnutzung. Einfacher machen es sich immer mehr Studenten und Wissenschaftler, ihr Wissensaustausch vollzieht sich zunehmend an anderen Orten. Bibliotheken (als Funktion) sind unverzichtbar für die wissenschaftliche Kommunikation. Deshalb geht es darum, Wege zu finden und auch zu beschreiten, welche die Schätze von Bibliotheken (als Institution) effizienter an die Zielgruppe bringen. Der Einsatz von Information Retrieval-Technologie, neue Erschließungsmethoden und neuer Content sind Ansätze dazu. Doch die bisherigen Verbundstrukturen und Abhängigkeit haben das hier vorgestellte innovative Projekt keineswegs gefördert. Innovation entsteht wie die Innvoationsforschung zeigt eigentlich immer an der Peripherie: in Bregenz fing es an.

Source

Mitteilungen der Vereinigung Österreichischer Bibliothekarinnen und Bibliothekare. 57(2004) H.3/4, S.33-38

Kasprzik, A.: Voraussetzungen und Anwendungspotentiale einer präzisen Sacherschließung aus Sicht der Wissenschaft (2018) 0.01

0.012522678 = product of:
  0.06261339 = sum of:
    0.02597067 = weight(_text_:und in 5195) [ClassicSimilarity], result of:
      0.02597067 = score(doc=5195,freq=12.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.41987535 = fieldWeight in 5195, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5195)
    0.02340893 = weight(_text_:des in 5195) [ClassicSimilarity], result of:
      0.02340893 = score(doc=5195,freq=4.0), product of:
        0.077284485 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.027907511 = queryNorm
        0.302893 = fieldWeight in 5195, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5195)
    0.013233789 = product of:
      0.026467578 = sum of:
        0.026467578 = weight(_text_:22 in 5195) [ClassicSimilarity], result of:
          0.026467578 = score(doc=5195,freq=2.0), product of:
            0.09772735 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.027907511 = queryNorm
            0.2708308 = fieldWeight in 5195, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0546875 = fieldNorm(doc=5195)
      0.5 = coord(1/2)
  0.2 = coord(3/15)

Abstract: Große Aufmerksamkeit richtet sich im Moment auf das Potential von automatisierten Methoden in der Sacherschließung und deren Interaktionsmöglichkeiten mit intellektuellen Methoden. In diesem Kontext befasst sich der vorliegende Beitrag mit den folgenden Fragen: Was sind die Anforderungen an bibliothekarische Metadaten aus Sicht der Wissenschaft? Was wird gebraucht, um den Informationsbedarf der Fachcommunities zu bedienen? Und was bedeutet das entsprechend für die Automatisierung der Metadatenerstellung und -pflege? Dieser Beitrag fasst die von der Autorin eingenommene Position in einem Impulsvortrag und der Podiumsdiskussion beim Workshop der FAG "Erschließung und Informationsvermittlung" des GBV zusammen. Der Workshop fand im Rahmen der 22. Verbundkonferenz des GBV statt.

Renz, M.: Automatische Inhaltserschließung im Zeichen von Wissensmanagement (2001) 0.01

0.012318769 = product of:
  0.06159384 = sum of:
    0.03180744 = weight(_text_:und in 5671) [ClassicSimilarity], result of:
      0.03180744 = score(doc=5671,freq=18.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.51424015 = fieldWeight in 5671, product of:
          4.2426405 = tf(freq=18.0), with freq of:
            18.0 = termFreq=18.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5671)
    0.016552612 = weight(_text_:des in 5671) [ClassicSimilarity], result of:
      0.016552612 = score(doc=5671,freq=2.0), product of:
        0.077284485 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.027907511 = queryNorm
        0.2141777 = fieldWeight in 5671, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5671)
    0.013233789 = product of:
      0.026467578 = sum of:
        0.026467578 = weight(_text_:22 in 5671) [ClassicSimilarity], result of:
          0.026467578 = score(doc=5671,freq=2.0), product of:
            0.09772735 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.027907511 = queryNorm
            0.2708308 = fieldWeight in 5671, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0546875 = fieldNorm(doc=5671)
      0.5 = coord(1/2)
  0.2 = coord(3/15)

Abstract: Methoden der automatischen Inhaltserschließung werden seit mehr als 30 Jahren entwickelt, ohne in luD-Kreisen auf merkliche Akzeptanz zu stoßen. Gegenwärtig führen jedoch die steigende Informationsflut und der Bedarf an effizienten Zugriffsverfahren im Informations- und Wissensmanagement in breiten Anwenderkreisen zu einem wachsenden Interesse an diesen Methoden, zu verstärkten Anstrengungen in Forschung und Entwicklung und zu neuen Produkten. In diesem Beitrag werden verschiedene Ansätze zu intelligentem und inhaltsbasiertem Retrieval und zur automatischen Inhaltserschließung diskutiert sowie kommerziell vertriebene Softwarewerkzeuge und Lösungen präsentiert. Abschließend wird festgestellt, dass in naher Zukunft mit einer zunehmenden Automatisierung von bestimmten Komponenten des Informations- und Wissensmanagements zu rechnen ist, indem Software-Werkzeuge zur automatischen Inhaltserschließung in den Workflow integriert werden
Date: 22. 3.2001 13:14:48
Source: nfd Information - Wissenschaft und Praxis. 52(2001) H.2, S.69-78

Pusl, F.: Automatische Indexierung an Bibliotheken - Systeme, Projekte und Einsatzmöglichkeiten (2005) 0.01

0.012128269 = product of:
  0.090962015 = sum of:
    0.029988347 = weight(_text_:und in 2059) [ClassicSimilarity], result of:
      0.029988347 = score(doc=2059,freq=4.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.4848303 = fieldWeight in 2059, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.109375 = fieldNorm(doc=2059)
    0.060973667 = product of:
      0.12194733 = sum of:
        0.12194733 = weight(_text_:kommunikationswissenschaften in 2059) [ClassicSimilarity], result of:
          0.12194733 = score(doc=2059,freq=2.0), product of:
            0.1483304 = queryWeight, product of:
              5.315071 = idf(docFreq=590, maxDocs=44218)
              0.027907511 = queryNorm
            0.82213306 = fieldWeight in 2059, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.315071 = idf(docFreq=590, maxDocs=44218)
              0.109375 = fieldNorm(doc=2059)
      0.5 = coord(1/2)
  0.13333334 = coord(2/15)

Imprint: Köln : FH, Fakultät für Informations- und Kommunikationswissenschaften

Grün, S.: Bildung von Komposita-Indextermen auf der Basis einer algorithmischen Mehrwortgruppenanalyse mit Lingo (2015) 0.01

0.012128112 = product of:
  0.06064056 = sum of:
    0.020321032 = weight(_text_:und in 1335) [ClassicSimilarity], result of:
      0.020321032 = score(doc=1335,freq=10.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.328536 = fieldWeight in 1335, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.046875 = fieldNorm(doc=1335)
    0.026131572 = product of:
      0.052263144 = sum of:
        0.052263144 = weight(_text_:kommunikationswissenschaften in 1335) [ClassicSimilarity], result of:
          0.052263144 = score(doc=1335,freq=2.0), product of:
            0.1483304 = queryWeight, product of:
              5.315071 = idf(docFreq=590, maxDocs=44218)
              0.027907511 = queryNorm
            0.35234275 = fieldWeight in 1335, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.315071 = idf(docFreq=590, maxDocs=44218)
              0.046875 = fieldNorm(doc=1335)
      0.5 = coord(1/2)
    0.014187954 = weight(_text_:des in 1335) [ClassicSimilarity], result of:
      0.014187954 = score(doc=1335,freq=2.0), product of:
        0.077284485 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.027907511 = queryNorm
        0.18358089 = fieldWeight in 1335, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.046875 = fieldNorm(doc=1335)
  0.2 = coord(3/15)

Abstract: In der deutschen Sprache lassen sich Begriffe durch Komposita und Mehrwortgruppen ausdrücken. Letztere können dabei aber auch als Kompositum selbst ausgedrückt werden und entsprechend auf den gleichen Begriff verweisen. In der nachfolgenden Studie werden Mehrwortgruppen analysiert, die auch Komposita sein können. Ziel der Untersuchung ist es, diese Wortfolgen über Muster zu identifizieren. Analysiert wurden Daten des Karrieremanagers Placement24 GmbH - in Form von Stellenanzeigen. Die Extraktion von Mehrwortgruppen erfolgte algorithmisch und wurde mit der Open-Source Software Lingo durch geführt. Auf der Basis von Erweiterungen bzw. Anpassungen in Wörterbüchern und den darin getaggten Wörtern wurde drei- bis fünfstelligen Kandidaten analysiert. Aus positiv bewerteten Mehrwortgruppen wurden Komposita gebildet. Diese wurden mit den identifizierten Komposita aus den Stellenanzeigen verglichen. Der Vergleich zeigte, dass ein Großteil der neu generierten Komposita nicht durch eine Kompositaidentifizierung erzeugt wurde.
Content: Bachelorarbeit, Studiengang Bibliothekswesen, Fakultät für Informations- und Kommunikationswissenschaften, Fachhochschule Köln

Lepsky, K.; Vorhauer, J.: Lingo - ein open source System für die Automatische Indexierung deutschsprachiger Dokumente (2006) 0.01

0.01165517 = product of:
  0.05827585 = sum of:
    0.024234245 = weight(_text_:und in 3581) [ClassicSimilarity], result of:
      0.024234245 = score(doc=3581,freq=8.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.39180204 = fieldWeight in 3581, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0625 = fieldNorm(doc=3581)
    0.018917272 = weight(_text_:des in 3581) [ClassicSimilarity], result of:
      0.018917272 = score(doc=3581,freq=2.0), product of:
        0.077284485 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.027907511 = queryNorm
        0.24477452 = fieldWeight in 3581, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.0625 = fieldNorm(doc=3581)
    0.01512433 = product of:
      0.03024866 = sum of:
        0.03024866 = weight(_text_:22 in 3581) [ClassicSimilarity], result of:
          0.03024866 = score(doc=3581,freq=2.0), product of:
            0.09772735 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.027907511 = queryNorm
            0.30952093 = fieldWeight in 3581, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0625 = fieldNorm(doc=3581)
      0.5 = coord(1/2)
  0.2 = coord(3/15)

Abstract: Lingo ist ein frei verfügbares System (open source) zur automatischen Indexierung der deutschen Sprache. Bei der Entwicklung von lingo standen hohe Konfigurierbarkeit und Flexibilität des Systems für unterschiedliche Einsatzmöglichkeiten im Vordergrund. Der Beitrag zeigt den Nutzen einer linguistisch basierten automatischen Indexierung für das Information Retrieval auf. Die für eine Retrievalverbesserung zur Verfügung stehende linguistische Funktionalität von lingo wird vorgestellt und an Beispielen erläutert: Grundformerkennung, Kompositumerkennung bzw. Kompositumzerlegung, Wortrelationierung, lexikalische und algorithmische Mehrwortgruppenerkennung, OCR-Fehlerkorrektur. Der offene Systemaufbau von lingo wird beschrieben, mögliche Einsatzszenarien und Anwendungsgrenzen werden benannt.
Date: 24. 3.2006 12:22:02

Franke-Maier, M.: Anforderungen an die Qualität der Inhaltserschließung im Spannungsfeld von intellektuell und automatisch erzeugten Metadaten (2018) 0.01

0.011001351 = product of:
  0.055006757 = sum of:
    0.018364036 = weight(_text_:und in 5344) [ClassicSimilarity], result of:
      0.018364036 = score(doc=5344,freq=6.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.2968967 = fieldWeight in 5344, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5344)
    0.02340893 = weight(_text_:des in 5344) [ClassicSimilarity], result of:
      0.02340893 = score(doc=5344,freq=4.0), product of:
        0.077284485 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.027907511 = queryNorm
        0.302893 = fieldWeight in 5344, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5344)
    0.013233789 = product of:
      0.026467578 = sum of:
        0.026467578 = weight(_text_:22 in 5344) [ClassicSimilarity], result of:
          0.026467578 = score(doc=5344,freq=2.0), product of:
            0.09772735 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.027907511 = queryNorm
            0.2708308 = fieldWeight in 5344, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0546875 = fieldNorm(doc=5344)
      0.5 = coord(1/2)
  0.2 = coord(3/15)

Abstract: Spätestens seit dem Deutschen Bibliothekartag 2018 hat sich die Diskussion zu den automatischen Verfahren der Inhaltserschließung der Deutschen Nationalbibliothek von einer politisch geführten Diskussion in eine Qualitätsdiskussion verwandelt. Der folgende Beitrag beschäftigt sich mit Fragen der Qualität von Inhaltserschließung in digitalen Zeiten, wo heterogene Erzeugnisse unterschiedlicher Verfahren aufeinandertreffen und versucht, wichtige Anforderungen an Qualität zu definieren. Dieser Tagungsbeitrag fasst die vom Autor als Impulse vorgetragenen Ideen beim Workshop der FAG "Erschließung und Informationsvermittlung" des GBV am 29. August 2018 in Kiel zusammen. Der Workshop fand im Rahmen der 22. Verbundkonferenz des GBV statt.

Junger, U.; Schwens, U.: ¬Die inhaltliche Erschließung des schriftlichen kulturellen Erbes auf dem Weg in die Zukunft : Automatische Vergabe von Schlagwörtern in der Deutschen Nationalbibliothek (2017) 0.01
```
0.01090194 = product of:
  0.0545097 = sum of:
    0.028336324 = weight(_text_:und in 3780) [ClassicSimilarity], result of:
      0.028336324 = score(doc=3780,freq=28.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.45812157 = fieldWeight in 3780, product of:
          5.2915025 = tf(freq=28.0), with freq of:
            28.0 = termFreq=28.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=3780)
    0.016720666 = weight(_text_:des in 3780) [ClassicSimilarity], result of:
      0.016720666 = score(doc=3780,freq=4.0), product of:
        0.077284485 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.027907511 = queryNorm
        0.21635216 = fieldWeight in 3780, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.0390625 = fieldNorm(doc=3780)
    0.009452706 = product of:
      0.018905412 = sum of:
        0.018905412 = weight(_text_:22 in 3780) [ClassicSimilarity], result of:
          0.018905412 = score(doc=3780,freq=2.0), product of:
            0.09772735 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.027907511 = queryNorm
            0.19345059 = fieldWeight in 3780, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0390625 = fieldNorm(doc=3780)
      0.5 = coord(1/2)
  0.2 = coord(3/15)
```
Abstract

Wir leben im 21. Jahrhundert, und vieles, was vor hundert und noch vor fünfzig Jahren als Science Fiction abgetan worden wäre, ist mittlerweile Realität. Raumsonden fliegen zum Mars, machen dort Experimente und liefern Daten zur Erde zurück. Roboter werden für Routineaufgaben eingesetzt, zum Beispiel in der Industrie oder in der Medizin. Digitalisierung, künstliche Intelligenz und automatisierte Verfahren sind kaum mehr aus unserem Alltag wegzudenken. Grundlage vieler Prozesse sind lernende Algorithmen. Die fortschreitende digitale Transformation ist global und umfasst alle Lebens- und Arbeitsbereiche: Wirtschaft, Gesellschaft und Politik. Sie eröffnet neue Möglichkeiten, von denen auch Bibliotheken profitieren. Der starke Anstieg digitaler Publikationen, die einen wichtigen und prozentual immer größer werdenden Teil des Kulturerbes darstellen, sollte für Bibliotheken Anlass sein, diese Möglichkeiten aktiv aufzugreifen und einzusetzen. Die Auswertbarkeit digitaler Inhalte, beispielsweise durch Text- and Data-Mining (TDM), und die Entwicklung technischer Verfahren, mittels derer Inhalte miteinander vernetzt und semantisch in Beziehung gesetzt werden können, bieten Raum, auch bibliothekarische Erschließungsverfahren neu zu denken. Daher beschäftigt sich die Deutsche Nationalbibliothek (DNB) seit einigen Jahren mit der Frage, wie sich die Prozesse bei der Erschließung von Medienwerken verbessern und maschinell unterstützen lassen. Sie steht dabei im regelmäßigen kollegialen Austausch mit anderen Bibliotheken, die sich ebenfalls aktiv mit dieser Fragestellung befassen, sowie mit europäischen Nationalbibliotheken, die ihrerseits Interesse an dem Thema und den Erfahrungen der DNB haben. Als Nationalbibliothek mit umfangreichen Beständen an digitalen Publikationen hat die DNB auch Expertise bei der digitalen Langzeitarchivierung aufgebaut und ist im Netzwerk ihrer Partner als kompetente Gesprächspartnerin geschätzt.

Date

19. 8.2017 9:24:22
Nohr, H.: Grundlagen der automatischen Indexierung : ein Lehrbuch (2003) 0.01
```
0.010142736 = product of:
  0.05071368 = sum of:
    0.024234245 = weight(_text_:und in 1767) [ClassicSimilarity], result of:
      0.024234245 = score(doc=1767,freq=32.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.39180204 = fieldWeight in 1767, product of:
          5.656854 = tf(freq=32.0), with freq of:
            32.0 = termFreq=32.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=1767)
    0.018917272 = weight(_text_:des in 1767) [ClassicSimilarity], result of:
      0.018917272 = score(doc=1767,freq=8.0), product of:
        0.077284485 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.027907511 = queryNorm
        0.24477452 = fieldWeight in 1767, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.03125 = fieldNorm(doc=1767)
    0.007562165 = product of:
      0.01512433 = sum of:
        0.01512433 = weight(_text_:22 in 1767) [ClassicSimilarity], result of:
          0.01512433 = score(doc=1767,freq=2.0), product of:
            0.09772735 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.027907511 = queryNorm
            0.15476047 = fieldWeight in 1767, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.03125 = fieldNorm(doc=1767)
      0.5 = coord(1/2)
  0.2 = coord(3/15)
```
Date

22. 6.2009 12:46:51

Footnote

Rez. in: nfd 54(2003) H.5, S.314 (W. Ratzek): "Um entscheidungsrelevante Daten aus der ständig wachsenden Flut von mehr oder weniger relevanten Dokumenten zu extrahieren, müssen Unternehmen, öffentliche Verwaltung oder Einrichtungen der Fachinformation effektive und effiziente Filtersysteme entwickeln, einsetzen und pflegen. Das vorliegende Lehrbuch von Holger Nohr bietet erstmalig eine grundlegende Einführung in das Thema "automatische Indexierung". Denn: "Wie man Information sammelt, verwaltet und verwendet, wird darüber entscheiden, ob man zu den Gewinnern oder Verlierern gehört" (Bill Gates), heißt es einleitend. Im ersten Kapitel "Einleitung" stehen die Grundlagen im Mittelpunkt. Die Zusammenhänge zwischen Dokumenten-Management-Systeme, Information Retrieval und Indexierung für Planungs-, Entscheidungs- oder Innovationsprozesse, sowohl in Profit- als auch Non-Profit-Organisationen werden beschrieben. Am Ende des einleitenden Kapitels geht Nohr auf die Diskussion um die intellektuelle und automatische Indexierung ein und leitet damit über zum zweiten Kapitel "automatisches Indexieren. Hier geht der Autor überblickartig unter anderem ein auf - Probleme der automatischen Sprachverarbeitung und Indexierung - verschiedene Verfahren der automatischen Indexierung z.B. einfache Stichwortextraktion / Volltextinvertierung, - statistische Verfahren, Pattern-Matching-Verfahren. Die "Verfahren der automatischen Indexierung" behandelt Nohr dann vertiefend und mit vielen Beispielen versehen im umfangreichsten dritten Kapitel. Das vierte Kapitel "Keyphrase Extraction" nimmt eine Passpartout-Status ein: "Eine Zwischenstufe auf dem Weg von der automatischen Indexierung hin zur automatischen Generierung textueller Zusammenfassungen (Automatic Text Summarization) stellen Ansätze dar, die Schlüsselphrasen aus Dokumenten extrahieren (Keyphrase Extraction). Die Grenzen zwischen den automatischen Verfahren der Indexierung und denen des Text Summarization sind fließend." (S. 91). Am Beispiel NCR"s Extractor/Copernic Summarizer beschreibt Nohr die Funktionsweise.
Im fünften Kapitel "Information Extraction" geht Nohr auf eine Problemstellung ein, die in der Fachwelt eine noch stärkere Betonung verdiente: "Die stetig ansteigende Zahl elektronischer Dokumente macht neben einer automatischen Erschließung auch eine automatische Gewinnung der relevanten Informationen aus diesen Dokumenten wünschenswert, um diese z.B. für weitere Bearbeitungen oder Auswertungen in betriebliche Informationssysteme übernehmen zu können." (S. 103) "Indexierung und Retrievalverfahren" als voneinander abhängige Verfahren werden im sechsten Kapitel behandelt. Hier stehen Relevance Ranking und Relevance Feedback sowie die Anwendung informationslinguistischer Verfahren in der Recherche im Mittelpunkt. Die "Evaluation automatischer Indexierung" setzt den thematischen Schlusspunkt. Hier geht es vor allem um die Oualität einer Indexierung, um gängige Retrievalmaße in Retrievaltest und deren Einssatz. Weiterhin ist hervorzuheben, dass jedes Kapitel durch die Vorgabe von Lernzielen eingeleitet wird und zu den jeweiligen Kapiteln (im hinteren Teil des Buches) einige Kontrollfragen gestellt werden. Die sehr zahlreichen Beispiele aus der Praxis, ein Abkürzungsverzeichnis und ein Sachregister erhöhen den Nutzwert des Buches. Die Lektüre förderte beim Rezensenten das Verständnis für die Zusammenhänge von BID-Handwerkzeug, Wirtschaftsinformatik (insbesondere Data Warehousing) und Künstlicher Intelligenz. Die "Grundlagen der automatischen Indexierung" sollte auch in den bibliothekarischen Studiengängen zur Pflichtlektüre gehören. Holger Nohrs Lehrbuch ist auch für den BID-Profi geeignet, um die mehr oder weniger fundierten Kenntnisse auf dem Gebiet "automatisches Indexieren" schnell, leicht verständlich und informativ aufzufrischen."

Busch, D.: Domänenspezifische hybride automatische Indexierung von bibliographischen Metadaten (2019) 0.01

0.009916745 = product of:
  0.049583726 = sum of:
    0.018175682 = weight(_text_:und in 5628) [ClassicSimilarity], result of:
      0.018175682 = score(doc=5628,freq=8.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.29385152 = fieldWeight in 5628, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.046875 = fieldNorm(doc=5628)
    0.020064797 = weight(_text_:des in 5628) [ClassicSimilarity], result of:
      0.020064797 = score(doc=5628,freq=4.0), product of:
        0.077284485 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.027907511 = queryNorm
        0.25962257 = fieldWeight in 5628, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.046875 = fieldNorm(doc=5628)
    0.011343247 = product of:
      0.022686495 = sum of:
        0.022686495 = weight(_text_:22 in 5628) [ClassicSimilarity], result of:
          0.022686495 = score(doc=5628,freq=2.0), product of:
            0.09772735 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.027907511 = queryNorm
            0.23214069 = fieldWeight in 5628, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.046875 = fieldNorm(doc=5628)
      0.5 = coord(1/2)
  0.2 = coord(3/15)

Abstract: Im Fraunhofer-Informationszentrum Raum und Bau (IRB) wird Fachliteratur im Bereich Planen und Bauen bibliographisch erschlossen. Die daraus resultierenden Dokumente (Metadaten-Einträge) werden u.a. bei der Produktion der bibliographischen Datenbanken des IRB verwendet. In Abb. 1 ist ein Dokument dargestellt, das einen Zeitschriftenartikel beschreibt. Die Dokumente werden mit Deskriptoren von einer Nomenklatur (Schlagwortliste IRB) indexiert. Ein Deskriptor ist "eine Benennung., die für sich allein verwendbar, eindeutig zur Inhaltskennzeichnung geeignet und im betreffenden Dokumentationssystem zugelassen ist". Momentan wird die Indexierung intellektuell von menschlichen Experten durchgeführt. Die intellektuelle Indexierung ist zeitaufwendig und teuer. Eine Lösung des Problems besteht in der automatischen Indexierung, bei der die Zuordnung von Deskriptoren durch ein Computerprogramm erfolgt. Solche Computerprogramme werden im Folgenden auch als Klassifikatoren bezeichnet. In diesem Beitrag geht es um ein System zur automatischen Indexierung von deutschsprachigen Dokumenten im Bereich Bauwesen mit Deskriptoren aus der Schlagwortliste IRB.
Source: B.I.T.online. 22(2019) H.6, S.465-469

Lorenz, S.: Konzeption und prototypische Realisierung einer begriffsbasierten Texterschließung (2006) 0.01

0.009915075 = product of:
  0.049575374 = sum of:
    0.02404417 = weight(_text_:und in 1746) [ClassicSimilarity], result of:
      0.02404417 = score(doc=1746,freq=14.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.38872904 = fieldWeight in 1746, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.046875 = fieldNorm(doc=1746)
    0.014187954 = weight(_text_:des in 1746) [ClassicSimilarity], result of:
      0.014187954 = score(doc=1746,freq=2.0), product of:
        0.077284485 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.027907511 = queryNorm
        0.18358089 = fieldWeight in 1746, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.046875 = fieldNorm(doc=1746)
    0.011343247 = product of:
      0.022686495 = sum of:
        0.022686495 = weight(_text_:22 in 1746) [ClassicSimilarity], result of:
          0.022686495 = score(doc=1746,freq=2.0), product of:
            0.09772735 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.027907511 = queryNorm
            0.23214069 = fieldWeight in 1746, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.046875 = fieldNorm(doc=1746)
      0.5 = coord(1/2)
  0.2 = coord(3/15)

Abstract: Im Rahmen dieser Arbeit wird eine Vorgehensweise entwickelt, die die Fixierung auf das Wort und die damit verbundenen Schwächen überwindet. Sie gestattet die Extraktion von Informationen anhand der repräsentierten Begriffe und bildet damit die Basis einer inhaltlichen Texterschließung. Die anschließende prototypische Realisierung dient dazu, die Konzeption zu überprüfen sowie ihre Möglichkeiten und Grenzen abzuschätzen und zu bewerten. Arbeiten zum Information Extraction widmen sich fast ausschließlich dem Englischen, wobei insbesondere im Bereich der Named Entities sehr gute Ergebnisse erzielt werden. Deutlich schlechter sehen die Resultate für weniger regelmäßige Sprachen wie beispielsweise das Deutsche aus. Aus diesem Grund sowie praktischen Erwägungen wie insbesondere der Vertrautheit des Autors damit, soll diese Sprache primär Gegenstand der Untersuchungen sein. Die Lösung von einer engen Termorientierung bei gleichzeitiger Betonung der repräsentierten Begriffe legt nahe, dass nicht nur die verwendeten Worte sekundär werden sondern auch die verwendete Sprache. Um den Rahmen dieser Arbeit nicht zu sprengen wird bei der Untersuchung dieses Punktes das Augenmerk vor allem auf die mit unterschiedlichen Sprachen verbundenen Schwierigkeiten und Besonderheiten gelegt.
Content: Dissertation an der Universität Trier - Fachbereich IV - zur Erlangung der Würde eines Doktors der Wirtschafts- und Sozialwissenschaften. Vgl.: http://ubt.opus.hbz-nrw.de/volltexte/2006/377/pdf/LorenzSaschaDiss.pdf.
Date: 22. 3.2015 9:17:30

Bredack, J.: Terminologieextraktion von Mehrwortgruppen in kunsthistorischen Fachtexten (2013) 0.01
```
0.00978953 = product of:
  0.04894765 = sum of:
    0.019113896 = weight(_text_:und in 1054) [ClassicSimilarity], result of:
      0.019113896 = score(doc=1054,freq=26.0), product of:
        0.061853286 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027907511 = queryNorm
        0.3090199 = fieldWeight in 1054, product of:
          5.0990195 = tf(freq=26.0), with freq of:
            26.0 = termFreq=26.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02734375 = fieldNorm(doc=1054)
    0.021557448 = product of:
      0.043114897 = sum of:
        0.043114897 = weight(_text_:kommunikationswissenschaften in 1054) [ClassicSimilarity], result of:
          0.043114897 = score(doc=1054,freq=4.0), product of:
            0.1483304 = queryWeight, product of:
              5.315071 = idf(docFreq=590, maxDocs=44218)
              0.027907511 = queryNorm
            0.29066795 = fieldWeight in 1054, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              5.315071 = idf(docFreq=590, maxDocs=44218)
              0.02734375 = fieldNorm(doc=1054)
      0.5 = coord(1/2)
    0.008276306 = weight(_text_:des in 1054) [ClassicSimilarity], result of:
      0.008276306 = score(doc=1054,freq=2.0), product of:
        0.077284485 = queryWeight, product of:
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.027907511 = queryNorm
        0.10708885 = fieldWeight in 1054, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.7693076 = idf(docFreq=7536, maxDocs=44218)
          0.02734375 = fieldNorm(doc=1054)
  0.2 = coord(3/15)
```
Abstract

Mit Hilfe eines algorithmisch arbeitenden Verfahrens können Mehrwortgruppen aus elektronisch vorliegenden Texten identifiziert und extrahiert werden. Als Datengrundlage für diese Arbeit dienen kunsthistorische Lexikonartikel des Reallexikons zur Deutschen Kunstgeschichte. Die linguistisch, wörterbuchbasierte Open-Source-Software Lingo wurde in dieser Studie genutzt. Mit Lingo ist es möglich, auf Basis erstellter Wortmuster, bestimmte Wortfolgen aus elektronisch vorliegenden Daten algorithmisch zu identifizieren und zu extrahieren. Die erstellten Wortmuster basieren auf Wortklassen, mit denen die lexikalisierten Einträge in den Wörterbüchern getaggt sind und dadurch näher definiert werden. So wurden individuelle Wortklassen für Fachterminologie, Eigennamen, oder Adjektive vergeben. In der vorliegenden Arbeit werden zusätzlich Funktionswörter in die Musterbildung mit einbezogen. Dafür wurden neue Wortklassen definiert. Funktionswörter bestimmen Artikel, Konjunktionen und Präpositionen. Ziel war es fachterminologische Mehrwortgruppen mit kunsthistorischen Inhalten zu extrahieren unter der gezielten Einbindung von Funktionswörtern. Anhand selbst gebildeter Kriterien, wurden die extrahierten Mehrwortgruppen qualitativ analysiert. Es konnte festgestellt werden, dass die Verwendung von Funktionswörtern fachterminologische Mehrwortgruppen erzeugt, die als potentielle Indexterme weitere Verwendung im Information Retrieval finden können.
Mehrwortgruppen sind als lexikalische Einheit zu betrachten und bestehen aus mindestens zwei miteinander in Verbindung stehenden Begriffen. Durch die Ver-bindung mehrerer Fachwörter transportieren sie in Fachtexten aussagekräftige Informationen. Sie vermitteln eindeutige Informationen, da aus den resultierenden Beziehungen zwischen den in Verbindung stehenden Fachbegriffen die inhaltliche Bedeutung eines Fachtextes ersichtlich wird. Demzufolge ist es sinnvoll, Mehrwort-gruppen aus Fachtexten zu extrahieren, da diese die Inhalte eindeutig repräsentieren. So können Mehrwortgruppen für eine inhaltliche Erschließung genutzt und beispiels-weise als Indexterme im Information Retrieval bereitgestellt werden. Mehrwortgruppen enthalten Informationen eines Textes, die in natürlicher Sprache vorliegen. Zur Extraktion von Informationen eines elektronisch vorliegenden Textes kommen maschinelle Verfahren zum Einsatz, da Sprache Strukturen aufweist, die maschinell verarbeitet werden können. Eine mögliche Methode Mehrwortgruppen innerhalb von elektronisch vorliegenden Fachtexten zu identifizieren und extrahieren ist ein algorithmisches Verfahren. Diese Methode erkennt Wortfolgen durch das Bilden von Wortmustern, aus denen sich eine Mehrwortgruppe in einem Text zusammensetzt. Die Wortmuster repräsentieren somit die einzelnen Bestandteile einer Mehrwortgruppe. Bereits an mathematischen Fachtexten wurde dieses Verfahren untersucht und analysiert. Relevante Mehrwortgruppen, die ein mathematisches Konzept oder mathe-matischen Inhalt repräsentierten, konnten erfolgreich extrahiert werden. Zum Einsatz kam das Indexierungssystem Lingo, mit dessen Programmodul sequencer eine algorithmische Identifizierung und Extraktion von Mehrwortgruppen möglich ist. In der vorliegenden Arbeit wird dieses algorithmische Verfahren unter Einsatz der Software Lingo genutzt, um Mehrwortgruppen aus kunsthistorischen Fachtexten zu extrahieren. Als Datenquelle dienen kunsthistorische Lexikonartikel aus dem Reallexikon zur Deutschen Kunstgeschichte, welches in deutscher Sprache vorliegt. Es wird untersucht, ob positive Ergebnisse im Sinne von fachterminologischen Mehrwort-gruppen mit kunsthistorischen Inhalten erzeugt werden können. Dabei soll zusätzlich die Einbindung von Funktionswörtern innerhalb einer Mehrwortgruppe erfolgen. Funktionswörter definieren Artikel, Konjunktionen und Präpositionen, die für sich alleinstehend keine inhaltstragende Bedeutung besitzen, allerdings innerhalb einer Mehrwortgruppe syntaktische Funktionen erfüllen. Anhand der daraus resultierenden Ergebnisse wird analysiert, ob das Hinzufügen von Funktionswörtern innerhalb einer Mehrwortgruppe zu positiven Ergebnissen führt. Ziel soll es demnach sein, fach-terminologische Mehrwortgruppen mit kunsthistorischen Inhalten zu erzeugen, unter Einbindung von Funktionswörtern. Bei der Extraktion fachterminologischer Mehrwortgruppen wird im Folgenden insbesondere auf die Erstellung von Wortmustern eingegangen, da diese die Basis liefern, mit welchen das Programmmodul sequencer Wortfolgen innerhalb der kunst-historischen Lexikonartikel identifiziert. Eine Einordung der Indexierungsergebnisse erfolgt anhand selbst gebildeter Kriterien, die definieren, was unter einer fach-terminologischen Mehrwortgruppe zu verstehen ist.

Content

Beiliegende CD enthält die Arbeitsergebnisse und Hilfsdateien

Footnote

Bachelorarbeit, Studiengang Bibliothekswesen, Fakultät für Informations- und Kommunikationswissenschaften, Fachhochschule Köln.

Imprint

Köln : Fachhochschule, Fakultät für Informations- und Kommunikationswissenschaften

Search (199 results, page 1 of 10)

Authors

Years

Languages

Types

Themes

Subjects

Classifications