Search (25 results, page 1 of 2)

Pollmeier, M.: Verlagsschlagwörter als Grundlage für den Einsatz eines maschinellen Verfahrens zur verbalen Erschließung der Kinder- und Jugendliteratur durch die Deutsche Nationalbibliothek : eine Datenanalyse (2019) 0.04
```
0.03643602 = product of:
  0.09109005 = sum of:
    0.0327577 = weight(_text_:den in 1081) [ClassicSimilarity], result of:
      0.0327577 = score(doc=1081,freq=8.0), product of:
        0.10344325 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.036090754 = queryNorm
        0.31667316 = fieldWeight in 1081, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1081)
    0.058332358 = weight(_text_:schlagwortkatalog in 1081) [ClassicSimilarity], result of:
      0.058332358 = score(doc=1081,freq=2.0), product of:
        0.19521591 = queryWeight, product of:
          5.4090285 = idf(docFreq=537, maxDocs=44218)
          0.036090754 = queryNorm
        0.29880944 = fieldWeight in 1081, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.4090285 = idf(docFreq=537, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1081)
  0.4 = coord(2/5)
```
Abstract

Die Inhaltserschließung durch Schlagwörter wird aktuell in vielen Öffentlichen Bibliotheken Deutschlands zurückgefahren. Aufgrund von Personalmangel und den vielfältigen anderen bibliothekarischen Dienstleistungen, die für die Benutzer zu leisten sind, kommt sie oft zu kurz. Die Deutsche Nationalbibliothek unterstützte diese Bibliotheken bisher als wichtigster Datenlieferant, jedoch stellte sie 2017 die intellektuelle Inhaltserschließung der Kinder- und Jugendliteratur und der Belletristik ein. Um diese problematische Situation zu verbessern, wird aktuell in der Deutschen Nationalbibliothek ein Verfahren erprobt, das aus Schlagwörtern von Verlagen maschinell bibliothekarische Schlagwörter aus der Gemeinsamen Normdatei generiert. Auf die Titel der Kinder- und Jugendliteratur aus den Jahren 2018 und 2019 wurde es bereits angewendet. In dieser Arbeit geht es um eine erste Analyse dieser Erschließungsergebnisse, um Aussagen über die Nützlichkeit der Verlagsschlagwörter und des automatischen Verfahrens zu treffen. Im theoretischen Teil werden einerseits die Inhaltserschließung im bibliothekarischen Bereich und deren aktuelle Entwicklungen hinsichtlich der Automatisierung beschrieben. Andererseits wird näher auf die Erschließungspraxis in der Deutschen Nationalbibliothek hinsichtlich der Automatisierung und der Kinder- und Jugendliteratur eingegangen. Im Analyseteil werden sowohl die Verlagsschlagwörter als auch die bibliothekarischen Schlagwörter nach festgelegten Kriterien untersucht und schließlich miteinander verglichen.

Theme

Regeln für den Schlagwortkatalog (RSWK)
Lorenz, S.: Konzeption und prototypische Realisierung einer begriffsbasierten Texterschließung (2006) 0.01
```
0.011773688 = product of:
  0.029434219 = sum of:
    0.01965462 = weight(_text_:den in 1746) [ClassicSimilarity], result of:
      0.01965462 = score(doc=1746,freq=2.0), product of:
        0.10344325 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.036090754 = queryNorm
        0.19000389 = fieldWeight in 1746, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.046875 = fieldNorm(doc=1746)
    0.009779599 = product of:
      0.029338794 = sum of:
        0.029338794 = weight(_text_:22 in 1746) [ClassicSimilarity], result of:
          0.029338794 = score(doc=1746,freq=2.0), product of:
            0.12638368 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.036090754 = queryNorm
            0.23214069 = fieldWeight in 1746, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.046875 = fieldNorm(doc=1746)
      0.33333334 = coord(1/3)
  0.4 = coord(2/5)
```
Abstract

Im Rahmen dieser Arbeit wird eine Vorgehensweise entwickelt, die die Fixierung auf das Wort und die damit verbundenen Schwächen überwindet. Sie gestattet die Extraktion von Informationen anhand der repräsentierten Begriffe und bildet damit die Basis einer inhaltlichen Texterschließung. Die anschließende prototypische Realisierung dient dazu, die Konzeption zu überprüfen sowie ihre Möglichkeiten und Grenzen abzuschätzen und zu bewerten. Arbeiten zum Information Extraction widmen sich fast ausschließlich dem Englischen, wobei insbesondere im Bereich der Named Entities sehr gute Ergebnisse erzielt werden. Deutlich schlechter sehen die Resultate für weniger regelmäßige Sprachen wie beispielsweise das Deutsche aus. Aus diesem Grund sowie praktischen Erwägungen wie insbesondere der Vertrautheit des Autors damit, soll diese Sprache primär Gegenstand der Untersuchungen sein. Die Lösung von einer engen Termorientierung bei gleichzeitiger Betonung der repräsentierten Begriffe legt nahe, dass nicht nur die verwendeten Worte sekundär werden sondern auch die verwendete Sprache. Um den Rahmen dieser Arbeit nicht zu sprengen wird bei der Untersuchung dieses Punktes das Augenmerk vor allem auf die mit unterschiedlichen Sprachen verbundenen Schwierigkeiten und Besonderheiten gelegt.

Date

22. 3.2015 9:17:30

Lohmann, H.: Verbesserung der Literatursuche durch Dokumentanreicherung und automatische Inhaltserschließung : Das Projekt 'KASCADE' an der Universitäts- und Landesbibliothek Düsseldorf (1999) 0.01

0.007861848 = product of:
  0.03930924 = sum of:
    0.03930924 = weight(_text_:den in 1221) [ClassicSimilarity], result of:
      0.03930924 = score(doc=1221,freq=2.0), product of:
        0.10344325 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.036090754 = queryNorm
        0.38000777 = fieldWeight in 1221, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.09375 = fieldNorm(doc=1221)
  0.2 = coord(1/5)

Footnote: Hausarbeit zur Prüfung für den höheren Bibliotheksdienst

Grün, S.: Bildung von Komposita-Indextermen auf der Basis einer algorithmischen Mehrwortgruppenanalyse mit Lingo (2015) 0.01
```
0.007861848 = product of:
  0.03930924 = sum of:
    0.03930924 = weight(_text_:den in 1335) [ClassicSimilarity], result of:
      0.03930924 = score(doc=1335,freq=8.0), product of:
        0.10344325 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.036090754 = queryNorm
        0.38000777 = fieldWeight in 1335, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.046875 = fieldNorm(doc=1335)
  0.2 = coord(1/5)
```
Abstract

In der deutschen Sprache lassen sich Begriffe durch Komposita und Mehrwortgruppen ausdrücken. Letztere können dabei aber auch als Kompositum selbst ausgedrückt werden und entsprechend auf den gleichen Begriff verweisen. In der nachfolgenden Studie werden Mehrwortgruppen analysiert, die auch Komposita sein können. Ziel der Untersuchung ist es, diese Wortfolgen über Muster zu identifizieren. Analysiert wurden Daten des Karrieremanagers Placement24 GmbH - in Form von Stellenanzeigen. Die Extraktion von Mehrwortgruppen erfolgte algorithmisch und wurde mit der Open-Source Software Lingo durch geführt. Auf der Basis von Erweiterungen bzw. Anpassungen in Wörterbüchern und den darin getaggten Wörtern wurde drei- bis fünfstelligen Kandidaten analysiert. Aus positiv bewerteten Mehrwortgruppen wurden Komposita gebildet. Diese wurden mit den identifizierten Komposita aus den Stellenanzeigen verglichen. Der Vergleich zeigte, dass ein Großteil der neu generierten Komposita nicht durch eine Kompositaidentifizierung erzeugt wurde.

Maas, J.: Anforderungsanalyse für den Einsatz eines (semi)automatischen Indexierungsverfahrens in der Textdokumentation des ZDF (2002) 0.01

0.007861848 = product of:
  0.03930924 = sum of:
    0.03930924 = weight(_text_:den in 1785) [ClassicSimilarity], result of:
      0.03930924 = score(doc=1785,freq=2.0), product of:
        0.10344325 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.036090754 = queryNorm
        0.38000777 = fieldWeight in 1785, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.09375 = fieldNorm(doc=1785)
  0.2 = coord(1/5)

Siegmüller, R.: Verfahren der automatischen Indexierung in bibliotheksbezogenen Anwendungen : Funktion und Qualität (2007) 0.01
```
0.0074122213 = product of:
  0.037061106 = sum of:
    0.037061106 = weight(_text_:den in 1407) [ClassicSimilarity], result of:
      0.037061106 = score(doc=1407,freq=4.0), product of:
        0.10344325 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.036090754 = queryNorm
        0.35827476 = fieldWeight in 1407, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0625 = fieldNorm(doc=1407)
  0.2 = coord(1/5)
```
Abstract

Die Arbeit beschäftigt sich mit den Verfahren der automatischen Indexierung und ihrem Einsatz in wissenschaftlichen Bibliotheken. Der Aspekt wird nicht nur im Hinblick auf den klassischen Online-Katalog, sondern auch auf die im Rahmen des Internet und der Digitalisierung sich ergebende Ausweitung bibliothekarischer Angebote betrachtet. Durch die Entwicklung zu Portalen, zu einer intensiveren Erschließung und zur Integration von Netzpublikationen ergeben sich neue Rahmenbedingungen für das Thema. Eine Auswahl konkret eingesetzter Verfahren wird hinsichtlich ihres spezifischen Ansatzes, des aktuellen Standes und der Perspektiven im Bibliotheksbereich diskutiert.
Kaufmann, E.: ¬Das Indexieren von natürlichsprachlichen Dokumenten und die inverse Seitenhäufigkeit (2001) 0.01
```
0.007324844 = product of:
  0.03662422 = sum of:
    0.03662422 = weight(_text_:den in 318) [ClassicSimilarity], result of:
      0.03662422 = score(doc=318,freq=10.0), product of:
        0.10344325 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.036090754 = queryNorm
        0.35405132 = fieldWeight in 318, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0390625 = fieldNorm(doc=318)
  0.2 = coord(1/5)
```
Abstract

Die Lizentiatsarbeit gibt im ersten theoretischen Teil einen Überblick über das Indexieren von Dokumenten. Sie zeigt die verschiedenen Typen von Indexen sowie die wichtigsten Aspekte bezüglich einer Indexsprache auf. Diverse manuelle und automatische Indexierungsverfahren werden präsentiert. Spezielle Aufmerksamkeit innerhalb des ersten Teils gilt den Schlagwortregistern, deren charakteristische Merkmale und Eigenheiten erörtert werden. Zusätzlich werden die gängigen Kriterien zur Bewertung von Indexen sowie die Masse zur Evaluation von Indexierungsverfahren und Indexierungsergebnissen vorgestellt. Im zweiten Teil der Arbeit werden fünf reale Bücher einer statistischen Untersuchung unterzogen. Zum einen werden die lexikalischen und syntaktischen Bestandteile der fünf Buchregister ermittelt, um den Inhalt von Schlagwortregistern zu erschliessen. Andererseits werden aus den Textausschnitten der Bücher Indexterme maschinell extrahiert und mit den Schlagworteinträgen in den Buchregistern verglichen. Das Hauptziel der Untersuchungen besteht darin, eine Indexierungsmethode, die auf linguistikorientierter Extraktion der Indexterme und Termhäufigkeitsgewichtung basiert, im Hinblick auf ihren Gebrauchswert für eine automatische Indexierung zu testen. Die Gewichtungsmethode ist die inverse Seitenhäufigkeit, eine Methode, welche von der inversen Dokumentfrequenz abgeleitet wurde, zur automatischen Erstellung von Schlagwortregistern für deutschsprachige Texte. Die Prüfung der Methode im statistischen Teil führte nicht zu zufriedenstellenden Resultaten.

Lepsky, K.: Maschinelle Indexierung von Titelaufnahmen zur Verbesserung der sachlichen Erschließung in Online-Publikumskatalogen (1994) 0.01

0.00655154 = product of:
  0.0327577 = sum of:
    0.0327577 = weight(_text_:den in 7064) [ClassicSimilarity], result of:
      0.0327577 = score(doc=7064,freq=2.0), product of:
        0.10344325 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.036090754 = queryNorm
        0.31667316 = fieldWeight in 7064, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.078125 = fieldNorm(doc=7064)
  0.2 = coord(1/5)

Footnote: [Hausarbeit für den höheren Bibliotheksdienst 1993]. - Rez. in: Mitteilungsblatt VdB NW N.F. 45(1995) H.1, S.98-100 (H. Nohr); Knowledge organization 23(1996) no.1, S.50-52 (H. Schnelling)

Weiner, U.: Vor uns die Dokumentenflut oder Automatische Indexierung als notwendige und sinnvolle Ergänzung zur intellektuellen Sacherschließung (2012) 0.01
```
0.00655154 = product of:
  0.0327577 = sum of:
    0.0327577 = weight(_text_:den in 598) [ClassicSimilarity], result of:
      0.0327577 = score(doc=598,freq=8.0), product of:
        0.10344325 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.036090754 = queryNorm
        0.31667316 = fieldWeight in 598, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0390625 = fieldNorm(doc=598)
  0.2 = coord(1/5)
```
Abstract

Vor dem Hintergrund veränderter Ansprüche der Bibliotheksbenutzer an Recherchemöglichkeiten - weg vom klassischen Online-Katalog hin zum "One-Stop-Shop" mit Funktionalitäten wie thematisches Browsing, Relevanzranking und dergleichen mehr - einerseits und der notwendigen Bearbeitung von Massendaten (Stichwort Dokumentenflut) andererseits rücken Systeme zur automatischen Indexierung wieder verstärkt in den Mittelpunkt des Interesses. Da in Österreich die Beschäftigung mit diesem Thema im Bibliotheksbereich bislang nur sehr selektiv, bezogen auf wenige konkrete Projekte, erfolgte, wird zuerst ein allgemeiner theoretischer Überblick über die unterschiedlichen Verfahrensansätze der automatischen Indexierung geboten. Im nächsten Schritt werden mit der IDX-basierten Indexierungssoftware MILOS (mit den Teilprojekten MILOS I, MILOS II und KASCADE) und dem modularen System intelligentCAPTURE (mit der integrierten Indexierungssoftware AUTINDEX) die bis vor wenigen Jahren im deutschsprachigen Raum einzigen im Praxiseinsatz befindlichen automatischen Indexierungssysteme vorgestellt. Mit zunehmender Notwendigkeit, neue Wege der inhaltlichen Erschließung zu beschreiten, wurden in den vergangenen 5 - 6 Jahren zahlreiche Softwareentwicklungen auf ihre Einsatzmöglichkeit im Bibliotheksbereich hin getestet. Stellvertretend für diese in Entwicklung befindlichen Systeme zur automatischen inhaltlichen Erschließung wird das Projekt PETRUS, welches in den Jahren 2009 - 2011 an der DNB durchgeführt wurde und die Komponenten PICA Match&Merge sowie die Extraction Platform der Firma Averbis beinhaltet, vorgestellt.

Pusl, F.: Automatische Indexierung an Bibliotheken - Systeme, Projekte und Einsatzmöglichkeiten (2005) 0.01

0.005912426 = product of:
  0.029562129 = sum of:
    0.029562129 = product of:
      0.088686384 = sum of:
        0.088686384 = weight(_text_:f in 2059) [ClassicSimilarity], result of:
          0.088686384 = score(doc=2059,freq=2.0), product of:
            0.14385001 = queryWeight, product of:
              3.985786 = idf(docFreq=2232, maxDocs=44218)
              0.036090754 = queryNorm
            0.6165198 = fieldWeight in 2059, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.985786 = idf(docFreq=2232, maxDocs=44218)
              0.109375 = fieldNorm(doc=2059)
      0.33333334 = coord(1/3)
  0.2 = coord(1/5)

Scherer, B.: Automatische Indexierung und ihre Anwendung im DFG-Projekt "Gemeinsames Portal für Bibliotheken, Archive und Museen (BAM)" (2003) 0.00
```
0.0046326383 = product of:
  0.02316319 = sum of:
    0.02316319 = weight(_text_:den in 4283) [ClassicSimilarity], result of:
      0.02316319 = score(doc=4283,freq=4.0), product of:
        0.10344325 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.036090754 = queryNorm
        0.22392172 = fieldWeight in 4283, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0390625 = fieldNorm(doc=4283)
  0.2 = coord(1/5)
```
Abstract

Automatische Indexierung verzeichnet schon seit einigen Jahren aufgrund steigender Informationsflut ein wachsendes Interesse. Allerdings gibt es immer noch Vorbehalte gegenüber der intellektuellen Indexierung in Bezug auf Qualität und größerem Aufwand der Systemimplementierung bzw. -pflege. Neuere Entwicklungen aus dem Bereich des Wissensmanagements, wie beispielsweise Verfahren aus der Künstlichen Intelligenz, der Informationsextraktion, dem Text Mining bzw. der automatischen Klassifikation sollen die automatische Indexierung aufwerten und verbessern. Damit soll eine intelligentere und mehr inhaltsbasierte Erschließung geleistet werden. In dieser Masterarbeit wird außerhalb der Darstellung von Grundlagen und Verfahren der automatischen Indexierung sowie neueren Entwicklungen auch Möglichkeiten der Evaluation dargestellt. Die mögliche Anwendung der automatischen Indexierung im DFG-ProjektGemeinsames Portal für Bibliotheken, Archive und Museen (BAM)" bilden den Schwerpunkt der Arbeit. Im Portal steht die bibliothekarische Erschließung von Texten im Vordergrund. In einem umfangreichen Test werden drei deutsche, linguistische Systeme mit statistischen Verfahren kombiniert (die aber teilweise im System bereits integriert ist) und evaluiert, allerdings nur auf der Basis der ausgegebenen Indexate. Abschließend kann festgestellt werden, dass die Ergebnisse und damit die Qualität (bezogen auf die Indexate) von intellektueller und automatischer Indexierung noch signifikant unterschiedlich sind. Die Gründe liegen in noch zu lösenden semantischen Problemen bzw, in der Obereinstimmung mit Worten aus einem Thesaurus, die von einem automatischen Indexierungssystem nicht immer nachvollzogen werden kann. Eine Inhaltsanreicherung mit den Indexaten zum Vorteil beim Retrieval kann, je nach System oder auch über die Einbindung durch einen Thesaurus, erreicht werden.
Groß, T.: Automatische Indexierung von wirtschaftswissenschaftlichen Dokumenten : Implementierung und Evaluierung am Beispiel der Deutschen Zentralbibliothek für Wirtschaftswissenschaften (2010) 0.00
```
0.0046326383 = product of:
  0.02316319 = sum of:
    0.02316319 = weight(_text_:den in 2078) [ClassicSimilarity], result of:
      0.02316319 = score(doc=2078,freq=4.0), product of:
        0.10344325 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.036090754 = queryNorm
        0.22392172 = fieldWeight in 2078, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0390625 = fieldNorm(doc=2078)
  0.2 = coord(1/5)
```
Abstract

Die Bewertung der Indexierungsqualität bzw. -güte ist ein grundlegendes Problem von manuellen und automatischen Indexierungsverfahren. Letztere werden aber gerade im digitalen Zeitalter als einzige Möglichkeit angesehen, den zunehmenden Schwierigkeiten bibliothekarischer Informationsstrukturierung gerecht zu werden. Diese Arbeit befasst sich mit der Funktionsweise, Implementierung und Evaluierung der Sacherschließungssoftware MindServer Categorizer, der Firma Recommind, an der Deutschen Zentralbibliothek für Wirtschaftswissenschaften (ZBW). Grundlage der maschinellen Sacherschließung und anschließenden quantitativen und qualitativen Auswertung bilden rund 39.000 wirtschaftswissenschaftliche Dokumente aus den Datenbanken Econis und EconStor. Unter Zuhilfenahme des rund 6.000 Deskriptoren umfassenden Standard-Thesaurus Wirtschaft (STW) wird der ursprünglich rein statistische Indexierungsansatz des MindServer Categorizer zu einem begriffsorientierten Verfahren weiterentwickelt und zur Inhaltserschließung digitaler Informationsressourcen eingesetzt. Der zentrale Fokus dieser Arbeit liegt vor allem auf der Evaluierung der maschinell beschlagworteten Titel, in Anlehnung und entsprechender Anpassung der von Stock (2008) und Lancaster (2003) hierzu vorgeschlagenen Kriterien: Indexierungskonsistenz, -tiefe, -breite, -spezifität, -effektivität. Zusätzlich wird die Belegungsbilanz des STW evaluiert und es erfolgt ferner eine stichprobenartige, qualitative Bewertung der Ergebnisse seitens der zuständigen Fachreferenten und -referentinnen.
Kumpe, D.: Methoden zur automatischen Indexierung von Dokumenten (2006) 0.00
```
0.0045860778 = product of:
  0.02293039 = sum of:
    0.02293039 = weight(_text_:den in 782) [ClassicSimilarity], result of:
      0.02293039 = score(doc=782,freq=2.0), product of:
        0.10344325 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.036090754 = queryNorm
        0.2216712 = fieldWeight in 782, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0546875 = fieldNorm(doc=782)
  0.2 = coord(1/5)
```
Abstract

Diese Diplomarbeit handelt von der Indexierung von unstrukturierten und natürlichsprachigen Dokumenten. Die zunehmende Informationsflut und die Zahl an veröffentlichten wissenschaftlichen Berichten und Büchern machen eine maschinelle inhaltliche Erschließung notwendig. Um die Anforderungen hierfür besser zu verstehen, werden Probleme der natürlichsprachigen schriftlichen Kommunikation untersucht. Die manuellen Techniken der Indexierung und die Dokumentationssprachen werden vorgestellt. Die Indexierung wird thematisch in den Bereich der inhaltlichen Erschließung und des Information Retrieval eingeordnet. Weiterhin werden Vor- und Nachteile von ausgesuchten Algorithmen untersucht und Softwareprodukte im Bereich des Information Retrieval auf ihre Arbeitsweise hin evaluiert. Anhand von Beispiel-Dokumenten werden die Ergebnisse einzelner Verfahren vorgestellt. Mithilfe des Projekts European Migration Network werden Probleme und grundlegende Anforderungen an die Durchführung einer inhaltlichen Erschließung identifiziert und Lösungsmöglichkeiten vorgeschlagen.
Schneider, A.: Moderne Retrievalverfahren in klassischen bibliotheksbezogenen Anwendungen : Projekte und Perspektiven (2008) 0.00
```
0.0045390404 = product of:
  0.0226952 = sum of:
    0.0226952 = weight(_text_:den in 4031) [ClassicSimilarity], result of:
      0.0226952 = score(doc=4031,freq=6.0), product of:
        0.10344325 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.036090754 = queryNorm
        0.21939759 = fieldWeight in 4031, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.03125 = fieldNorm(doc=4031)
  0.2 = coord(1/5)
```
Abstract

Die vorliegende Arbeit beschäftigt sich mit modernen Retrievalverfahren in klassischen bibliotheksbezogenen Anwendungen. Wie die Verbindung der beiden gegensätzlich scheinenden Wortgruppen im Titel zeigt, werden in der Arbeit Aspekte aus der Informatik bzw. Informationswissenschaft mit Aspekten aus der Bibliothekstradition verknüpft. Nach einer kurzen Schilderung der Ausgangslage, der so genannten Informationsflut, im ersten Kapitel stellt das zweite Kapitel eine Einführung in die Theorie des Information Retrieval dar. Im Einzelnen geht es um die Grundlagen von Information Retrieval und Information-Retrieval-Systemen sowie um die verschiedenen Möglichkeiten der Informationserschließung. Hier werden Formal- und Sacherschließung, Indexierung und automatische Indexierung behandelt. Des Weiteren werden im Rahmen der Theorie des Information Retrieval unterschiedliche Information-Retrieval-Modelle und die Evaluation durch Retrievaltests vorgestellt. Nach der Theorie folgt im dritten Kapitel die Praxis des Information Retrieval. Es werden die organisationsinterne Anwendung, die Anwendung im Informations- und Dokumentationsbereich sowie die Anwendung im Bibliotheksbereich unterschieden. Die organisationsinterne Anwendung wird durch das Beispiel der Datenbank KURS zur Aus- und Weiterbildung veranschaulicht. Die Anwendung im Bibliotheksbereich bezieht sich in erster Linie auf den OPAC als Kompromiss zwischen bibliothekarischer Indexierung und Endnutzeranforderungen und auf seine Anreicherung (sog. Catalogue Enrichment), um das Retrieval zu verbessern. Der Bibliotheksbereich wird ausführlicher behandelt, indem ein Rückblick auf abgeschlossene Projekte zu Informations- und Indexierungssystemen aus den Neunziger Jahren (OSIRIS, MILOS I und II, KASCADE) sowie ein Einblick in aktuelle Projekte gegeben werden. In den beiden folgenden Kapiteln wird je ein aktuelles Projekt zur Verbesserung des Retrievals durch Kataloganreicherung, automatische Erschließung und fortschrittliche Retrievalverfahren präsentiert: das Suchportal dandelon.com und das 180T-Projekt des Hochschulbibliothekszentrums des Landes Nordrhein-Westfalen. Hierbei werden jeweils Projektziel, Projektpartner, Projektorganisation, Projektverlauf und die verwendete Technologie vorgestellt. Die Projekte unterscheiden sich insofern, dass in dem einen Fall eine große Verbundzentrale die Projektkoordination übernimmt, im anderen Fall jede einzelne teilnehmende Bibliothek selbst für die Durchführung verantwortlich ist. Im sechsten und letzten Kapitel geht es um das Fazit und die Perspektiven. Es werden sowohl die beiden beschriebenen Projekte bewertet als auch ein Ausblick auf Entwicklungen bezüglich des Bibliothekskatalogs gegeben. Diese Veröffentlichung geht zurück auf eine Master-Arbeit im postgradualen Fernstudiengang Master of Arts (Library and Information Science) an der Humboldt-Universität zu Berlin.
Bredack, J.: Terminologieextraktion von Mehrwortgruppen in kunsthistorischen Fachtexten (2013) 0.00
```
0.00397166 = product of:
  0.0198583 = sum of:
    0.0198583 = weight(_text_:den in 1054) [ClassicSimilarity], result of:
      0.0198583 = score(doc=1054,freq=6.0), product of:
        0.10344325 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.036090754 = queryNorm
        0.1919729 = fieldWeight in 1054, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.02734375 = fieldNorm(doc=1054)
  0.2 = coord(1/5)
```
Abstract

Mit Hilfe eines algorithmisch arbeitenden Verfahrens können Mehrwortgruppen aus elektronisch vorliegenden Texten identifiziert und extrahiert werden. Als Datengrundlage für diese Arbeit dienen kunsthistorische Lexikonartikel des Reallexikons zur Deutschen Kunstgeschichte. Die linguistisch, wörterbuchbasierte Open-Source-Software Lingo wurde in dieser Studie genutzt. Mit Lingo ist es möglich, auf Basis erstellter Wortmuster, bestimmte Wortfolgen aus elektronisch vorliegenden Daten algorithmisch zu identifizieren und zu extrahieren. Die erstellten Wortmuster basieren auf Wortklassen, mit denen die lexikalisierten Einträge in den Wörterbüchern getaggt sind und dadurch näher definiert werden. So wurden individuelle Wortklassen für Fachterminologie, Eigennamen, oder Adjektive vergeben. In der vorliegenden Arbeit werden zusätzlich Funktionswörter in die Musterbildung mit einbezogen. Dafür wurden neue Wortklassen definiert. Funktionswörter bestimmen Artikel, Konjunktionen und Präpositionen. Ziel war es fachterminologische Mehrwortgruppen mit kunsthistorischen Inhalten zu extrahieren unter der gezielten Einbindung von Funktionswörtern. Anhand selbst gebildeter Kriterien, wurden die extrahierten Mehrwortgruppen qualitativ analysiert. Es konnte festgestellt werden, dass die Verwendung von Funktionswörtern fachterminologische Mehrwortgruppen erzeugt, die als potentielle Indexterme weitere Verwendung im Information Retrieval finden können.
Mehrwortgruppen sind als lexikalische Einheit zu betrachten und bestehen aus mindestens zwei miteinander in Verbindung stehenden Begriffen. Durch die Ver-bindung mehrerer Fachwörter transportieren sie in Fachtexten aussagekräftige Informationen. Sie vermitteln eindeutige Informationen, da aus den resultierenden Beziehungen zwischen den in Verbindung stehenden Fachbegriffen die inhaltliche Bedeutung eines Fachtextes ersichtlich wird. Demzufolge ist es sinnvoll, Mehrwort-gruppen aus Fachtexten zu extrahieren, da diese die Inhalte eindeutig repräsentieren. So können Mehrwortgruppen für eine inhaltliche Erschließung genutzt und beispiels-weise als Indexterme im Information Retrieval bereitgestellt werden. Mehrwortgruppen enthalten Informationen eines Textes, die in natürlicher Sprache vorliegen. Zur Extraktion von Informationen eines elektronisch vorliegenden Textes kommen maschinelle Verfahren zum Einsatz, da Sprache Strukturen aufweist, die maschinell verarbeitet werden können. Eine mögliche Methode Mehrwortgruppen innerhalb von elektronisch vorliegenden Fachtexten zu identifizieren und extrahieren ist ein algorithmisches Verfahren. Diese Methode erkennt Wortfolgen durch das Bilden von Wortmustern, aus denen sich eine Mehrwortgruppe in einem Text zusammensetzt. Die Wortmuster repräsentieren somit die einzelnen Bestandteile einer Mehrwortgruppe. Bereits an mathematischen Fachtexten wurde dieses Verfahren untersucht und analysiert. Relevante Mehrwortgruppen, die ein mathematisches Konzept oder mathe-matischen Inhalt repräsentierten, konnten erfolgreich extrahiert werden. Zum Einsatz kam das Indexierungssystem Lingo, mit dessen Programmodul sequencer eine algorithmische Identifizierung und Extraktion von Mehrwortgruppen möglich ist. In der vorliegenden Arbeit wird dieses algorithmische Verfahren unter Einsatz der Software Lingo genutzt, um Mehrwortgruppen aus kunsthistorischen Fachtexten zu extrahieren. Als Datenquelle dienen kunsthistorische Lexikonartikel aus dem Reallexikon zur Deutschen Kunstgeschichte, welches in deutscher Sprache vorliegt. Es wird untersucht, ob positive Ergebnisse im Sinne von fachterminologischen Mehrwort-gruppen mit kunsthistorischen Inhalten erzeugt werden können. Dabei soll zusätzlich die Einbindung von Funktionswörtern innerhalb einer Mehrwortgruppe erfolgen. Funktionswörter definieren Artikel, Konjunktionen und Präpositionen, die für sich alleinstehend keine inhaltstragende Bedeutung besitzen, allerdings innerhalb einer Mehrwortgruppe syntaktische Funktionen erfüllen. Anhand der daraus resultierenden Ergebnisse wird analysiert, ob das Hinzufügen von Funktionswörtern innerhalb einer Mehrwortgruppe zu positiven Ergebnissen führt. Ziel soll es demnach sein, fach-terminologische Mehrwortgruppen mit kunsthistorischen Inhalten zu erzeugen, unter Einbindung von Funktionswörtern. Bei der Extraktion fachterminologischer Mehrwortgruppen wird im Folgenden insbesondere auf die Erstellung von Wortmustern eingegangen, da diese die Basis liefern, mit welchen das Programmmodul sequencer Wortfolgen innerhalb der kunst-historischen Lexikonartikel identifiziert. Eine Einordung der Indexierungsergebnisse erfolgt anhand selbst gebildeter Kriterien, die definieren, was unter einer fach-terminologischen Mehrwortgruppe zu verstehen ist.

Nicoletti, M.: Automatische Indexierung (2001) 0.00

0.0039473483 = product of:
  0.01973674 = sum of:
    0.01973674 = product of:
      0.059210222 = sum of:
        0.059210222 = weight(_text_:29 in 4326) [ClassicSimilarity], result of:
          0.059210222 = score(doc=4326,freq=2.0), product of:
            0.12695599 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.036090754 = queryNorm
            0.46638384 = fieldWeight in 4326, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.09375 = fieldNorm(doc=4326)
      0.33333334 = coord(1/3)
  0.2 = coord(1/5)

Date: 29. 9.2017 12:00:04

Bachfeld, S.: Möglichkeiten und Grenzen linguistischer Verfahren der automatischen Indexierung : Entwurf einer Simulation für den Einsatz im Grundstudium (2003) 0.00
```
0.0037061106 = product of:
  0.018530553 = sum of:
    0.018530553 = weight(_text_:den in 2827) [ClassicSimilarity], result of:
      0.018530553 = score(doc=2827,freq=4.0), product of:
        0.10344325 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.036090754 = queryNorm
        0.17913738 = fieldWeight in 2827, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.03125 = fieldNorm(doc=2827)
  0.2 = coord(1/5)
```
Abstract

Die Arbeit entwirft ein Konzept für eine Simulation, die als Teil eines ELearning-Moduls die Probleme der automatischen Freitextindexierung und linguistische Verfahren zur Verbesserung der Indexierungsergebnisse veranschaulichen soll. Zielgruppe der Simulation sind die im Studierenden des Fachbereichs Bibliothek und Information der HAW Hamburg, die sich im Grundstudium befinden. Es wird ein inhaltliches Konzept dafür entwickelt, wie die Simulation Vor- und Nachteile regelbasierter und wörterbuchbasierte Indexierungsverfahren für das Grundstudium darstellen kann. Ziel ist zu zeigen, dass regelbasierte Verfahren in einer stark flektierenden und kompositareichen Sprache wie dem Deutschen zu zahlreichen Indexierungsfehlern führen können und dass wörterbuchbasierte Verfahren bessere Indexate liefern. Im zweiten Teil der Arbeit wird eine Informationsarchitektur für die Simulation entworfen und ein Prototyp programmiert, der eine Freitextindexierung und darauf aufbauend ein regelbasiertes Reduktionsverfahren darstellt. Ziel dabei ist insbesondere zu zeigen, dass regelbasierte Indexierungsverfahren für das Deutsche keine befriedigenden Ergebnisse erzielen, und dass wörterbuchbasierte Verfahren im Deutschen zu bevorzugen sind. Vor diesem Hintergrund wird im zweiten Teil der Arbeit ein Prototyp für die Simulation konzipiert, die elektronische Volltexte zunächst nach der Freitextmethode und danach mit linguistischen Verfahren indexiert. Es wird eine Informationsarchitektur entwickelt, die nicht nur anstrebt, der Zielgruppe gerecht zu werden, sondern auch die Vor- und Nachteile der linguistischen Indexierungsverfahren möglichst deutlich zu zeigen. Für die Freitextindexierung als einfachste Form der automatischen Indexierung und für das regelbasierte Verfahren wird auch schon der Programmcode geschrieben. Für die regelbasierte Wortformenreduktion greift die Autorin auf ein schon bestehendes Programm zurück, das Cornelie Ahlfeld 1995 im Rahmen ihrer Diplomarbeit entwickelt hat. Die Autorin versucht, dieses Programm durch eine Präsentation der Indexierungsergebnisse zu ergänzen, die es für den Einsatz in der Lehre nützlich machen.
Halip, I.: Automatische Extrahierung von Schlagworten aus unstrukturierten Texten (2005) 0.00
```
0.0037061106 = product of:
  0.018530553 = sum of:
    0.018530553 = weight(_text_:den in 861) [ClassicSimilarity], result of:
      0.018530553 = score(doc=861,freq=4.0), product of:
        0.10344325 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.036090754 = queryNorm
        0.17913738 = fieldWeight in 861, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.03125 = fieldNorm(doc=861)
  0.2 = coord(1/5)
```
Abstract

Durch die zunehmende Mediatisierung und Digitalisierung wird die moderne Gesellschaft immer mehr mit dem Thema der Informationsüberflutung konfrontiert. Erstaunlicherweise führt der Zuwachs an Informationen gleichzeitig zu einem Mangel an Wissen. Die Erklärung kann darin gefunden werden, dass ein großer Teil der existierenden Informationen nicht aufgefunden werden kann. Es handelt sich meistens um Informationen die auf semi- und nichtstrukturierte Daten beruhen. Schätzungen zufolge sind heute rund 80% der entscheidungsrelevanten Informationen in Unternehmen in unstrukturierter, d. h. meist textueller Form vorhanden. Die Unfähigkeit der Maschinen den Inhalt unstrukturierter Texte zu verstehen führt dazu, dass dokumentiertes Wissen schwer auffindbar ist und oft unentdeckt bleibt. Wegen des Informationsvolumens, das meistens zu groß ist, um gelesen, verstanden oder sogar benutzt zu werden, ergibt sich folgendes Problem, mit dem man konfrontiert wird: Informationen die nicht in Wissen umgewandelt werden können, bleiben als papiergebundene oder digitale Dokumente in Data-Repositories verschlossen. Angesichts der heute anfallenden Menge an Dokumenten erscheint eine manuelle Vergabe von Schlagworten nicht mehr realistisch. Deshalb entwickelt Wissensmanagement unterstützende Verfahren, die Informationen rechtzeitig, in der richtigen Qualität und den richtigen Personen verfügbar machen. Einige Schwerpunkte an denen zur Zeit geforscht wird, sind Modelle zur Repräsentation von Dokumenten, Methoden zur Ähnlichkeitsbestimmung von Anfragen zu Dokumenten und zur Indexierung von Dokumentenmengen, sowie die automatische Klassifikation. Vor diesem Hintergrund konzentriert sich diese Arbeit auf die unterschiedlichen Verfahren der automatischen Indexierung, hebt die algorithmischen Vor- und Nachteile hervor, mit dem Ziel die Funktionsweise im Bereich der unstrukturierten Texte zu analysieren. Hierfür erfolgt im 3. Kapitel eine genauere Untersuchung und Darstellung automatischer Indexierungsverfahren. Zuvor werden in Kapitel 2 grundlegende Begrifflichkeiten erklärt, eingeordnet und abgegrenzt. Abschließend werden anhand der theoretischen Darlegung Implementierungen der vorgestellten Verfahren kurz beschrieben. Die Ausarbeitung endet mit der Schlussfolgerung und dem Ausblick.
Carevic, Z.: Semi-automatische Verschlagwortung zur Integration externer semantischer Inhalte innerhalb einer medizinischen Kooperationsplattform (2012) 0.00
```
0.0037061106 = product of:
  0.018530553 = sum of:
    0.018530553 = weight(_text_:den in 897) [ClassicSimilarity], result of:
      0.018530553 = score(doc=897,freq=4.0), product of:
        0.10344325 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.036090754 = queryNorm
        0.17913738 = fieldWeight in 897, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.03125 = fieldNorm(doc=897)
  0.2 = coord(1/5)
```
Abstract

Integration externer Inhalte Inwieweit kann die Nutzung einer einheitlichen Terminologie zwischen Anfragesystem und Wissensbasis den Prozess der Informationsbeschaffung unterstützen? Zu diesem Zweck wird in einer ersten Phase ermittelt welche Wissensbasen aus der medizinischen Domäne in der Linked Data Cloud zur Verfügung stehen. Aufbauend auf den Ergebnissen werden Informationen aus verschiedenen dezentralen Wissensbasen exemplarisch integriert. Der Fokus der Betrachtung liegt dabei auf der verwendeten Terminologie sowie der Nutzung von Semantic Web Technologien. Neben Informationen aus der Linked Data Cloud erfolgt eine Suche nach medizinischer Literatur in PubMed. Wie auch in der Linked Data Cloud erfolgt die Integration unter Verwendung einer einheitlichen Terminologie. Eine weitere Fragestellung ist, wie Informationen aus insgesamt 21. Mio Aufsatzzitaten in PubMed sinnvoll integriert werden können. Dabei wird ermittelt welche Mechanismen eingesetzt werden können um die Präzision der Ergebnisse zu optimieren. Eignung medizinischer Begriffssystem Welche medizinischen Begriffssysteme existieren und wie eignen sich diese als zugrungeliegendes Vokabular für die automatische Verschlagwortung und Integration semantischer Inhalte? Der Fokus liegt dabei speziell auf einer Bewertung der Reichhaltigkeit von Begriffssystemen, wobei insbesondere der Detaillierungsgrad von Interesse ist. Handelt es sich um ein spezifisches oder allgemeines Begriffssystem und eignet sich dieses auch dafür bestimmte Teilaspekte der Medizin, wie bspw. die Chirurige oder die Anästhesie, in einer ausreichenden Tiefe zu beschreiben?
Krüger, C.: Evaluation des WWW-Suchdienstes GERHARD unter besonderer Beachtung automatischer Indexierung (1999) 0.00
```
0.00327577 = product of:
  0.01637885 = sum of:
    0.01637885 = weight(_text_:den in 1777) [ClassicSimilarity], result of:
      0.01637885 = score(doc=1777,freq=2.0), product of:
        0.10344325 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.036090754 = queryNorm
        0.15833658 = fieldWeight in 1777, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1777)
  0.2 = coord(1/5)
```
Abstract

Die vorliegende Arbeit beinhaltet eine Beschreibung und Evaluation des WWW - Suchdienstes GERHARD (German Harvest Automated Retrieval and Directory). GERHARD ist ein Such- und Navigationssystem für das deutsche World Wide Web, weiches ausschließlich wissenschaftlich relevante Dokumente sammelt, und diese auf der Basis computerlinguistischer und statistischer Methoden automatisch mit Hilfe eines bibliothekarischen Klassifikationssystems klassifiziert. Mit dem DFG - Projekt GERHARD ist der Versuch unternommen worden, mit einem auf einem automatischen Klassifizierungsverfahren basierenden World Wide Web - Dienst eine Alternative zu herkömmlichen Methoden der Interneterschließung zu entwickeln. GERHARD ist im deutschsprachigen Raum das einzige Verzeichnis von Internetressourcen, dessen Erstellung und Aktualisierung vollständig automatisch (also maschinell) erfolgt. GERHARD beschränkt sich dabei auf den Nachweis von Dokumenten auf wissenschaftlichen WWW - Servern. Die Grundidee dabei war, kostenintensive intellektuelle Erschließung und Klassifizierung von lnternetseiten durch computerlinguistische und statistische Methoden zu ersetzen, um auf diese Weise die nachgewiesenen Internetressourcen automatisch auf das Vokabular eines bibliothekarischen Klassifikationssystems abzubilden. GERHARD steht für German Harvest Automated Retrieval and Directory. Die WWW - Adresse (URL) von GERHARD lautet: http://www.gerhard.de. Im Rahmen der vorliegenden Diplomarbeit soll eine Beschreibung des Dienstes mit besonderem Schwerpunkt auf dem zugrundeliegenden Indexierungs- bzw. Klassifizierungssystem erfolgen und anschließend mit Hilfe eines kleinen Retrievaltests die Effektivität von GERHARD überprüft werden.

Search (25 results, page 1 of 2)

Authors

Years

Languages

Types

Themes