Search (11 results, page 1 of 1)

Krüger, C.: Evaluation des WWW-Suchdienstes GERHARD unter besonderer Beachtung automatischer Indexierung (1999) 0.07
```
0.06530557 = product of:
  0.13061114 = sum of:
    0.065025695 = weight(_text_:wide in 1777) [ClassicSimilarity], result of:
      0.065025695 = score(doc=1777,freq=4.0), product of:
        0.18785246 = queryWeight, product of:
          4.4307585 = idf(docFreq=1430, maxDocs=44218)
          0.042397358 = queryNorm
        0.34615302 = fieldWeight in 1777, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          4.4307585 = idf(docFreq=1430, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1777)
    0.035277586 = weight(_text_:web in 1777) [ClassicSimilarity], result of:
      0.035277586 = score(doc=1777,freq=4.0), product of:
        0.13836423 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.042397358 = queryNorm
        0.25496176 = fieldWeight in 1777, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1777)
    0.030307854 = weight(_text_:retrieval in 1777) [ClassicSimilarity], result of:
      0.030307854 = score(doc=1777,freq=4.0), product of:
        0.12824841 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.042397358 = queryNorm
        0.23632148 = fieldWeight in 1777, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1777)
  0.5 = coord(3/6)
```
Abstract

Die vorliegende Arbeit beinhaltet eine Beschreibung und Evaluation des WWW - Suchdienstes GERHARD (German Harvest Automated Retrieval and Directory). GERHARD ist ein Such- und Navigationssystem für das deutsche World Wide Web, weiches ausschließlich wissenschaftlich relevante Dokumente sammelt, und diese auf der Basis computerlinguistischer und statistischer Methoden automatisch mit Hilfe eines bibliothekarischen Klassifikationssystems klassifiziert. Mit dem DFG - Projekt GERHARD ist der Versuch unternommen worden, mit einem auf einem automatischen Klassifizierungsverfahren basierenden World Wide Web - Dienst eine Alternative zu herkömmlichen Methoden der Interneterschließung zu entwickeln. GERHARD ist im deutschsprachigen Raum das einzige Verzeichnis von Internetressourcen, dessen Erstellung und Aktualisierung vollständig automatisch (also maschinell) erfolgt. GERHARD beschränkt sich dabei auf den Nachweis von Dokumenten auf wissenschaftlichen WWW - Servern. Die Grundidee dabei war, kostenintensive intellektuelle Erschließung und Klassifizierung von lnternetseiten durch computerlinguistische und statistische Methoden zu ersetzen, um auf diese Weise die nachgewiesenen Internetressourcen automatisch auf das Vokabular eines bibliothekarischen Klassifikationssystems abzubilden. GERHARD steht für German Harvest Automated Retrieval and Directory. Die WWW - Adresse (URL) von GERHARD lautet: http://www.gerhard.de. Im Rahmen der vorliegenden Diplomarbeit soll eine Beschreibung des Dienstes mit besonderem Schwerpunkt auf dem zugrundeliegenden Indexierungs- bzw. Klassifizierungssystem erfolgen und anschließend mit Hilfe eines kleinen Retrievaltests die Effektivität von GERHARD überprüft werden.
Scherer, B.: Automatische Indexierung und ihre Anwendung im DFG-Projekt "Gemeinsames Portal für Bibliotheken, Archive und Museen (BAM)" (2003) 0.01
```
0.0107943965 = product of:
  0.03238319 = sum of:
    0.02143089 = weight(_text_:retrieval in 4283) [ClassicSimilarity], result of:
      0.02143089 = score(doc=4283,freq=2.0), product of:
        0.12824841 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.042397358 = queryNorm
        0.16710453 = fieldWeight in 4283, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0390625 = fieldNorm(doc=4283)
    0.010952301 = product of:
      0.032856904 = sum of:
        0.032856904 = weight(_text_:system in 4283) [ClassicSimilarity], result of:
          0.032856904 = score(doc=4283,freq=4.0), product of:
            0.13353272 = queryWeight, product of:
              3.1495528 = idf(docFreq=5152, maxDocs=44218)
              0.042397358 = queryNorm
            0.24605882 = fieldWeight in 4283, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.1495528 = idf(docFreq=5152, maxDocs=44218)
              0.0390625 = fieldNorm(doc=4283)
      0.33333334 = coord(1/3)
  0.33333334 = coord(2/6)
```
Abstract

Automatische Indexierung verzeichnet schon seit einigen Jahren aufgrund steigender Informationsflut ein wachsendes Interesse. Allerdings gibt es immer noch Vorbehalte gegenüber der intellektuellen Indexierung in Bezug auf Qualität und größerem Aufwand der Systemimplementierung bzw. -pflege. Neuere Entwicklungen aus dem Bereich des Wissensmanagements, wie beispielsweise Verfahren aus der Künstlichen Intelligenz, der Informationsextraktion, dem Text Mining bzw. der automatischen Klassifikation sollen die automatische Indexierung aufwerten und verbessern. Damit soll eine intelligentere und mehr inhaltsbasierte Erschließung geleistet werden. In dieser Masterarbeit wird außerhalb der Darstellung von Grundlagen und Verfahren der automatischen Indexierung sowie neueren Entwicklungen auch Möglichkeiten der Evaluation dargestellt. Die mögliche Anwendung der automatischen Indexierung im DFG-ProjektGemeinsames Portal für Bibliotheken, Archive und Museen (BAM)" bilden den Schwerpunkt der Arbeit. Im Portal steht die bibliothekarische Erschließung von Texten im Vordergrund. In einem umfangreichen Test werden drei deutsche, linguistische Systeme mit statistischen Verfahren kombiniert (die aber teilweise im System bereits integriert ist) und evaluiert, allerdings nur auf der Basis der ausgegebenen Indexate. Abschließend kann festgestellt werden, dass die Ergebnisse und damit die Qualität (bezogen auf die Indexate) von intellektueller und automatischer Indexierung noch signifikant unterschiedlich sind. Die Gründe liegen in noch zu lösenden semantischen Problemen bzw, in der Obereinstimmung mit Worten aus einem Thesaurus, die von einem automatischen Indexierungssystem nicht immer nachvollzogen werden kann. Eine Inhaltsanreicherung mit den Indexaten zum Vorteil beim Retrieval kann, je nach System oder auch über die Einbindung durch einen Thesaurus, erreicht werden.
Schneider, A.: Moderne Retrievalverfahren in klassischen bibliotheksbezogenen Anwendungen : Projekte und Perspektiven (2008) 0.01
```
0.0075601074 = product of:
  0.045360643 = sum of:
    0.045360643 = weight(_text_:retrieval in 4031) [ClassicSimilarity], result of:
      0.045360643 = score(doc=4031,freq=14.0), product of:
        0.12824841 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.042397358 = queryNorm
        0.3536936 = fieldWeight in 4031, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.03125 = fieldNorm(doc=4031)
  0.16666667 = coord(1/6)
```
Abstract

Die vorliegende Arbeit beschäftigt sich mit modernen Retrievalverfahren in klassischen bibliotheksbezogenen Anwendungen. Wie die Verbindung der beiden gegensätzlich scheinenden Wortgruppen im Titel zeigt, werden in der Arbeit Aspekte aus der Informatik bzw. Informationswissenschaft mit Aspekten aus der Bibliothekstradition verknüpft. Nach einer kurzen Schilderung der Ausgangslage, der so genannten Informationsflut, im ersten Kapitel stellt das zweite Kapitel eine Einführung in die Theorie des Information Retrieval dar. Im Einzelnen geht es um die Grundlagen von Information Retrieval und Information-Retrieval-Systemen sowie um die verschiedenen Möglichkeiten der Informationserschließung. Hier werden Formal- und Sacherschließung, Indexierung und automatische Indexierung behandelt. Des Weiteren werden im Rahmen der Theorie des Information Retrieval unterschiedliche Information-Retrieval-Modelle und die Evaluation durch Retrievaltests vorgestellt. Nach der Theorie folgt im dritten Kapitel die Praxis des Information Retrieval. Es werden die organisationsinterne Anwendung, die Anwendung im Informations- und Dokumentationsbereich sowie die Anwendung im Bibliotheksbereich unterschieden. Die organisationsinterne Anwendung wird durch das Beispiel der Datenbank KURS zur Aus- und Weiterbildung veranschaulicht. Die Anwendung im Bibliotheksbereich bezieht sich in erster Linie auf den OPAC als Kompromiss zwischen bibliothekarischer Indexierung und Endnutzeranforderungen und auf seine Anreicherung (sog. Catalogue Enrichment), um das Retrieval zu verbessern. Der Bibliotheksbereich wird ausführlicher behandelt, indem ein Rückblick auf abgeschlossene Projekte zu Informations- und Indexierungssystemen aus den Neunziger Jahren (OSIRIS, MILOS I und II, KASCADE) sowie ein Einblick in aktuelle Projekte gegeben werden. In den beiden folgenden Kapiteln wird je ein aktuelles Projekt zur Verbesserung des Retrievals durch Kataloganreicherung, automatische Erschließung und fortschrittliche Retrievalverfahren präsentiert: das Suchportal dandelon.com und das 180T-Projekt des Hochschulbibliothekszentrums des Landes Nordrhein-Westfalen. Hierbei werden jeweils Projektziel, Projektpartner, Projektorganisation, Projektverlauf und die verwendete Technologie vorgestellt. Die Projekte unterscheiden sich insofern, dass in dem einen Fall eine große Verbundzentrale die Projektkoordination übernimmt, im anderen Fall jede einzelne teilnehmende Bibliothek selbst für die Durchführung verantwortlich ist. Im sechsten und letzten Kapitel geht es um das Fazit und die Perspektiven. Es werden sowohl die beiden beschriebenen Projekte bewertet als auch ein Ausblick auf Entwicklungen bezüglich des Bibliothekskatalogs gegeben. Diese Veröffentlichung geht zurück auf eine Master-Arbeit im postgradualen Fernstudiengang Master of Arts (Library and Information Science) an der Humboldt-Universität zu Berlin.
Kumpe, D.: Methoden zur automatischen Indexierung von Dokumenten (2006) 0.01
```
0.007071832 = product of:
  0.042430993 = sum of:
    0.042430993 = weight(_text_:retrieval in 782) [ClassicSimilarity], result of:
      0.042430993 = score(doc=782,freq=4.0), product of:
        0.12824841 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.042397358 = queryNorm
        0.33085006 = fieldWeight in 782, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0546875 = fieldNorm(doc=782)
  0.16666667 = coord(1/6)
```
Abstract

Diese Diplomarbeit handelt von der Indexierung von unstrukturierten und natürlichsprachigen Dokumenten. Die zunehmende Informationsflut und die Zahl an veröffentlichten wissenschaftlichen Berichten und Büchern machen eine maschinelle inhaltliche Erschließung notwendig. Um die Anforderungen hierfür besser zu verstehen, werden Probleme der natürlichsprachigen schriftlichen Kommunikation untersucht. Die manuellen Techniken der Indexierung und die Dokumentationssprachen werden vorgestellt. Die Indexierung wird thematisch in den Bereich der inhaltlichen Erschließung und des Information Retrieval eingeordnet. Weiterhin werden Vor- und Nachteile von ausgesuchten Algorithmen untersucht und Softwareprodukte im Bereich des Information Retrieval auf ihre Arbeitsweise hin evaluiert. Anhand von Beispiel-Dokumenten werden die Ergebnisse einzelner Verfahren vorgestellt. Mithilfe des Projekts European Migration Network werden Probleme und grundlegende Anforderungen an die Durchführung einer inhaltlichen Erschließung identifiziert und Lösungsmöglichkeiten vorgeschlagen.
Grün, S.: Mehrwortbegriffe und Latent Semantic Analysis : Bewertung automatisch extrahierter Mehrwortgruppen mit LSA (2017) 0.01
```
0.0061865654 = product of:
  0.037119392 = sum of:
    0.037119392 = weight(_text_:retrieval in 3954) [ClassicSimilarity], result of:
      0.037119392 = score(doc=3954,freq=6.0), product of:
        0.12824841 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.042397358 = queryNorm
        0.28943354 = fieldWeight in 3954, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0390625 = fieldNorm(doc=3954)
  0.16666667 = coord(1/6)
```
Abstract

Die vorliegende Studie untersucht das Potenzial von Mehrwortbegriffen für das Information Retrieval. Zielsetzung der Arbeit ist es, intellektuell positiv bewertete Kandidaten mithilfe des Latent Semantic Analysis (LSA) Verfahren höher zu gewichten, als negativ bewertete Kandidaten. Die positiven Kandidaten sollen demnach bei einem Ranking im Information Retrieval bevorzugt werden. Als Kollektion wurde eine Version der sozialwissenschaftlichen GIRT-Datenbank (German Indexing and Retrieval Testdatabase) eingesetzt. Um Kandidaten für Mehrwortbegriffe zu identifizieren wurde die automatische Indexierung Lingo verwendet. Die notwendigen Kernfunktionalitäten waren Lemmatisierung, Identifizierung von Komposita, algorithmische Mehrworterkennung sowie Gewichtung von Indextermen durch das LSA-Modell. Die durch Lingo erkannten und LSAgewichteten Mehrwortkandidaten wurden evaluiert. Zuerst wurde dazu eine intellektuelle Auswahl von positiven und negativen Mehrwortkandidaten vorgenommen. Im zweiten Schritt der Evaluierung erfolgte die Berechnung der Ausbeute, um den Anteil der positiven Mehrwortkandidaten zu erhalten. Im letzten Schritt der Evaluierung wurde auf der Basis der R-Precision berechnet, wie viele positiv bewerteten Mehrwortkandidaten es an der Stelle k des Rankings geschafft haben. Die Ausbeute der positiven Mehrwortkandidaten lag bei durchschnittlich ca. 39%, während die R-Precision einen Durchschnittswert von 54% erzielte. Das LSA-Modell erzielt ein ambivalentes Ergebnis mit positiver Tendenz.

Nicoletti, M.: Automatische Indexierung (2001) 0.00

0.003864266 = product of:
  0.023185596 = sum of:
    0.023185596 = product of:
      0.06955679 = sum of:
        0.06955679 = weight(_text_:29 in 4326) [ClassicSimilarity], result of:
          0.06955679 = score(doc=4326,freq=2.0), product of:
            0.14914064 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.042397358 = queryNorm
            0.46638384 = fieldWeight in 4326, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.09375 = fieldNorm(doc=4326)
      0.33333334 = coord(1/3)
  0.16666667 = coord(1/6)

Date: 29. 9.2017 12:00:04

Carevic, Z.: Semi-automatische Verschlagwortung zur Integration externer semantischer Inhalte innerhalb einer medizinischen Kooperationsplattform (2012) 0.00
```
0.0033260025 = product of:
  0.019956015 = sum of:
    0.019956015 = weight(_text_:web in 897) [ClassicSimilarity], result of:
      0.019956015 = score(doc=897,freq=2.0), product of:
        0.13836423 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.042397358 = queryNorm
        0.14422815 = fieldWeight in 897, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03125 = fieldNorm(doc=897)
  0.16666667 = coord(1/6)
```
Abstract

Integration externer Inhalte Inwieweit kann die Nutzung einer einheitlichen Terminologie zwischen Anfragesystem und Wissensbasis den Prozess der Informationsbeschaffung unterstützen? Zu diesem Zweck wird in einer ersten Phase ermittelt welche Wissensbasen aus der medizinischen Domäne in der Linked Data Cloud zur Verfügung stehen. Aufbauend auf den Ergebnissen werden Informationen aus verschiedenen dezentralen Wissensbasen exemplarisch integriert. Der Fokus der Betrachtung liegt dabei auf der verwendeten Terminologie sowie der Nutzung von Semantic Web Technologien. Neben Informationen aus der Linked Data Cloud erfolgt eine Suche nach medizinischer Literatur in PubMed. Wie auch in der Linked Data Cloud erfolgt die Integration unter Verwendung einer einheitlichen Terminologie. Eine weitere Fragestellung ist, wie Informationen aus insgesamt 21. Mio Aufsatzzitaten in PubMed sinnvoll integriert werden können. Dabei wird ermittelt welche Mechanismen eingesetzt werden können um die Präzision der Ergebnisse zu optimieren. Eignung medizinischer Begriffssystem Welche medizinischen Begriffssysteme existieren und wie eignen sich diese als zugrungeliegendes Vokabular für die automatische Verschlagwortung und Integration semantischer Inhalte? Der Fokus liegt dabei speziell auf einer Bewertung der Reichhaltigkeit von Begriffssystemen, wobei insbesondere der Detaillierungsgrad von Interesse ist. Handelt es sich um ein spezifisches oder allgemeines Begriffssystem und eignet sich dieses auch dafür bestimmte Teilaspekte der Medizin, wie bspw. die Chirurige oder die Anästhesie, in einer ausreichenden Tiefe zu beschreiben?

Glaesener, L.: Automatisches Indexieren einer informationswissenschaftlichen Datenbank mit Mehrwortgruppen (2012) 0.00

0.002553003 = product of:
  0.015318017 = sum of:
    0.015318017 = product of:
      0.045954052 = sum of:
        0.045954052 = weight(_text_:22 in 401) [ClassicSimilarity], result of:
          0.045954052 = score(doc=401,freq=2.0), product of:
            0.14846832 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.042397358 = queryNorm
            0.30952093 = fieldWeight in 401, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0625 = fieldNorm(doc=401)
      0.33333334 = coord(1/3)
  0.16666667 = coord(1/6)

Date: 11. 9.2012 19:43:22

Lorenz, S.: Konzeption und prototypische Realisierung einer begriffsbasierten Texterschließung (2006) 0.00

0.0019147521 = product of:
  0.011488512 = sum of:
    0.011488512 = product of:
      0.034465536 = sum of:
        0.034465536 = weight(_text_:22 in 1746) [ClassicSimilarity], result of:
          0.034465536 = score(doc=1746,freq=2.0), product of:
            0.14846832 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.042397358 = queryNorm
            0.23214069 = fieldWeight in 1746, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.046875 = fieldNorm(doc=1746)
      0.33333334 = coord(1/3)
  0.16666667 = coord(1/6)

Date: 22. 3.2015 9:17:30

Weiner, U.: Vor uns die Dokumentenflut oder Automatische Indexierung als notwendige und sinnvolle Ergänzung zur intellektuellen Sacherschließung (2012) 0.00
```
0.001290741 = product of:
  0.007744446 = sum of:
    0.007744446 = product of:
      0.023233337 = sum of:
        0.023233337 = weight(_text_:system in 598) [ClassicSimilarity], result of:
          0.023233337 = score(doc=598,freq=2.0), product of:
            0.13353272 = queryWeight, product of:
              3.1495528 = idf(docFreq=5152, maxDocs=44218)
              0.042397358 = queryNorm
            0.17398985 = fieldWeight in 598, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.1495528 = idf(docFreq=5152, maxDocs=44218)
              0.0390625 = fieldNorm(doc=598)
      0.33333334 = coord(1/3)
  0.16666667 = coord(1/6)
```
Abstract

Vor dem Hintergrund veränderter Ansprüche der Bibliotheksbenutzer an Recherchemöglichkeiten - weg vom klassischen Online-Katalog hin zum "One-Stop-Shop" mit Funktionalitäten wie thematisches Browsing, Relevanzranking und dergleichen mehr - einerseits und der notwendigen Bearbeitung von Massendaten (Stichwort Dokumentenflut) andererseits rücken Systeme zur automatischen Indexierung wieder verstärkt in den Mittelpunkt des Interesses. Da in Österreich die Beschäftigung mit diesem Thema im Bibliotheksbereich bislang nur sehr selektiv, bezogen auf wenige konkrete Projekte, erfolgte, wird zuerst ein allgemeiner theoretischer Überblick über die unterschiedlichen Verfahrensansätze der automatischen Indexierung geboten. Im nächsten Schritt werden mit der IDX-basierten Indexierungssoftware MILOS (mit den Teilprojekten MILOS I, MILOS II und KASCADE) und dem modularen System intelligentCAPTURE (mit der integrierten Indexierungssoftware AUTINDEX) die bis vor wenigen Jahren im deutschsprachigen Raum einzigen im Praxiseinsatz befindlichen automatischen Indexierungssysteme vorgestellt. Mit zunehmender Notwendigkeit, neue Wege der inhaltlichen Erschließung zu beschreiten, wurden in den vergangenen 5 - 6 Jahren zahlreiche Softwareentwicklungen auf ihre Einsatzmöglichkeit im Bibliotheksbereich hin getestet. Stellvertretend für diese in Entwicklung befindlichen Systeme zur automatischen inhaltlichen Erschließung wird das Projekt PETRUS, welches in den Jahren 2009 - 2011 an der DNB durchgeführt wurde und die Komponenten PICA Match&Merge sowie die Extraction Platform der Firma Averbis beinhaltet, vorgestellt.
Bredack, J.: Automatische Extraktion fachterminologischer Mehrwortbegriffe : ein Verfahrensvergleich (2016) 0.00
```
0.001290741 = product of:
  0.007744446 = sum of:
    0.007744446 = product of:
      0.023233337 = sum of:
        0.023233337 = weight(_text_:system in 3194) [ClassicSimilarity], result of:
          0.023233337 = score(doc=3194,freq=2.0), product of:
            0.13353272 = queryWeight, product of:
              3.1495528 = idf(docFreq=5152, maxDocs=44218)
              0.042397358 = queryNorm
            0.17398985 = fieldWeight in 3194, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.1495528 = idf(docFreq=5152, maxDocs=44218)
              0.0390625 = fieldNorm(doc=3194)
      0.33333334 = coord(1/3)
  0.16666667 = coord(1/6)
```
Abstract

Als Extraktionssysteme wurden der TreeTagger und die Indexierungssoftware Lingo verwendet. Der TreeTagger basiert auf einem statistischen Tagging- und Chunking- Algorithmus, mit dessen Hilfe NPs automatisch identifiziert und extrahiert werden. Er kann für verschiedene Anwendungsszenarien der natürlichen Sprachverarbeitung eingesetzt werden, in erster Linie als POS-Tagger für unterschiedliche Sprachen. Das Indexierungssystem Lingo arbeitet im Gegensatz zum TreeTagger mit elektronischen Wörterbüchern und einem musterbasierten Abgleich. Lingo ist ein auf automatische Indexierung ausgerichtetes System, was eine Vielzahl von Modulen mitliefert, die individuell auf eine bestimmte Aufgabenstellung angepasst und aufeinander abgestimmt werden können. Die unterschiedlichen Verarbeitungsweisen haben sich in den Ergebnismengen beider Systeme deutlich gezeigt. Die gering ausfallenden Übereinstimmungen der Ergebnismengen verdeutlichen die abweichende Funktionsweise und konnte mit einer qualitativen Analyse beispielhaft beschrieben werden. In der vorliegenden Arbeit kann abschließend nicht geklärt werden, welches der beiden Systeme bevorzugt für die Generierung von Indextermen eingesetzt werden sollte.

Search (11 results, page 1 of 1)

Authors

Years

Themes