Search (24 results, page 1 of 2)

  • × theme_ss:"Automatisches Indexieren"
  • × type_ss:"x"
  1. Nicoletti, M.: Automatische Indexierung (2001) 0.02
    0.0227103 = product of:
      0.034065448 = sum of:
        0.01251204 = weight(_text_:e in 4326) [ClassicSimilarity], result of:
          0.01251204 = score(doc=4326,freq=2.0), product of:
            0.065655835 = queryWeight, product of:
              1.43737 = idf(docFreq=28552, maxDocs=44218)
              0.045677755 = queryNorm
            0.19057012 = fieldWeight in 4326, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.43737 = idf(docFreq=28552, maxDocs=44218)
              0.09375 = fieldNorm(doc=4326)
        0.021553408 = product of:
          0.043106817 = sum of:
            0.043106817 = weight(_text_:von in 4326) [ClassicSimilarity], result of:
              0.043106817 = score(doc=4326,freq=2.0), product of:
                0.121865906 = queryWeight, product of:
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.045677755 = queryNorm
                0.35372335 = fieldWeight in 4326, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.09375 = fieldNorm(doc=4326)
          0.5 = coord(1/2)
      0.6666667 = coord(2/3)
    
    Content
    Inhalt: 1. Aufgabe - 2. Ermittlung von Mehrwortgruppen - 2.1 Definition - 3. Kennzeichnung der Mehrwortgruppen - 4. Grundformen - 5. Term- und Dokumenthäufigkeit --- Termgewichtung - 6. Steuerungsinstrument Schwellenwert - 7. Invertierter Index. Vgl. unter: http://www.grin.com/de/e-book/104966/automatische-indexierung.
  2. Lorenz, S.: Konzeption und prototypische Realisierung einer begriffsbasierten Texterschließung (2006) 0.02
    0.022537787 = product of:
      0.067613356 = sum of:
        0.067613356 = sum of:
          0.030481124 = weight(_text_:von in 1746) [ClassicSimilarity], result of:
            0.030481124 = score(doc=1746,freq=4.0), product of:
              0.121865906 = queryWeight, product of:
                2.6679487 = idf(docFreq=8340, maxDocs=44218)
                0.045677755 = queryNorm
              0.2501202 = fieldWeight in 1746, product of:
                2.0 = tf(freq=4.0), with freq of:
                  4.0 = termFreq=4.0
                2.6679487 = idf(docFreq=8340, maxDocs=44218)
                0.046875 = fieldNorm(doc=1746)
          0.03713223 = weight(_text_:22 in 1746) [ClassicSimilarity], result of:
            0.03713223 = score(doc=1746,freq=2.0), product of:
              0.15995571 = queryWeight, product of:
                3.5018296 = idf(docFreq=3622, maxDocs=44218)
                0.045677755 = queryNorm
              0.23214069 = fieldWeight in 1746, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                3.5018296 = idf(docFreq=3622, maxDocs=44218)
                0.046875 = fieldNorm(doc=1746)
      0.33333334 = coord(1/3)
    
    Abstract
    Im Rahmen dieser Arbeit wird eine Vorgehensweise entwickelt, die die Fixierung auf das Wort und die damit verbundenen Schwächen überwindet. Sie gestattet die Extraktion von Informationen anhand der repräsentierten Begriffe und bildet damit die Basis einer inhaltlichen Texterschließung. Die anschließende prototypische Realisierung dient dazu, die Konzeption zu überprüfen sowie ihre Möglichkeiten und Grenzen abzuschätzen und zu bewerten. Arbeiten zum Information Extraction widmen sich fast ausschließlich dem Englischen, wobei insbesondere im Bereich der Named Entities sehr gute Ergebnisse erzielt werden. Deutlich schlechter sehen die Resultate für weniger regelmäßige Sprachen wie beispielsweise das Deutsche aus. Aus diesem Grund sowie praktischen Erwägungen wie insbesondere der Vertrautheit des Autors damit, soll diese Sprache primär Gegenstand der Untersuchungen sein. Die Lösung von einer engen Termorientierung bei gleichzeitiger Betonung der repräsentierten Begriffe legt nahe, dass nicht nur die verwendeten Worte sekundär werden sondern auch die verwendete Sprache. Um den Rahmen dieser Arbeit nicht zu sprengen wird bei der Untersuchung dieses Punktes das Augenmerk vor allem auf die mit unterschiedlichen Sprachen verbundenen Schwierigkeiten und Besonderheiten gelegt.
    Date
    22. 3.2015 9:17:30
  3. Kaufmann, E.: ¬Das Indexieren von natürlichsprachlichen Dokumenten und die inverse Seitenhäufigkeit (2001) 0.02
    0.020409524 = product of:
      0.030614287 = sum of:
        0.0052133505 = weight(_text_:e in 318) [ClassicSimilarity], result of:
          0.0052133505 = score(doc=318,freq=2.0), product of:
            0.065655835 = queryWeight, product of:
              1.43737 = idf(docFreq=28552, maxDocs=44218)
              0.045677755 = queryNorm
            0.07940422 = fieldWeight in 318, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.43737 = idf(docFreq=28552, maxDocs=44218)
              0.0390625 = fieldNorm(doc=318)
        0.025400937 = product of:
          0.050801873 = sum of:
            0.050801873 = weight(_text_:von in 318) [ClassicSimilarity], result of:
              0.050801873 = score(doc=318,freq=16.0), product of:
                0.121865906 = queryWeight, product of:
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.045677755 = queryNorm
                0.416867 = fieldWeight in 318, product of:
                  4.0 = tf(freq=16.0), with freq of:
                    16.0 = termFreq=16.0
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=318)
          0.5 = coord(1/2)
      0.6666667 = coord(2/3)
    
    Abstract
    Die Lizentiatsarbeit gibt im ersten theoretischen Teil einen Überblick über das Indexieren von Dokumenten. Sie zeigt die verschiedenen Typen von Indexen sowie die wichtigsten Aspekte bezüglich einer Indexsprache auf. Diverse manuelle und automatische Indexierungsverfahren werden präsentiert. Spezielle Aufmerksamkeit innerhalb des ersten Teils gilt den Schlagwortregistern, deren charakteristische Merkmale und Eigenheiten erörtert werden. Zusätzlich werden die gängigen Kriterien zur Bewertung von Indexen sowie die Masse zur Evaluation von Indexierungsverfahren und Indexierungsergebnissen vorgestellt. Im zweiten Teil der Arbeit werden fünf reale Bücher einer statistischen Untersuchung unterzogen. Zum einen werden die lexikalischen und syntaktischen Bestandteile der fünf Buchregister ermittelt, um den Inhalt von Schlagwortregistern zu erschliessen. Andererseits werden aus den Textausschnitten der Bücher Indexterme maschinell extrahiert und mit den Schlagworteinträgen in den Buchregistern verglichen. Das Hauptziel der Untersuchungen besteht darin, eine Indexierungsmethode, die auf linguistikorientierter Extraktion der Indexterme und Termhäufigkeitsgewichtung basiert, im Hinblick auf ihren Gebrauchswert für eine automatische Indexierung zu testen. Die Gewichtungsmethode ist die inverse Seitenhäufigkeit, eine Methode, welche von der inversen Dokumentfrequenz abgeleitet wurde, zur automatischen Erstellung von Schlagwortregistern für deutschsprachige Texte. Die Prüfung der Methode im statistischen Teil führte nicht zu zufriedenstellenden Resultaten.
  4. Tavakolizadeh-Ravari, M.: Analysis of the long term dynamics in thesaurus developments and its consequences (2017) 0.02
    0.015452668 = product of:
      0.023179002 = sum of:
        0.0041706804 = weight(_text_:e in 3081) [ClassicSimilarity], result of:
          0.0041706804 = score(doc=3081,freq=2.0), product of:
            0.065655835 = queryWeight, product of:
              1.43737 = idf(docFreq=28552, maxDocs=44218)
              0.045677755 = queryNorm
            0.063523374 = fieldWeight in 3081, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.43737 = idf(docFreq=28552, maxDocs=44218)
              0.03125 = fieldNorm(doc=3081)
        0.019008322 = product of:
          0.038016643 = sum of:
            0.038016643 = weight(_text_:von in 3081) [ClassicSimilarity], result of:
              0.038016643 = score(doc=3081,freq=14.0), product of:
                0.121865906 = queryWeight, product of:
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.045677755 = queryNorm
                0.3119547 = fieldWeight in 3081, product of:
                  3.7416575 = tf(freq=14.0), with freq of:
                    14.0 = termFreq=14.0
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.03125 = fieldNorm(doc=3081)
          0.5 = coord(1/2)
      0.6666667 = coord(2/3)
    
    Abstract
    Die Arbeit analysiert die dynamische Entwicklung und den Gebrauch von Thesaurusbegriffen. Zusätzlich konzentriert sie sich auf die Faktoren, die die Zahl von Indexbegriffen pro Dokument oder Zeitschrift beeinflussen. Als Untersuchungsobjekt dienten der MeSH und die entsprechende Datenbank "MEDLINE". Die wichtigsten Konsequenzen sind: 1. Der MeSH-Thesaurus hat sich durch drei unterschiedliche Phasen jeweils logarithmisch entwickelt. Solch einen Thesaurus sollte folgenden Gleichung folgen: "T = 3.076,6 Ln (d) - 22.695 + 0,0039d" (T = Begriffe, Ln = natürlicher Logarithmus und d = Dokumente). Um solch einen Thesaurus zu konstruieren, muss man demnach etwa 1.600 Dokumente von unterschiedlichen Themen des Bereiches des Thesaurus haben. Die dynamische Entwicklung von Thesauri wie MeSH erfordert die Einführung eines neuen Begriffs pro Indexierung von 256 neuen Dokumenten. 2. Die Verteilung der Thesaurusbegriffe erbrachte drei Kategorien: starke, normale und selten verwendete Headings. Die letzte Gruppe ist in einer Testphase, während in der ersten und zweiten Kategorie die neu hinzukommenden Deskriptoren zu einem Thesauruswachstum führen. 3. Es gibt ein logarithmisches Verhältnis zwischen der Zahl von Index-Begriffen pro Aufsatz und dessen Seitenzahl für die Artikeln zwischen einer und einundzwanzig Seiten. 4. Zeitschriftenaufsätze, die in MEDLINE mit Abstracts erscheinen erhalten fast zwei Deskriptoren mehr. 5. Die Findablity der nicht-englisch sprachigen Dokumente in MEDLINE ist geringer als die englische Dokumente. 6. Aufsätze der Zeitschriften mit einem Impact Factor 0 bis fünfzehn erhalten nicht mehr Indexbegriffe als die der anderen von MEDINE erfassten Zeitschriften. 7. In einem Indexierungssystem haben unterschiedliche Zeitschriften mehr oder weniger Gewicht in ihrem Findability. Die Verteilung der Indexbegriffe pro Seite hat gezeigt, dass es bei MEDLINE drei Kategorien der Publikationen gibt. Außerdem gibt es wenige stark bevorzugten Zeitschriften."
    Language
    e
  5. Weidenbach, N.: Werkzeuge zur Evaluierung und Optimierung von Regeln zur Automatischen Indexierung : Anwendungssystementwicklung (1994) 0.01
    0.009579293 = product of:
      0.028737878 = sum of:
        0.028737878 = product of:
          0.057475757 = sum of:
            0.057475757 = weight(_text_:von in 2768) [ClassicSimilarity], result of:
              0.057475757 = score(doc=2768,freq=2.0), product of:
                0.121865906 = queryWeight, product of:
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.045677755 = queryNorm
                0.47163114 = fieldWeight in 2768, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.125 = fieldNorm(doc=2768)
          0.5 = coord(1/2)
      0.33333334 = coord(1/3)
    
  6. Kumpe, D.: Methoden zur automatischen Indexierung von Dokumenten (2006) 0.01
    0.0093712285 = product of:
      0.028113684 = sum of:
        0.028113684 = product of:
          0.056227367 = sum of:
            0.056227367 = weight(_text_:von in 782) [ClassicSimilarity], result of:
              0.056227367 = score(doc=782,freq=10.0), product of:
                0.121865906 = queryWeight, product of:
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.045677755 = queryNorm
                0.4613872 = fieldWeight in 782, product of:
                  3.1622777 = tf(freq=10.0), with freq of:
                    10.0 = termFreq=10.0
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=782)
          0.5 = coord(1/2)
      0.33333334 = coord(1/3)
    
    Abstract
    Diese Diplomarbeit handelt von der Indexierung von unstrukturierten und natürlichsprachigen Dokumenten. Die zunehmende Informationsflut und die Zahl an veröffentlichten wissenschaftlichen Berichten und Büchern machen eine maschinelle inhaltliche Erschließung notwendig. Um die Anforderungen hierfür besser zu verstehen, werden Probleme der natürlichsprachigen schriftlichen Kommunikation untersucht. Die manuellen Techniken der Indexierung und die Dokumentationssprachen werden vorgestellt. Die Indexierung wird thematisch in den Bereich der inhaltlichen Erschließung und des Information Retrieval eingeordnet. Weiterhin werden Vor- und Nachteile von ausgesuchten Algorithmen untersucht und Softwareprodukte im Bereich des Information Retrieval auf ihre Arbeitsweise hin evaluiert. Anhand von Beispiel-Dokumenten werden die Ergebnisse einzelner Verfahren vorgestellt. Mithilfe des Projekts European Migration Network werden Probleme und grundlegende Anforderungen an die Durchführung einer inhaltlichen Erschließung identifiziert und Lösungsmöglichkeiten vorgeschlagen.
  7. Schröther, C.: Automatische Indexierung, Kategorisierung und inhaltliche Erschließung von Textnachrichten (2003) 0.01
    0.008381882 = product of:
      0.025145644 = sum of:
        0.025145644 = product of:
          0.05029129 = sum of:
            0.05029129 = weight(_text_:von in 521) [ClassicSimilarity], result of:
              0.05029129 = score(doc=521,freq=2.0), product of:
                0.121865906 = queryWeight, product of:
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.045677755 = queryNorm
                0.41267726 = fieldWeight in 521, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.109375 = fieldNorm(doc=521)
          0.5 = coord(1/2)
      0.33333334 = coord(1/3)
    
  8. Glaesener, L.: Automatisches Indexieren einer informationswissenschaftlichen Datenbank mit Mehrwortgruppen (2012) 0.01
    0.008251607 = product of:
      0.02475482 = sum of:
        0.02475482 = product of:
          0.04950964 = sum of:
            0.04950964 = weight(_text_:22 in 401) [ClassicSimilarity], result of:
              0.04950964 = score(doc=401,freq=2.0), product of:
                0.15995571 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.045677755 = queryNorm
                0.30952093 = fieldWeight in 401, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.0625 = fieldNorm(doc=401)
          0.5 = coord(1/2)
      0.33333334 = coord(1/3)
    
    Date
    11. 9.2012 19:43:22
  9. Bredack, J.: Terminologieextraktion von Mehrwortgruppen in kunsthistorischen Fachtexten (2013) 0.01
    0.007258923 = product of:
      0.021776767 = sum of:
        0.021776767 = product of:
          0.043553535 = sum of:
            0.043553535 = weight(_text_:von in 1054) [ClassicSimilarity], result of:
              0.043553535 = score(doc=1054,freq=24.0), product of:
                0.121865906 = queryWeight, product of:
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.045677755 = queryNorm
                0.357389 = fieldWeight in 1054, product of:
                  4.8989797 = tf(freq=24.0), with freq of:
                    24.0 = termFreq=24.0
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.02734375 = fieldNorm(doc=1054)
          0.5 = coord(1/2)
      0.33333334 = coord(1/3)
    
    Abstract
    Mit Hilfe eines algorithmisch arbeitenden Verfahrens können Mehrwortgruppen aus elektronisch vorliegenden Texten identifiziert und extrahiert werden. Als Datengrundlage für diese Arbeit dienen kunsthistorische Lexikonartikel des Reallexikons zur Deutschen Kunstgeschichte. Die linguistisch, wörterbuchbasierte Open-Source-Software Lingo wurde in dieser Studie genutzt. Mit Lingo ist es möglich, auf Basis erstellter Wortmuster, bestimmte Wortfolgen aus elektronisch vorliegenden Daten algorithmisch zu identifizieren und zu extrahieren. Die erstellten Wortmuster basieren auf Wortklassen, mit denen die lexikalisierten Einträge in den Wörterbüchern getaggt sind und dadurch näher definiert werden. So wurden individuelle Wortklassen für Fachterminologie, Eigennamen, oder Adjektive vergeben. In der vorliegenden Arbeit werden zusätzlich Funktionswörter in die Musterbildung mit einbezogen. Dafür wurden neue Wortklassen definiert. Funktionswörter bestimmen Artikel, Konjunktionen und Präpositionen. Ziel war es fachterminologische Mehrwortgruppen mit kunsthistorischen Inhalten zu extrahieren unter der gezielten Einbindung von Funktionswörtern. Anhand selbst gebildeter Kriterien, wurden die extrahierten Mehrwortgruppen qualitativ analysiert. Es konnte festgestellt werden, dass die Verwendung von Funktionswörtern fachterminologische Mehrwortgruppen erzeugt, die als potentielle Indexterme weitere Verwendung im Information Retrieval finden können.
    Mehrwortgruppen sind als lexikalische Einheit zu betrachten und bestehen aus mindestens zwei miteinander in Verbindung stehenden Begriffen. Durch die Ver-bindung mehrerer Fachwörter transportieren sie in Fachtexten aussagekräftige Informationen. Sie vermitteln eindeutige Informationen, da aus den resultierenden Beziehungen zwischen den in Verbindung stehenden Fachbegriffen die inhaltliche Bedeutung eines Fachtextes ersichtlich wird. Demzufolge ist es sinnvoll, Mehrwort-gruppen aus Fachtexten zu extrahieren, da diese die Inhalte eindeutig repräsentieren. So können Mehrwortgruppen für eine inhaltliche Erschließung genutzt und beispiels-weise als Indexterme im Information Retrieval bereitgestellt werden. Mehrwortgruppen enthalten Informationen eines Textes, die in natürlicher Sprache vorliegen. Zur Extraktion von Informationen eines elektronisch vorliegenden Textes kommen maschinelle Verfahren zum Einsatz, da Sprache Strukturen aufweist, die maschinell verarbeitet werden können. Eine mögliche Methode Mehrwortgruppen innerhalb von elektronisch vorliegenden Fachtexten zu identifizieren und extrahieren ist ein algorithmisches Verfahren. Diese Methode erkennt Wortfolgen durch das Bilden von Wortmustern, aus denen sich eine Mehrwortgruppe in einem Text zusammensetzt. Die Wortmuster repräsentieren somit die einzelnen Bestandteile einer Mehrwortgruppe. Bereits an mathematischen Fachtexten wurde dieses Verfahren untersucht und analysiert. Relevante Mehrwortgruppen, die ein mathematisches Konzept oder mathe-matischen Inhalt repräsentierten, konnten erfolgreich extrahiert werden. Zum Einsatz kam das Indexierungssystem Lingo, mit dessen Programmodul sequencer eine algorithmische Identifizierung und Extraktion von Mehrwortgruppen möglich ist. In der vorliegenden Arbeit wird dieses algorithmische Verfahren unter Einsatz der Software Lingo genutzt, um Mehrwortgruppen aus kunsthistorischen Fachtexten zu extrahieren. Als Datenquelle dienen kunsthistorische Lexikonartikel aus dem Reallexikon zur Deutschen Kunstgeschichte, welches in deutscher Sprache vorliegt. Es wird untersucht, ob positive Ergebnisse im Sinne von fachterminologischen Mehrwort-gruppen mit kunsthistorischen Inhalten erzeugt werden können. Dabei soll zusätzlich die Einbindung von Funktionswörtern innerhalb einer Mehrwortgruppe erfolgen. Funktionswörter definieren Artikel, Konjunktionen und Präpositionen, die für sich alleinstehend keine inhaltstragende Bedeutung besitzen, allerdings innerhalb einer Mehrwortgruppe syntaktische Funktionen erfüllen. Anhand der daraus resultierenden Ergebnisse wird analysiert, ob das Hinzufügen von Funktionswörtern innerhalb einer Mehrwortgruppe zu positiven Ergebnissen führt. Ziel soll es demnach sein, fach-terminologische Mehrwortgruppen mit kunsthistorischen Inhalten zu erzeugen, unter Einbindung von Funktionswörtern. Bei der Extraktion fachterminologischer Mehrwortgruppen wird im Folgenden insbesondere auf die Erstellung von Wortmustern eingegangen, da diese die Basis liefern, mit welchen das Programmmodul sequencer Wortfolgen innerhalb der kunst-historischen Lexikonartikel identifiziert. Eine Einordung der Indexierungsergebnisse erfolgt anhand selbst gebildeter Kriterien, die definieren, was unter einer fach-terminologischen Mehrwortgruppe zu verstehen ist.
  10. Dresler, W.: Semi-automatische Indexierungssoftware : Möglichkeiten und Grenzen am Beispiel von g.a.d.t.1 (1998) 0.01
    0.0071844696 = product of:
      0.021553408 = sum of:
        0.021553408 = product of:
          0.043106817 = sum of:
            0.043106817 = weight(_text_:von in 4272) [ClassicSimilarity], result of:
              0.043106817 = score(doc=4272,freq=2.0), product of:
                0.121865906 = queryWeight, product of:
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.045677755 = queryNorm
                0.35372335 = fieldWeight in 4272, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.09375 = fieldNorm(doc=4272)
          0.5 = coord(1/2)
      0.33333334 = coord(1/3)
    
  11. Grün, S.: Bildung von Komposita-Indextermen auf der Basis einer algorithmischen Mehrwortgruppenanalyse mit Lingo (2015) 0.01
    0.0071844696 = product of:
      0.021553408 = sum of:
        0.021553408 = product of:
          0.043106817 = sum of:
            0.043106817 = weight(_text_:von in 1335) [ClassicSimilarity], result of:
              0.043106817 = score(doc=1335,freq=8.0), product of:
                0.121865906 = queryWeight, product of:
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.045677755 = queryNorm
                0.35372335 = fieldWeight in 1335, product of:
                  2.828427 = tf(freq=8.0), with freq of:
                    8.0 = termFreq=8.0
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.046875 = fieldNorm(doc=1335)
          0.5 = coord(1/2)
      0.33333334 = coord(1/3)
    
    Abstract
    In der deutschen Sprache lassen sich Begriffe durch Komposita und Mehrwortgruppen ausdrücken. Letztere können dabei aber auch als Kompositum selbst ausgedrückt werden und entsprechend auf den gleichen Begriff verweisen. In der nachfolgenden Studie werden Mehrwortgruppen analysiert, die auch Komposita sein können. Ziel der Untersuchung ist es, diese Wortfolgen über Muster zu identifizieren. Analysiert wurden Daten des Karrieremanagers Placement24 GmbH - in Form von Stellenanzeigen. Die Extraktion von Mehrwortgruppen erfolgte algorithmisch und wurde mit der Open-Source Software Lingo durch geführt. Auf der Basis von Erweiterungen bzw. Anpassungen in Wörterbüchern und den darin getaggten Wörtern wurde drei- bis fünfstelligen Kandidaten analysiert. Aus positiv bewerteten Mehrwortgruppen wurden Komposita gebildet. Diese wurden mit den identifizierten Komposita aus den Stellenanzeigen verglichen. Der Vergleich zeigte, dass ein Großteil der neu generierten Komposita nicht durch eine Kompositaidentifizierung erzeugt wurde.
  12. Carevic, Z.: Semi-automatische Verschlagwortung zur Integration externer semantischer Inhalte innerhalb einer medizinischen Kooperationsplattform (2012) 0.01
    0.0071844696 = product of:
      0.021553408 = sum of:
        0.021553408 = product of:
          0.043106817 = sum of:
            0.043106817 = weight(_text_:von in 897) [ClassicSimilarity], result of:
              0.043106817 = score(doc=897,freq=18.0), product of:
                0.121865906 = queryWeight, product of:
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.045677755 = queryNorm
                0.35372335 = fieldWeight in 897, product of:
                  4.2426405 = tf(freq=18.0), with freq of:
                    18.0 = termFreq=18.0
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.03125 = fieldNorm(doc=897)
          0.5 = coord(1/2)
      0.33333334 = coord(1/3)
    
    Abstract
    Die vorliegende Arbeit beschäftigt sich mit der Integration von externen semantischen Inhalten auf Basis eines medizinischen Begriffssystems. Die zugrundeliegende Annahme ist, dass die Verwendung einer einheitlichen Terminologie auf Seiten des Anfragesystems und der Wissensbasis zu qualitativ hochwertigen Ergebnissen führt. Um dies zu erreichen muss auf Seiten des Anfragesystems eine Abbildung natürlicher Sprache auf die verwendete Terminologie gewährleistet werden. Dies geschieht auf Basis einer (semi-)automatischen Verschlagwortung textbasierter Inhalte. Im Wesentlichen lassen sich folgende Fragestellungen festhalten: Automatische Verschlagwortung textbasierter Inhalte Kann eine automatische Verschlagwortung textbasierter Inhalte auf Basis eines Begriffssystems optimiert werden? Der zentrale Aspekt der vorliegenden Arbeit ist die (semi-)automatische Verschlagwortung textbasierter Inhalte auf Basis eines medizinischen Begriffssystems. Zu diesem Zweck wird der aktuelle Stand der Forschung betrachtet. Es werden eine Reihe von Tokenizern verglichen um zu erfahren welche Algorithmen sich zur Ermittlung von Wortgrenzen eignen. Speziell wird betrachtet, wie die Ermittlung von Wortgrenzen in einer domänenspezifischen Umgebung eingesetzt werden kann. Auf Basis von identifizierten Token in einem Text werden die Auswirkungen des Stemming und POS-Tagging auf die Gesamtmenge der zu analysierenden Inhalte beobachtet. Abschließend wird evaluiert wie ein kontrolliertes Vokabular die Präzision bei der Verschlagwortung erhöhen kann. Dies geschieht unter der Annahme dass domänenspezifische Inhalte auch innerhalb eines domänenspezifischen Begriffssystems definiert sind. Zu diesem Zweck wird ein allgemeines Prozessmodell entwickelt anhand dessen eine Verschlagwortung vorgenommen wird.
    Integration externer Inhalte Inwieweit kann die Nutzung einer einheitlichen Terminologie zwischen Anfragesystem und Wissensbasis den Prozess der Informationsbeschaffung unterstützen? Zu diesem Zweck wird in einer ersten Phase ermittelt welche Wissensbasen aus der medizinischen Domäne in der Linked Data Cloud zur Verfügung stehen. Aufbauend auf den Ergebnissen werden Informationen aus verschiedenen dezentralen Wissensbasen exemplarisch integriert. Der Fokus der Betrachtung liegt dabei auf der verwendeten Terminologie sowie der Nutzung von Semantic Web Technologien. Neben Informationen aus der Linked Data Cloud erfolgt eine Suche nach medizinischer Literatur in PubMed. Wie auch in der Linked Data Cloud erfolgt die Integration unter Verwendung einer einheitlichen Terminologie. Eine weitere Fragestellung ist, wie Informationen aus insgesamt 21. Mio Aufsatzzitaten in PubMed sinnvoll integriert werden können. Dabei wird ermittelt welche Mechanismen eingesetzt werden können um die Präzision der Ergebnisse zu optimieren. Eignung medizinischer Begriffssystem Welche medizinischen Begriffssysteme existieren und wie eignen sich diese als zugrungeliegendes Vokabular für die automatische Verschlagwortung und Integration semantischer Inhalte? Der Fokus liegt dabei speziell auf einer Bewertung der Reichhaltigkeit von Begriffssystemen, wobei insbesondere der Detaillierungsgrad von Interesse ist. Handelt es sich um ein spezifisches oder allgemeines Begriffssystem und eignet sich dieses auch dafür bestimmte Teilaspekte der Medizin, wie bspw. die Chirurige oder die Anästhesie, in einer ausreichenden Tiefe zu beschreiben?
    Content
    Masterarbeit, ausgearbeitet von Zeljko Carevic zur Erlangung des akademischen Grades Master of Science vorgelegt an der Fachhochschule Köln Campus Gummersbach im Studiengang Medieninformatik. Vgl.. unter: http://opus.bibl.fh-koeln.de/volltexte/2012/376/pdf/Carevic.pdf.
  13. Krüger, C.: Evaluation des WWW-Suchdienstes GERHARD unter besonderer Beachtung automatischer Indexierung (1999) 0.01
    0.006693735 = product of:
      0.020081203 = sum of:
        0.020081203 = product of:
          0.040162407 = sum of:
            0.040162407 = weight(_text_:von in 1777) [ClassicSimilarity], result of:
              0.040162407 = score(doc=1777,freq=10.0), product of:
                0.121865906 = queryWeight, product of:
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.045677755 = queryNorm
                0.32956228 = fieldWeight in 1777, product of:
                  3.1622777 = tf(freq=10.0), with freq of:
                    10.0 = termFreq=10.0
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=1777)
          0.5 = coord(1/2)
      0.33333334 = coord(1/3)
    
    Abstract
    Die vorliegende Arbeit beinhaltet eine Beschreibung und Evaluation des WWW - Suchdienstes GERHARD (German Harvest Automated Retrieval and Directory). GERHARD ist ein Such- und Navigationssystem für das deutsche World Wide Web, weiches ausschließlich wissenschaftlich relevante Dokumente sammelt, und diese auf der Basis computerlinguistischer und statistischer Methoden automatisch mit Hilfe eines bibliothekarischen Klassifikationssystems klassifiziert. Mit dem DFG - Projekt GERHARD ist der Versuch unternommen worden, mit einem auf einem automatischen Klassifizierungsverfahren basierenden World Wide Web - Dienst eine Alternative zu herkömmlichen Methoden der Interneterschließung zu entwickeln. GERHARD ist im deutschsprachigen Raum das einzige Verzeichnis von Internetressourcen, dessen Erstellung und Aktualisierung vollständig automatisch (also maschinell) erfolgt. GERHARD beschränkt sich dabei auf den Nachweis von Dokumenten auf wissenschaftlichen WWW - Servern. Die Grundidee dabei war, kostenintensive intellektuelle Erschließung und Klassifizierung von lnternetseiten durch computerlinguistische und statistische Methoden zu ersetzen, um auf diese Weise die nachgewiesenen Internetressourcen automatisch auf das Vokabular eines bibliothekarischen Klassifikationssystems abzubilden. GERHARD steht für German Harvest Automated Retrieval and Directory. Die WWW - Adresse (URL) von GERHARD lautet: http://www.gerhard.de. Im Rahmen der vorliegenden Diplomarbeit soll eine Beschreibung des Dienstes mit besonderem Schwerpunkt auf dem zugrundeliegenden Indexierungs- bzw. Klassifizierungssystem erfolgen und anschließend mit Hilfe eines kleinen Retrievaltests die Effektivität von GERHARD überprüft werden.
  14. Grün, S.: Mehrwortbegriffe und Latent Semantic Analysis : Bewertung automatisch extrahierter Mehrwortgruppen mit LSA (2017) 0.01
    0.006693735 = product of:
      0.020081203 = sum of:
        0.020081203 = product of:
          0.040162407 = sum of:
            0.040162407 = weight(_text_:von in 3954) [ClassicSimilarity], result of:
              0.040162407 = score(doc=3954,freq=10.0), product of:
                0.121865906 = queryWeight, product of:
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.045677755 = queryNorm
                0.32956228 = fieldWeight in 3954, product of:
                  3.1622777 = tf(freq=10.0), with freq of:
                    10.0 = termFreq=10.0
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=3954)
          0.5 = coord(1/2)
      0.33333334 = coord(1/3)
    
    Abstract
    Die vorliegende Studie untersucht das Potenzial von Mehrwortbegriffen für das Information Retrieval. Zielsetzung der Arbeit ist es, intellektuell positiv bewertete Kandidaten mithilfe des Latent Semantic Analysis (LSA) Verfahren höher zu gewichten, als negativ bewertete Kandidaten. Die positiven Kandidaten sollen demnach bei einem Ranking im Information Retrieval bevorzugt werden. Als Kollektion wurde eine Version der sozialwissenschaftlichen GIRT-Datenbank (German Indexing and Retrieval Testdatabase) eingesetzt. Um Kandidaten für Mehrwortbegriffe zu identifizieren wurde die automatische Indexierung Lingo verwendet. Die notwendigen Kernfunktionalitäten waren Lemmatisierung, Identifizierung von Komposita, algorithmische Mehrworterkennung sowie Gewichtung von Indextermen durch das LSA-Modell. Die durch Lingo erkannten und LSAgewichteten Mehrwortkandidaten wurden evaluiert. Zuerst wurde dazu eine intellektuelle Auswahl von positiven und negativen Mehrwortkandidaten vorgenommen. Im zweiten Schritt der Evaluierung erfolgte die Berechnung der Ausbeute, um den Anteil der positiven Mehrwortkandidaten zu erhalten. Im letzten Schritt der Evaluierung wurde auf der Basis der R-Precision berechnet, wie viele positiv bewerteten Mehrwortkandidaten es an der Stelle k des Rankings geschafft haben. Die Ausbeute der positiven Mehrwortkandidaten lag bei durchschnittlich ca. 39%, während die R-Precision einen Durchschnittswert von 54% erzielte. Das LSA-Modell erzielt ein ambivalentes Ergebnis mit positiver Tendenz.
  15. Lepsky, K.: Maschinelle Indexierung von Titelaufnahmen zur Verbesserung der sachlichen Erschließung in Online-Publikumskatalogen (1994) 0.01
    0.0059870584 = product of:
      0.017961174 = sum of:
        0.017961174 = product of:
          0.03592235 = sum of:
            0.03592235 = weight(_text_:von in 7064) [ClassicSimilarity], result of:
              0.03592235 = score(doc=7064,freq=2.0), product of:
                0.121865906 = queryWeight, product of:
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.045677755 = queryNorm
                0.29476947 = fieldWeight in 7064, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.078125 = fieldNorm(doc=7064)
          0.5 = coord(1/2)
      0.33333334 = coord(1/3)
    
  16. Scherer, B.: Automatische Indexierung und ihre Anwendung im DFG-Projekt "Gemeinsames Portal für Bibliotheken, Archive und Museen (BAM)" (2003) 0.01
    0.0059870584 = product of:
      0.017961174 = sum of:
        0.017961174 = product of:
          0.03592235 = sum of:
            0.03592235 = weight(_text_:von in 4283) [ClassicSimilarity], result of:
              0.03592235 = score(doc=4283,freq=8.0), product of:
                0.121865906 = queryWeight, product of:
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.045677755 = queryNorm
                0.29476947 = fieldWeight in 4283, product of:
                  2.828427 = tf(freq=8.0), with freq of:
                    8.0 = termFreq=8.0
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=4283)
          0.5 = coord(1/2)
      0.33333334 = coord(1/3)
    
    Abstract
    Automatische Indexierung verzeichnet schon seit einigen Jahren aufgrund steigender Informationsflut ein wachsendes Interesse. Allerdings gibt es immer noch Vorbehalte gegenüber der intellektuellen Indexierung in Bezug auf Qualität und größerem Aufwand der Systemimplementierung bzw. -pflege. Neuere Entwicklungen aus dem Bereich des Wissensmanagements, wie beispielsweise Verfahren aus der Künstlichen Intelligenz, der Informationsextraktion, dem Text Mining bzw. der automatischen Klassifikation sollen die automatische Indexierung aufwerten und verbessern. Damit soll eine intelligentere und mehr inhaltsbasierte Erschließung geleistet werden. In dieser Masterarbeit wird außerhalb der Darstellung von Grundlagen und Verfahren der automatischen Indexierung sowie neueren Entwicklungen auch Möglichkeiten der Evaluation dargestellt. Die mögliche Anwendung der automatischen Indexierung im DFG-ProjektGemeinsames Portal für Bibliotheken, Archive und Museen (BAM)" bilden den Schwerpunkt der Arbeit. Im Portal steht die bibliothekarische Erschließung von Texten im Vordergrund. In einem umfangreichen Test werden drei deutsche, linguistische Systeme mit statistischen Verfahren kombiniert (die aber teilweise im System bereits integriert ist) und evaluiert, allerdings nur auf der Basis der ausgegebenen Indexate. Abschließend kann festgestellt werden, dass die Ergebnisse und damit die Qualität (bezogen auf die Indexate) von intellektueller und automatischer Indexierung noch signifikant unterschiedlich sind. Die Gründe liegen in noch zu lösenden semantischen Problemen bzw, in der Obereinstimmung mit Worten aus einem Thesaurus, die von einem automatischen Indexierungssystem nicht immer nachvollzogen werden kann. Eine Inhaltsanreicherung mit den Indexaten zum Vorteil beim Retrieval kann, je nach System oder auch über die Einbindung durch einen Thesaurus, erreicht werden.
  17. Groß, T.: Automatische Indexierung von wirtschaftswissenschaftlichen Dokumenten : Implementierung und Evaluierung am Beispiel der Deutschen Zentralbibliothek für Wirtschaftswissenschaften (2010) 0.01
    0.0059870584 = product of:
      0.017961174 = sum of:
        0.017961174 = product of:
          0.03592235 = sum of:
            0.03592235 = weight(_text_:von in 2078) [ClassicSimilarity], result of:
              0.03592235 = score(doc=2078,freq=8.0), product of:
                0.121865906 = queryWeight, product of:
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.045677755 = queryNorm
                0.29476947 = fieldWeight in 2078, product of:
                  2.828427 = tf(freq=8.0), with freq of:
                    8.0 = termFreq=8.0
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=2078)
          0.5 = coord(1/2)
      0.33333334 = coord(1/3)
    
    Abstract
    Die Bewertung der Indexierungsqualität bzw. -güte ist ein grundlegendes Problem von manuellen und automatischen Indexierungsverfahren. Letztere werden aber gerade im digitalen Zeitalter als einzige Möglichkeit angesehen, den zunehmenden Schwierigkeiten bibliothekarischer Informationsstrukturierung gerecht zu werden. Diese Arbeit befasst sich mit der Funktionsweise, Implementierung und Evaluierung der Sacherschließungssoftware MindServer Categorizer, der Firma Recommind, an der Deutschen Zentralbibliothek für Wirtschaftswissenschaften (ZBW). Grundlage der maschinellen Sacherschließung und anschließenden quantitativen und qualitativen Auswertung bilden rund 39.000 wirtschaftswissenschaftliche Dokumente aus den Datenbanken Econis und EconStor. Unter Zuhilfenahme des rund 6.000 Deskriptoren umfassenden Standard-Thesaurus Wirtschaft (STW) wird der ursprünglich rein statistische Indexierungsansatz des MindServer Categorizer zu einem begriffsorientierten Verfahren weiterentwickelt und zur Inhaltserschließung digitaler Informationsressourcen eingesetzt. Der zentrale Fokus dieser Arbeit liegt vor allem auf der Evaluierung der maschinell beschlagworteten Titel, in Anlehnung und entsprechender Anpassung der von Stock (2008) und Lancaster (2003) hierzu vorgeschlagenen Kriterien: Indexierungskonsistenz, -tiefe, -breite, -spezifität, -effektivität. Zusätzlich wird die Belegungsbilanz des STW evaluiert und es erfolgt ferner eine stichprobenartige, qualitative Bewertung der Ergebnisse seitens der zuständigen Fachreferenten und -referentinnen.
    Content
    Vgl. unter: http://edoc.hu-berlin.de/series/berliner-handreichungen/2010-284/PDF/284.pdf. Auch als: Automatische Indexierung von Dokumenten in einer wissenschaftlichen Bibliothek: Implementierung und Evaluierung am Beispiel der Deutschen Zentralbibliothek für Wirtschaftswissenschaften. Diplomica Verlag, 2011.
  18. Halip, I.: Automatische Extrahierung von Schlagworten aus unstrukturierten Texten (2005) 0.01
    0.0053549875 = product of:
      0.016064962 = sum of:
        0.016064962 = product of:
          0.032129925 = sum of:
            0.032129925 = weight(_text_:von in 861) [ClassicSimilarity], result of:
              0.032129925 = score(doc=861,freq=10.0), product of:
                0.121865906 = queryWeight, product of:
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.045677755 = queryNorm
                0.26364982 = fieldWeight in 861, product of:
                  3.1622777 = tf(freq=10.0), with freq of:
                    10.0 = termFreq=10.0
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.03125 = fieldNorm(doc=861)
          0.5 = coord(1/2)
      0.33333334 = coord(1/3)
    
    Abstract
    Durch die zunehmende Mediatisierung und Digitalisierung wird die moderne Gesellschaft immer mehr mit dem Thema der Informationsüberflutung konfrontiert. Erstaunlicherweise führt der Zuwachs an Informationen gleichzeitig zu einem Mangel an Wissen. Die Erklärung kann darin gefunden werden, dass ein großer Teil der existierenden Informationen nicht aufgefunden werden kann. Es handelt sich meistens um Informationen die auf semi- und nichtstrukturierte Daten beruhen. Schätzungen zufolge sind heute rund 80% der entscheidungsrelevanten Informationen in Unternehmen in unstrukturierter, d. h. meist textueller Form vorhanden. Die Unfähigkeit der Maschinen den Inhalt unstrukturierter Texte zu verstehen führt dazu, dass dokumentiertes Wissen schwer auffindbar ist und oft unentdeckt bleibt. Wegen des Informationsvolumens, das meistens zu groß ist, um gelesen, verstanden oder sogar benutzt zu werden, ergibt sich folgendes Problem, mit dem man konfrontiert wird: Informationen die nicht in Wissen umgewandelt werden können, bleiben als papiergebundene oder digitale Dokumente in Data-Repositories verschlossen. Angesichts der heute anfallenden Menge an Dokumenten erscheint eine manuelle Vergabe von Schlagworten nicht mehr realistisch. Deshalb entwickelt Wissensmanagement unterstützende Verfahren, die Informationen rechtzeitig, in der richtigen Qualität und den richtigen Personen verfügbar machen. Einige Schwerpunkte an denen zur Zeit geforscht wird, sind Modelle zur Repräsentation von Dokumenten, Methoden zur Ähnlichkeitsbestimmung von Anfragen zu Dokumenten und zur Indexierung von Dokumentenmengen, sowie die automatische Klassifikation. Vor diesem Hintergrund konzentriert sich diese Arbeit auf die unterschiedlichen Verfahren der automatischen Indexierung, hebt die algorithmischen Vor- und Nachteile hervor, mit dem Ziel die Funktionsweise im Bereich der unstrukturierten Texte zu analysieren. Hierfür erfolgt im 3. Kapitel eine genauere Untersuchung und Darstellung automatischer Indexierungsverfahren. Zuvor werden in Kapitel 2 grundlegende Begrifflichkeiten erklärt, eingeordnet und abgegrenzt. Abschließend werden anhand der theoretischen Darlegung Implementierungen der vorgestellten Verfahren kurz beschrieben. Die Ausarbeitung endet mit der Schlussfolgerung und dem Ausblick.
  19. Siegmüller, R.: Verfahren der automatischen Indexierung in bibliotheksbezogenen Anwendungen : Funktion und Qualität (2007) 0.00
    0.0047896467 = product of:
      0.014368939 = sum of:
        0.014368939 = product of:
          0.028737878 = sum of:
            0.028737878 = weight(_text_:von in 1407) [ClassicSimilarity], result of:
              0.028737878 = score(doc=1407,freq=2.0), product of:
                0.121865906 = queryWeight, product of:
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.045677755 = queryNorm
                0.23581557 = fieldWeight in 1407, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.0625 = fieldNorm(doc=1407)
          0.5 = coord(1/2)
      0.33333334 = coord(1/3)
    
    Abstract
    Die Arbeit beschäftigt sich mit den Verfahren der automatischen Indexierung und ihrem Einsatz in wissenschaftlichen Bibliotheken. Der Aspekt wird nicht nur im Hinblick auf den klassischen Online-Katalog, sondern auch auf die im Rahmen des Internet und der Digitalisierung sich ergebende Ausweitung bibliothekarischer Angebote betrachtet. Durch die Entwicklung zu Portalen, zu einer intensiveren Erschließung und zur Integration von Netzpublikationen ergeben sich neue Rahmenbedingungen für das Thema. Eine Auswahl konkret eingesetzter Verfahren wird hinsichtlich ihres spezifischen Ansatzes, des aktuellen Standes und der Perspektiven im Bibliotheksbereich diskutiert.
  20. Mittelbach, J.; Probst, M.: Möglichkeiten und Grenzen maschineller Indexierung in der Sacherschließung : Strategien für das Bibliothekssystem der Freien Universität Berlin (2006) 0.00
    0.0042334897 = product of:
      0.012700468 = sum of:
        0.012700468 = product of:
          0.025400937 = sum of:
            0.025400937 = weight(_text_:von in 1411) [ClassicSimilarity], result of:
              0.025400937 = score(doc=1411,freq=4.0), product of:
                0.121865906 = queryWeight, product of:
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.045677755 = queryNorm
                0.2084335 = fieldWeight in 1411, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  2.6679487 = idf(docFreq=8340, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=1411)
          0.5 = coord(1/2)
      0.33333334 = coord(1/3)
    
    Abstract
    Automatische Indexierung wird zunehmend als sinnvolle Möglichkeit erkannt, Daten für Informationsretrievalsysteme zu erzeugen und somit die Auffindbarkeit von Do-kumenten zu erhöhen. Die dafür geeigneten Methoden sind seit geraumer Zeit bekannt und umfassen statistische bzw. computerlinguistische Sprachanalysetechniken, die im Gegensatz zur gebräuchlichen Freitextinvertierung entscheidende Vor-teile hinsichtlich des Retrievals bieten. So bilden erst die Wortformenreduzierung und die semantische Zerlegung sowie die Gewichtung der ermittelten Indexterme die Grundlagen für die gezielte sachliche Suche im Online-Katalog. Entsprechende Ver-fahren, die sich für Bibliotheken eignen, stehen seit Mitte der neunziger Jahre auch für den praktischen Einsatz bereit und werden - nicht zuletzt aufgrund steigender Akzeptanz - ständig weiterentwickelt. Dabei geht es nicht nur um die Steigerung der allgemeinen Leistungsfähigkeit von maschinellen Indexierungssystemen, sondern auch um ihre Fähigkeit, die im Bibliothekswesen verfügbare, sehr heterogene Daten-grundlage optimal zu nutzen. Wichtige Kriterien sind zudem eine vertretbare Fehler-quote, die Integrierbarkeit in die Geschäftsgänge und die Darstellbarkeit der anfal-lenden Datenmengen in entsprechenden Datenrepräsentationsmodellen. Im Fokus der Untersuchung stehen die allgemeine Betrachtung der Vor- und Nachteile der beiden gängigen Indexierungssysteme MILOS und intelligentCAPTURE sowie die Möglichkeiten und Grenzen ihres Einsatzes im Bibliothekssystem der Freien Universität Berlin. Diese Veröffentlichung geht zurück auf eine Master-Arbeit im postgradualen Fernstudiengang Master of Arts (Library and Information Science) an der Humboldt-Universität zu Berlin. Online-Version: http://www.ib.hu-berlin.de/~kumlau/handreichungen/h183/