Search (14 results, page 1 of 1)

Mittelbach, J.; Probst, M.: Möglichkeiten und Grenzen maschineller Indexierung in der Sacherschließung : Strategien für das Bibliothekssystem der Freien Universität Berlin (2006) 0.01

0.0145176435 = product of:
  0.08347645 = sum of:
    0.019186692 = weight(_text_:und in 1411) [ClassicSimilarity], result of:
      0.019186692 = score(doc=1411,freq=18.0), product of:
        0.052235067 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.023567878 = queryNorm
        0.3673144 = fieldWeight in 1411, product of:
          4.2426405 = tf(freq=18.0), with freq of:
            18.0 = termFreq=18.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1411)
    0.012935456 = product of:
      0.025870912 = sum of:
        0.025870912 = weight(_text_:bibliothekswesen in 1411) [ClassicSimilarity], result of:
          0.025870912 = score(doc=1411,freq=2.0), product of:
            0.10505787 = queryWeight, product of:
              4.457672 = idf(docFreq=1392, maxDocs=44218)
              0.023567878 = queryNorm
            0.24625391 = fieldWeight in 1411, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              4.457672 = idf(docFreq=1392, maxDocs=44218)
              0.0390625 = fieldNorm(doc=1411)
      0.5 = coord(1/2)
    0.025870912 = weight(_text_:bibliothekswesen in 1411) [ClassicSimilarity], result of:
      0.025870912 = score(doc=1411,freq=2.0), product of:
        0.10505787 = queryWeight, product of:
          4.457672 = idf(docFreq=1392, maxDocs=44218)
          0.023567878 = queryNorm
        0.24625391 = fieldWeight in 1411, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.457672 = idf(docFreq=1392, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1411)
    0.025483383 = weight(_text_:im in 1411) [ClassicSimilarity], result of:
      0.025483383 = score(doc=1411,freq=12.0), product of:
        0.066621356 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.023567878 = queryNorm
        0.38251072 = fieldWeight in 1411, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1411)
  0.17391305 = coord(4/23)

Abstract: Automatische Indexierung wird zunehmend als sinnvolle Möglichkeit erkannt, Daten für Informationsretrievalsysteme zu erzeugen und somit die Auffindbarkeit von Do-kumenten zu erhöhen. Die dafür geeigneten Methoden sind seit geraumer Zeit bekannt und umfassen statistische bzw. computerlinguistische Sprachanalysetechniken, die im Gegensatz zur gebräuchlichen Freitextinvertierung entscheidende Vor-teile hinsichtlich des Retrievals bieten. So bilden erst die Wortformenreduzierung und die semantische Zerlegung sowie die Gewichtung der ermittelten Indexterme die Grundlagen für die gezielte sachliche Suche im Online-Katalog. Entsprechende Ver-fahren, die sich für Bibliotheken eignen, stehen seit Mitte der neunziger Jahre auch für den praktischen Einsatz bereit und werden - nicht zuletzt aufgrund steigender Akzeptanz - ständig weiterentwickelt. Dabei geht es nicht nur um die Steigerung der allgemeinen Leistungsfähigkeit von maschinellen Indexierungssystemen, sondern auch um ihre Fähigkeit, die im Bibliothekswesen verfügbare, sehr heterogene Daten-grundlage optimal zu nutzen. Wichtige Kriterien sind zudem eine vertretbare Fehler-quote, die Integrierbarkeit in die Geschäftsgänge und die Darstellbarkeit der anfal-lenden Datenmengen in entsprechenden Datenrepräsentationsmodellen. Im Fokus der Untersuchung stehen die allgemeine Betrachtung der Vor- und Nachteile der beiden gängigen Indexierungssysteme MILOS und intelligentCAPTURE sowie die Möglichkeiten und Grenzen ihres Einsatzes im Bibliothekssystem der Freien Universität Berlin. Diese Veröffentlichung geht zurück auf eine Master-Arbeit im postgradualen Fernstudiengang Master of Arts (Library and Information Science) an der Humboldt-Universität zu Berlin. Online-Version: http://www.ib.hu-berlin.de/~kumlau/handreichungen/h183/

Schneider, A.: Moderne Retrievalverfahren in klassischen bibliotheksbezogenen Anwendungen : Projekte und Perspektiven (2008) 0.01
```
0.010250856 = product of:
  0.0785899 = sum of:
    0.021095669 = weight(_text_:und in 4031) [ClassicSimilarity], result of:
      0.021095669 = score(doc=4031,freq=34.0), product of:
        0.052235067 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.023567878 = queryNorm
        0.40386027 = fieldWeight in 4031, product of:
          5.8309517 = tf(freq=34.0), with freq of:
            34.0 = termFreq=34.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=4031)
    0.0298905 = weight(_text_:informationswissenschaft in 4031) [ClassicSimilarity], result of:
      0.0298905 = score(doc=4031,freq=4.0), product of:
        0.10616633 = queryWeight, product of:
          4.504705 = idf(docFreq=1328, maxDocs=44218)
          0.023567878 = queryNorm
        0.28154406 = fieldWeight in 4031, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          4.504705 = idf(docFreq=1328, maxDocs=44218)
          0.03125 = fieldNorm(doc=4031)
    0.027603732 = weight(_text_:im in 4031) [ClassicSimilarity], result of:
      0.027603732 = score(doc=4031,freq=22.0), product of:
        0.066621356 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.023567878 = queryNorm
        0.4143376 = fieldWeight in 4031, product of:
          4.690416 = tf(freq=22.0), with freq of:
            22.0 = termFreq=22.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.03125 = fieldNorm(doc=4031)
  0.13043478 = coord(3/23)
```
Abstract

Die vorliegende Arbeit beschäftigt sich mit modernen Retrievalverfahren in klassischen bibliotheksbezogenen Anwendungen. Wie die Verbindung der beiden gegensätzlich scheinenden Wortgruppen im Titel zeigt, werden in der Arbeit Aspekte aus der Informatik bzw. Informationswissenschaft mit Aspekten aus der Bibliothekstradition verknüpft. Nach einer kurzen Schilderung der Ausgangslage, der so genannten Informationsflut, im ersten Kapitel stellt das zweite Kapitel eine Einführung in die Theorie des Information Retrieval dar. Im Einzelnen geht es um die Grundlagen von Information Retrieval und Information-Retrieval-Systemen sowie um die verschiedenen Möglichkeiten der Informationserschließung. Hier werden Formal- und Sacherschließung, Indexierung und automatische Indexierung behandelt. Des Weiteren werden im Rahmen der Theorie des Information Retrieval unterschiedliche Information-Retrieval-Modelle und die Evaluation durch Retrievaltests vorgestellt. Nach der Theorie folgt im dritten Kapitel die Praxis des Information Retrieval. Es werden die organisationsinterne Anwendung, die Anwendung im Informations- und Dokumentationsbereich sowie die Anwendung im Bibliotheksbereich unterschieden. Die organisationsinterne Anwendung wird durch das Beispiel der Datenbank KURS zur Aus- und Weiterbildung veranschaulicht. Die Anwendung im Bibliotheksbereich bezieht sich in erster Linie auf den OPAC als Kompromiss zwischen bibliothekarischer Indexierung und Endnutzeranforderungen und auf seine Anreicherung (sog. Catalogue Enrichment), um das Retrieval zu verbessern. Der Bibliotheksbereich wird ausführlicher behandelt, indem ein Rückblick auf abgeschlossene Projekte zu Informations- und Indexierungssystemen aus den Neunziger Jahren (OSIRIS, MILOS I und II, KASCADE) sowie ein Einblick in aktuelle Projekte gegeben werden. In den beiden folgenden Kapiteln wird je ein aktuelles Projekt zur Verbesserung des Retrievals durch Kataloganreicherung, automatische Erschließung und fortschrittliche Retrievalverfahren präsentiert: das Suchportal dandelon.com und das 180T-Projekt des Hochschulbibliothekszentrums des Landes Nordrhein-Westfalen. Hierbei werden jeweils Projektziel, Projektpartner, Projektorganisation, Projektverlauf und die verwendete Technologie vorgestellt. Die Projekte unterscheiden sich insofern, dass in dem einen Fall eine große Verbundzentrale die Projektkoordination übernimmt, im anderen Fall jede einzelne teilnehmende Bibliothek selbst für die Durchführung verantwortlich ist. Im sechsten und letzten Kapitel geht es um das Fazit und die Perspektiven. Es werden sowohl die beiden beschriebenen Projekte bewertet als auch ein Ausblick auf Entwicklungen bezüglich des Bibliothekskatalogs gegeben. Diese Veröffentlichung geht zurück auf eine Master-Arbeit im postgradualen Fernstudiengang Master of Arts (Library and Information Science) an der Humboldt-Universität zu Berlin.

Imprint

Berlin : Institut für Bibliotheks- und Informationswissenschaft der Humboldt-Universität zu Berlin
Scherer, B.: Automatische Indexierung und ihre Anwendung im DFG-Projekt "Gemeinsames Portal für Bibliotheken, Archive und Museen (BAM)" (2003) 0.01
```
0.0095367115 = product of:
  0.07311479 = sum of:
    0.021211687 = weight(_text_:und in 4283) [ClassicSimilarity], result of:
      0.021211687 = score(doc=4283,freq=22.0), product of:
        0.052235067 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.023567878 = queryNorm
        0.40608138 = fieldWeight in 4283, product of:
          4.690416 = tf(freq=22.0), with freq of:
            22.0 = termFreq=22.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=4283)
    0.026419718 = weight(_text_:informationswissenschaft in 4283) [ClassicSimilarity], result of:
      0.026419718 = score(doc=4283,freq=2.0), product of:
        0.10616633 = queryWeight, product of:
          4.504705 = idf(docFreq=1328, maxDocs=44218)
          0.023567878 = queryNorm
        0.24885213 = fieldWeight in 4283, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.504705 = idf(docFreq=1328, maxDocs=44218)
          0.0390625 = fieldNorm(doc=4283)
    0.025483383 = weight(_text_:im in 4283) [ClassicSimilarity], result of:
      0.025483383 = score(doc=4283,freq=12.0), product of:
        0.066621356 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.023567878 = queryNorm
        0.38251072 = fieldWeight in 4283, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0390625 = fieldNorm(doc=4283)
  0.13043478 = coord(3/23)
```
Abstract

Automatische Indexierung verzeichnet schon seit einigen Jahren aufgrund steigender Informationsflut ein wachsendes Interesse. Allerdings gibt es immer noch Vorbehalte gegenüber der intellektuellen Indexierung in Bezug auf Qualität und größerem Aufwand der Systemimplementierung bzw. -pflege. Neuere Entwicklungen aus dem Bereich des Wissensmanagements, wie beispielsweise Verfahren aus der Künstlichen Intelligenz, der Informationsextraktion, dem Text Mining bzw. der automatischen Klassifikation sollen die automatische Indexierung aufwerten und verbessern. Damit soll eine intelligentere und mehr inhaltsbasierte Erschließung geleistet werden. In dieser Masterarbeit wird außerhalb der Darstellung von Grundlagen und Verfahren der automatischen Indexierung sowie neueren Entwicklungen auch Möglichkeiten der Evaluation dargestellt. Die mögliche Anwendung der automatischen Indexierung im DFG-ProjektGemeinsames Portal für Bibliotheken, Archive und Museen (BAM)" bilden den Schwerpunkt der Arbeit. Im Portal steht die bibliothekarische Erschließung von Texten im Vordergrund. In einem umfangreichen Test werden drei deutsche, linguistische Systeme mit statistischen Verfahren kombiniert (die aber teilweise im System bereits integriert ist) und evaluiert, allerdings nur auf der Basis der ausgegebenen Indexate. Abschließend kann festgestellt werden, dass die Ergebnisse und damit die Qualität (bezogen auf die Indexate) von intellektueller und automatischer Indexierung noch signifikant unterschiedlich sind. Die Gründe liegen in noch zu lösenden semantischen Problemen bzw, in der Obereinstimmung mit Worten aus einem Thesaurus, die von einem automatischen Indexierungssystem nicht immer nachvollzogen werden kann. Eine Inhaltsanreicherung mit den Indexaten zum Vorteil beim Retrieval kann, je nach System oder auch über die Einbindung durch einen Thesaurus, erreicht werden.

Footnote

Masterarbeit im Studiengang Information Engineering zur Erlagung des Grades eines Master of Science in Information science,

Imprint

Konstanz : Universität / Fachbereich Informatik und Informationswissenschaft

Nicoletti, M.: Automatische Indexierung (2001) 0.01

0.006336546 = product of:
  0.07287028 = sum of:
    0.015349354 = weight(_text_:und in 4326) [ClassicSimilarity], result of:
      0.015349354 = score(doc=4326,freq=2.0), product of:
        0.052235067 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.023567878 = queryNorm
        0.29385152 = fieldWeight in 4326, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.09375 = fieldNorm(doc=4326)
    0.057520926 = sum of:
      0.018855637 = weight(_text_:1 in 4326) [ClassicSimilarity], result of:
        0.018855637 = score(doc=4326,freq=2.0), product of:
          0.057894554 = queryWeight, product of:
            2.4565027 = idf(docFreq=10304, maxDocs=44218)
            0.023567878 = queryNorm
          0.32568932 = fieldWeight in 4326, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            2.4565027 = idf(docFreq=10304, maxDocs=44218)
            0.09375 = fieldNorm(doc=4326)
      0.038665287 = weight(_text_:29 in 4326) [ClassicSimilarity], result of:
        0.038665287 = score(doc=4326,freq=2.0), product of:
          0.08290443 = queryWeight, product of:
            3.5176873 = idf(docFreq=3565, maxDocs=44218)
            0.023567878 = queryNorm
          0.46638384 = fieldWeight in 4326, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            3.5176873 = idf(docFreq=3565, maxDocs=44218)
            0.09375 = fieldNorm(doc=4326)
  0.08695652 = coord(2/23)

Content: Inhalt: 1. Aufgabe - 2. Ermittlung von Mehrwortgruppen - 2.1 Definition - 3. Kennzeichnung der Mehrwortgruppen - 4. Grundformen - 5. Term- und Dokumenthäufigkeit --- Termgewichtung - 6. Steuerungsinstrument Schwellenwert - 7. Invertierter Index. Vgl. unter: http://www.grin.com/de/e-book/104966/automatische-indexierung.
Date: 29. 9.2017 12:00:04

Lorenz, S.: Konzeption und prototypische Realisierung einer begriffsbasierten Texterschließung (2006) 0.01

0.0062008775 = product of:
  0.04754006 = sum of:
    0.020305287 = weight(_text_:und in 1746) [ClassicSimilarity], result of:
      0.020305287 = score(doc=1746,freq=14.0), product of:
        0.052235067 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.023567878 = queryNorm
        0.38872904 = fieldWeight in 1746, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.046875 = fieldNorm(doc=1746)
    0.017655406 = weight(_text_:im in 1746) [ClassicSimilarity], result of:
      0.017655406 = score(doc=1746,freq=4.0), product of:
        0.066621356 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.023567878 = queryNorm
        0.26501122 = fieldWeight in 1746, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.046875 = fieldNorm(doc=1746)
    0.009579366 = product of:
      0.019158732 = sum of:
        0.019158732 = weight(_text_:22 in 1746) [ClassicSimilarity], result of:
          0.019158732 = score(doc=1746,freq=2.0), product of:
            0.08253069 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.023567878 = queryNorm
            0.23214069 = fieldWeight in 1746, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.046875 = fieldNorm(doc=1746)
      0.5 = coord(1/2)
  0.13043478 = coord(3/23)

Abstract: Im Rahmen dieser Arbeit wird eine Vorgehensweise entwickelt, die die Fixierung auf das Wort und die damit verbundenen Schwächen überwindet. Sie gestattet die Extraktion von Informationen anhand der repräsentierten Begriffe und bildet damit die Basis einer inhaltlichen Texterschließung. Die anschließende prototypische Realisierung dient dazu, die Konzeption zu überprüfen sowie ihre Möglichkeiten und Grenzen abzuschätzen und zu bewerten. Arbeiten zum Information Extraction widmen sich fast ausschließlich dem Englischen, wobei insbesondere im Bereich der Named Entities sehr gute Ergebnisse erzielt werden. Deutlich schlechter sehen die Resultate für weniger regelmäßige Sprachen wie beispielsweise das Deutsche aus. Aus diesem Grund sowie praktischen Erwägungen wie insbesondere der Vertrautheit des Autors damit, soll diese Sprache primär Gegenstand der Untersuchungen sein. Die Lösung von einer engen Termorientierung bei gleichzeitiger Betonung der repräsentierten Begriffe legt nahe, dass nicht nur die verwendeten Worte sekundär werden sondern auch die verwendete Sprache. Um den Rahmen dieser Arbeit nicht zu sprengen wird bei der Untersuchung dieses Punktes das Augenmerk vor allem auf die mit unterschiedlichen Sprachen verbundenen Schwierigkeiten und Besonderheiten gelegt.
Content: Dissertation an der Universität Trier - Fachbereich IV - zur Erlangung der Würde eines Doktors der Wirtschafts- und Sozialwissenschaften. Vgl.: http://ubt.opus.hbz-nrw.de/volltexte/2006/377/pdf/LorenzSaschaDiss.pdf.
Date: 22. 3.2015 9:17:30

Siegmüller, R.: Verfahren der automatischen Indexierung in bibliotheksbezogenen Anwendungen : Funktion und Qualität (2007) 0.00

0.00449675 = product of:
  0.051712625 = sum of:
    0.022881467 = weight(_text_:und in 1407) [ClassicSimilarity], result of:
      0.022881467 = score(doc=1407,freq=10.0), product of:
        0.052235067 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.023567878 = queryNorm
        0.438048 = fieldWeight in 1407, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0625 = fieldNorm(doc=1407)
    0.02883116 = weight(_text_:im in 1407) [ClassicSimilarity], result of:
      0.02883116 = score(doc=1407,freq=6.0), product of:
        0.066621356 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.023567878 = queryNorm
        0.43276152 = fieldWeight in 1407, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0625 = fieldNorm(doc=1407)
  0.08695652 = coord(2/23)

Abstract: Die Arbeit beschäftigt sich mit den Verfahren der automatischen Indexierung und ihrem Einsatz in wissenschaftlichen Bibliotheken. Der Aspekt wird nicht nur im Hinblick auf den klassischen Online-Katalog, sondern auch auf die im Rahmen des Internet und der Digitalisierung sich ergebende Ausweitung bibliothekarischer Angebote betrachtet. Durch die Entwicklung zu Portalen, zu einer intensiveren Erschließung und zur Integration von Netzpublikationen ergeben sich neue Rahmenbedingungen für das Thema. Eine Auswahl konkret eingesetzter Verfahren wird hinsichtlich ihres spezifischen Ansatzes, des aktuellen Standes und der Perspektiven im Bibliotheksbereich diskutiert.

Kumpe, D.: Methoden zur automatischen Indexierung von Dokumenten (2006) 0.00
```
0.0037286382 = product of:
  0.04287934 = sum of:
    0.02831437 = weight(_text_:und in 782) [ClassicSimilarity], result of:
      0.02831437 = score(doc=782,freq=20.0), product of:
        0.052235067 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.023567878 = queryNorm
        0.54205674 = fieldWeight in 782, product of:
          4.472136 = tf(freq=20.0), with freq of:
            20.0 = termFreq=20.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0546875 = fieldNorm(doc=782)
    0.014564968 = weight(_text_:im in 782) [ClassicSimilarity], result of:
      0.014564968 = score(doc=782,freq=2.0), product of:
        0.066621356 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.023567878 = queryNorm
        0.2186231 = fieldWeight in 782, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0546875 = fieldNorm(doc=782)
  0.08695652 = coord(2/23)
```
Abstract

Diese Diplomarbeit handelt von der Indexierung von unstrukturierten und natürlichsprachigen Dokumenten. Die zunehmende Informationsflut und die Zahl an veröffentlichten wissenschaftlichen Berichten und Büchern machen eine maschinelle inhaltliche Erschließung notwendig. Um die Anforderungen hierfür besser zu verstehen, werden Probleme der natürlichsprachigen schriftlichen Kommunikation untersucht. Die manuellen Techniken der Indexierung und die Dokumentationssprachen werden vorgestellt. Die Indexierung wird thematisch in den Bereich der inhaltlichen Erschließung und des Information Retrieval eingeordnet. Weiterhin werden Vor- und Nachteile von ausgesuchten Algorithmen untersucht und Softwareprodukte im Bereich des Information Retrieval auf ihre Arbeitsweise hin evaluiert. Anhand von Beispiel-Dokumenten werden die Ergebnisse einzelner Verfahren vorgestellt. Mithilfe des Projekts European Migration Network werden Probleme und grundlegende Anforderungen an die Durchführung einer inhaltlichen Erschließung identifiziert und Lösungsmöglichkeiten vorgeschlagen.

Imprint

Berlin : Technische Universität Berlin / Institut für Softwaretechnik und Theoretische Informatik, Computergestützte Informationssysteme
Bachfeld, S.: Möglichkeiten und Grenzen linguistischer Verfahren der automatischen Indexierung : Entwurf einer Simulation für den Einsatz im Grundstudium (2003) 0.00
```
0.003637921 = product of:
  0.04183609 = sum of:
    0.019815931 = weight(_text_:und in 2827) [ClassicSimilarity], result of:
      0.019815931 = score(doc=2827,freq=30.0), product of:
        0.052235067 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.023567878 = queryNorm
        0.3793607 = fieldWeight in 2827, product of:
          5.477226 = tf(freq=30.0), with freq of:
            30.0 = termFreq=30.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=2827)
    0.022020161 = weight(_text_:im in 2827) [ClassicSimilarity], result of:
      0.022020161 = score(doc=2827,freq=14.0), product of:
        0.066621356 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.023567878 = queryNorm
        0.33052707 = fieldWeight in 2827, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.03125 = fieldNorm(doc=2827)
  0.08695652 = coord(2/23)
```
Abstract

Die Arbeit entwirft ein Konzept für eine Simulation, die als Teil eines ELearning-Moduls die Probleme der automatischen Freitextindexierung und linguistische Verfahren zur Verbesserung der Indexierungsergebnisse veranschaulichen soll. Zielgruppe der Simulation sind die im Studierenden des Fachbereichs Bibliothek und Information der HAW Hamburg, die sich im Grundstudium befinden. Es wird ein inhaltliches Konzept dafür entwickelt, wie die Simulation Vor- und Nachteile regelbasierter und wörterbuchbasierte Indexierungsverfahren für das Grundstudium darstellen kann. Ziel ist zu zeigen, dass regelbasierte Verfahren in einer stark flektierenden und kompositareichen Sprache wie dem Deutschen zu zahlreichen Indexierungsfehlern führen können und dass wörterbuchbasierte Verfahren bessere Indexate liefern. Im zweiten Teil der Arbeit wird eine Informationsarchitektur für die Simulation entworfen und ein Prototyp programmiert, der eine Freitextindexierung und darauf aufbauend ein regelbasiertes Reduktionsverfahren darstellt. Ziel dabei ist insbesondere zu zeigen, dass regelbasierte Indexierungsverfahren für das Deutsche keine befriedigenden Ergebnisse erzielen, und dass wörterbuchbasierte Verfahren im Deutschen zu bevorzugen sind. Vor diesem Hintergrund wird im zweiten Teil der Arbeit ein Prototyp für die Simulation konzipiert, die elektronische Volltexte zunächst nach der Freitextmethode und danach mit linguistischen Verfahren indexiert. Es wird eine Informationsarchitektur entwickelt, die nicht nur anstrebt, der Zielgruppe gerecht zu werden, sondern auch die Vor- und Nachteile der linguistischen Indexierungsverfahren möglichst deutlich zu zeigen. Für die Freitextindexierung als einfachste Form der automatischen Indexierung und für das regelbasierte Verfahren wird auch schon der Programmcode geschrieben. Für die regelbasierte Wortformenreduktion greift die Autorin auf ein schon bestehendes Programm zurück, das Cornelie Ahlfeld 1995 im Rahmen ihrer Diplomarbeit entwickelt hat. Die Autorin versucht, dieses Programm durch eine Präsentation der Indexierungsergebnisse zu ergänzen, die es für den Einsatz in der Lehre nützlich machen.

Footnote

Hausarbeit zur Diplomprüfung an der HAW Hamburg, Fachbereich Bibliothek und Information

Imprint

Hamburg : HAW Hamburg, Fachbereich Bibliothek und Information
Kaufmann, E.: ¬Das Indexieren von natürlichsprachlichen Dokumenten und die inverse Seitenhäufigkeit (2001) 0.00
```
0.0032807104 = product of:
  0.037728168 = sum of:
    0.016921071 = weight(_text_:und in 318) [ClassicSimilarity], result of:
      0.016921071 = score(doc=318,freq=14.0), product of:
        0.052235067 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.023567878 = queryNorm
        0.32394084 = fieldWeight in 318, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=318)
    0.020807097 = weight(_text_:im in 318) [ClassicSimilarity], result of:
      0.020807097 = score(doc=318,freq=8.0), product of:
        0.066621356 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.023567878 = queryNorm
        0.3123187 = fieldWeight in 318, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0390625 = fieldNorm(doc=318)
  0.08695652 = coord(2/23)
```
Abstract

Die Lizentiatsarbeit gibt im ersten theoretischen Teil einen Überblick über das Indexieren von Dokumenten. Sie zeigt die verschiedenen Typen von Indexen sowie die wichtigsten Aspekte bezüglich einer Indexsprache auf. Diverse manuelle und automatische Indexierungsverfahren werden präsentiert. Spezielle Aufmerksamkeit innerhalb des ersten Teils gilt den Schlagwortregistern, deren charakteristische Merkmale und Eigenheiten erörtert werden. Zusätzlich werden die gängigen Kriterien zur Bewertung von Indexen sowie die Masse zur Evaluation von Indexierungsverfahren und Indexierungsergebnissen vorgestellt. Im zweiten Teil der Arbeit werden fünf reale Bücher einer statistischen Untersuchung unterzogen. Zum einen werden die lexikalischen und syntaktischen Bestandteile der fünf Buchregister ermittelt, um den Inhalt von Schlagwortregistern zu erschliessen. Andererseits werden aus den Textausschnitten der Bücher Indexterme maschinell extrahiert und mit den Schlagworteinträgen in den Buchregistern verglichen. Das Hauptziel der Untersuchungen besteht darin, eine Indexierungsmethode, die auf linguistikorientierter Extraktion der Indexterme und Termhäufigkeitsgewichtung basiert, im Hinblick auf ihren Gebrauchswert für eine automatische Indexierung zu testen. Die Gewichtungsmethode ist die inverse Seitenhäufigkeit, eine Methode, welche von der inversen Dokumentfrequenz abgeleitet wurde, zur automatischen Erstellung von Schlagwortregistern für deutschsprachige Texte. Die Prüfung der Methode im statistischen Teil führte nicht zu zufriedenstellenden Resultaten.
Halip, I.: Automatische Extrahierung von Schlagworten aus unstrukturierten Texten (2005) 0.00
```
0.002660454 = product of:
  0.03059522 = sum of:
    0.01617964 = weight(_text_:und in 861) [ClassicSimilarity], result of:
      0.01617964 = score(doc=861,freq=20.0), product of:
        0.052235067 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.023567878 = queryNorm
        0.3097467 = fieldWeight in 861, product of:
          4.472136 = tf(freq=20.0), with freq of:
            20.0 = termFreq=20.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=861)
    0.01441558 = weight(_text_:im in 861) [ClassicSimilarity], result of:
      0.01441558 = score(doc=861,freq=6.0), product of:
        0.066621356 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.023567878 = queryNorm
        0.21638076 = fieldWeight in 861, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.03125 = fieldNorm(doc=861)
  0.08695652 = coord(2/23)
```
Abstract

Durch die zunehmende Mediatisierung und Digitalisierung wird die moderne Gesellschaft immer mehr mit dem Thema der Informationsüberflutung konfrontiert. Erstaunlicherweise führt der Zuwachs an Informationen gleichzeitig zu einem Mangel an Wissen. Die Erklärung kann darin gefunden werden, dass ein großer Teil der existierenden Informationen nicht aufgefunden werden kann. Es handelt sich meistens um Informationen die auf semi- und nichtstrukturierte Daten beruhen. Schätzungen zufolge sind heute rund 80% der entscheidungsrelevanten Informationen in Unternehmen in unstrukturierter, d. h. meist textueller Form vorhanden. Die Unfähigkeit der Maschinen den Inhalt unstrukturierter Texte zu verstehen führt dazu, dass dokumentiertes Wissen schwer auffindbar ist und oft unentdeckt bleibt. Wegen des Informationsvolumens, das meistens zu groß ist, um gelesen, verstanden oder sogar benutzt zu werden, ergibt sich folgendes Problem, mit dem man konfrontiert wird: Informationen die nicht in Wissen umgewandelt werden können, bleiben als papiergebundene oder digitale Dokumente in Data-Repositories verschlossen. Angesichts der heute anfallenden Menge an Dokumenten erscheint eine manuelle Vergabe von Schlagworten nicht mehr realistisch. Deshalb entwickelt Wissensmanagement unterstützende Verfahren, die Informationen rechtzeitig, in der richtigen Qualität und den richtigen Personen verfügbar machen. Einige Schwerpunkte an denen zur Zeit geforscht wird, sind Modelle zur Repräsentation von Dokumenten, Methoden zur Ähnlichkeitsbestimmung von Anfragen zu Dokumenten und zur Indexierung von Dokumentenmengen, sowie die automatische Klassifikation. Vor diesem Hintergrund konzentriert sich diese Arbeit auf die unterschiedlichen Verfahren der automatischen Indexierung, hebt die algorithmischen Vor- und Nachteile hervor, mit dem Ziel die Funktionsweise im Bereich der unstrukturierten Texte zu analysieren. Hierfür erfolgt im 3. Kapitel eine genauere Untersuchung und Darstellung automatischer Indexierungsverfahren. Zuvor werden in Kapitel 2 grundlegende Begrifflichkeiten erklärt, eingeordnet und abgegrenzt. Abschließend werden anhand der theoretischen Darlegung Implementierungen der vorgestellten Verfahren kurz beschrieben. Die Ausarbeitung endet mit der Schlussfolgerung und dem Ausblick.

Content

Ausarbeitung im Rahmen des Seminars Suchmaschinen und Suchalgorithmen, Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft, Westfälische Wilhelms-Universität Münster

Pusl, F.: Automatische Indexierung an Bibliotheken - Systeme, Projekte und Einsatzmöglichkeiten (2005) 0.00

0.0011010931 = product of:
  0.025325142 = sum of:
    0.025325142 = weight(_text_:und in 2059) [ClassicSimilarity], result of:
      0.025325142 = score(doc=2059,freq=4.0), product of:
        0.052235067 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.023567878 = queryNorm
        0.4848303 = fieldWeight in 2059, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.109375 = fieldNorm(doc=2059)
  0.04347826 = coord(1/23)

Imprint: Köln : FH, Fakultät für Informations- und Kommunikationswissenschaften

Schröther, C.: Automatische Indexierung, Kategorisierung und inhaltliche Erschließung von Textnachrichten (2003) 0.00

7.7859045E-4 = product of:
  0.01790758 = sum of:
    0.01790758 = weight(_text_:und in 521) [ClassicSimilarity], result of:
      0.01790758 = score(doc=521,freq=2.0), product of:
        0.052235067 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.023567878 = queryNorm
        0.34282678 = fieldWeight in 521, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.109375 = fieldNorm(doc=521)
  0.04347826 = coord(1/23)

Yusuff, A.: Automatisches Indexing and Abstracting : Grundlagen und Beispiele (2002) 0.00

7.7859045E-4 = product of:
  0.01790758 = sum of:
    0.01790758 = weight(_text_:und in 1577) [ClassicSimilarity], result of:
      0.01790758 = score(doc=1577,freq=2.0), product of:
        0.052235067 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.023567878 = queryNorm
        0.34282678 = fieldWeight in 1577, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.109375 = fieldNorm(doc=1577)
  0.04347826 = coord(1/23)

Maas, J.: Anforderungsanalyse für den Einsatz eines (semi)automatischen Indexierungsverfahrens in der Textdokumentation des ZDF (2002) 0.00

6.6736323E-4 = product of:
  0.015349354 = sum of:
    0.015349354 = weight(_text_:und in 1785) [ClassicSimilarity], result of:
      0.015349354 = score(doc=1785,freq=2.0), product of:
        0.052235067 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.023567878 = queryNorm
        0.29385152 = fieldWeight in 1785, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.09375 = fieldNorm(doc=1785)
  0.04347826 = coord(1/23)

Imprint: Potsdam : Fachhochschule, Institut für Information und Dokumentation

Search (14 results, page 1 of 1)

Authors

Themes