Search (48 results, page 3 of 3)

Halip, I.: Automatische Extrahierung von Schlagworten aus unstrukturierten Texten (2005) 0.00
```
0.0010904269 = product of:
  0.018537257 = sum of:
    0.018537257 = weight(_text_:und in 861) [ClassicSimilarity], result of:
      0.018537257 = score(doc=861,freq=20.0), product of:
        0.0598465 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027002072 = queryNorm
        0.3097467 = fieldWeight in 861, product of:
          4.472136 = tf(freq=20.0), with freq of:
            20.0 = termFreq=20.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=861)
  0.05882353 = coord(1/17)
```
Abstract

Durch die zunehmende Mediatisierung und Digitalisierung wird die moderne Gesellschaft immer mehr mit dem Thema der Informationsüberflutung konfrontiert. Erstaunlicherweise führt der Zuwachs an Informationen gleichzeitig zu einem Mangel an Wissen. Die Erklärung kann darin gefunden werden, dass ein großer Teil der existierenden Informationen nicht aufgefunden werden kann. Es handelt sich meistens um Informationen die auf semi- und nichtstrukturierte Daten beruhen. Schätzungen zufolge sind heute rund 80% der entscheidungsrelevanten Informationen in Unternehmen in unstrukturierter, d. h. meist textueller Form vorhanden. Die Unfähigkeit der Maschinen den Inhalt unstrukturierter Texte zu verstehen führt dazu, dass dokumentiertes Wissen schwer auffindbar ist und oft unentdeckt bleibt. Wegen des Informationsvolumens, das meistens zu groß ist, um gelesen, verstanden oder sogar benutzt zu werden, ergibt sich folgendes Problem, mit dem man konfrontiert wird: Informationen die nicht in Wissen umgewandelt werden können, bleiben als papiergebundene oder digitale Dokumente in Data-Repositories verschlossen. Angesichts der heute anfallenden Menge an Dokumenten erscheint eine manuelle Vergabe von Schlagworten nicht mehr realistisch. Deshalb entwickelt Wissensmanagement unterstützende Verfahren, die Informationen rechtzeitig, in der richtigen Qualität und den richtigen Personen verfügbar machen. Einige Schwerpunkte an denen zur Zeit geforscht wird, sind Modelle zur Repräsentation von Dokumenten, Methoden zur Ähnlichkeitsbestimmung von Anfragen zu Dokumenten und zur Indexierung von Dokumentenmengen, sowie die automatische Klassifikation. Vor diesem Hintergrund konzentriert sich diese Arbeit auf die unterschiedlichen Verfahren der automatischen Indexierung, hebt die algorithmischen Vor- und Nachteile hervor, mit dem Ziel die Funktionsweise im Bereich der unstrukturierten Texte zu analysieren. Hierfür erfolgt im 3. Kapitel eine genauere Untersuchung und Darstellung automatischer Indexierungsverfahren. Zuvor werden in Kapitel 2 grundlegende Begrifflichkeiten erklärt, eingeordnet und abgegrenzt. Abschließend werden anhand der theoretischen Darlegung Implementierungen der vorgestellten Verfahren kurz beschrieben. Die Ausarbeitung endet mit der Schlussfolgerung und dem Ausblick.

Content

Ausarbeitung im Rahmen des Seminars Suchmaschinen und Suchalgorithmen, Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft, Westfälische Wilhelms-Universität Münster

Maas, J.: Anforderungsanalyse für den Einsatz eines (semi)automatischen Indexierungsverfahrens in der Textdokumentation des ZDF (2002) 0.00

0.0010344697 = product of:
  0.017585985 = sum of:
    0.017585985 = weight(_text_:und in 1785) [ClassicSimilarity], result of:
      0.017585985 = score(doc=1785,freq=2.0), product of:
        0.0598465 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027002072 = queryNorm
        0.29385152 = fieldWeight in 1785, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.09375 = fieldNorm(doc=1785)
  0.05882353 = coord(1/17)

Imprint: Potsdam : Fachhochschule, Institut für Information und Dokumentation

Nicoletti, M.: Automatische Indexierung (2001) 0.00

0.0010344697 = product of:
  0.017585985 = sum of:
    0.017585985 = weight(_text_:und in 4326) [ClassicSimilarity], result of:
      0.017585985 = score(doc=4326,freq=2.0), product of:
        0.0598465 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027002072 = queryNorm
        0.29385152 = fieldWeight in 4326, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.09375 = fieldNorm(doc=4326)
  0.05882353 = coord(1/17)

Content: Inhalt: 1. Aufgabe - 2. Ermittlung von Mehrwortgruppen - 2.1 Definition - 3. Kennzeichnung der Mehrwortgruppen - 4. Grundformen - 5. Term- und Dokumenthäufigkeit --- Termgewichtung - 6. Steuerungsinstrument Schwellenwert - 7. Invertierter Index. Vgl. unter: http://www.grin.com/de/e-book/104966/automatische-indexierung.

Lohmann, H.: KASCADE: Dokumentanreicherung und automatische Inhaltserschließung : Projektbericht und Ergebnisse des Retrievaltests (2000) 0.00
```
0.0010006933 = product of:
  0.017011786 = sum of:
    0.017011786 = weight(_text_:und in 494) [ClassicSimilarity], result of:
      0.017011786 = score(doc=494,freq=22.0), product of:
        0.0598465 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027002072 = queryNorm
        0.28425696 = fieldWeight in 494, product of:
          4.690416 = tf(freq=22.0), with freq of:
            22.0 = termFreq=22.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02734375 = fieldNorm(doc=494)
  0.05882353 = coord(1/17)
```
Abstract

Der Test hat gezeigt, dass die Ergänzung der bibliothekarischen Titelaufnahme um zusätzliche inhaltsrelevante Daten zu einer beeindruckenden Verbesserung der Suchergebnisse führt. Die Dokumentanreicherung sollte daher als Ziel bibliothekarischer Bemühungen um eine Verbesserung des OPAC-Retrievals weiterverfolgt werden. Der im Projekt eingeschlagene Weg, die Inhaltsverzeichnisse zu scannen, erwies sich allerdings als wenig sinnvoll. Zwar erzielte das Scanningverfahren gute Ergebnisse, auch arbeitete die Texterkennungssoftware sehr zuverlässig. Das Scanning bietet darüber hinaus die Möglichkeit, die dabei angefertigte Grafik-Datei mit dem Titelsatz im OPAC zu verknüpfen und so dem Nutzer als Entscheidungshilfe bei der Ergebnismengenbeurteilung an die Hand zu geben. Die Arbeiten am Aufbau der Testdatenbank brachten aber die Erkenntnis, dass die Anreicherung im Wege des Scanning technisch außerordentlich problematisch ist und einen nicht vorauszusehenden und letztlich auch nicht zu rechtfertigenden Aufwand erfordert. Diese Methode der Anreicherung kann daher für einen Praxiseinsatz nicht empfohlen werden.
Abgesehen von diesen Überlegungen müssten für einen praktischen Einsatz der KASCADE-Entwicklungen weitere Voraussetzungen geschaffen werden. Erforderlich wäre zunächst die Optimierung und Rationalisierung der Verfahrensabläufe selbst. Die Teilprogramme unter KasKoll sollten in ein kompaktes Programm integriert werden. Die Sortiervorgänge könnten vereinfacht werden, indem die Deskriptoren in eine relationale Datenbank überführt werden. Letztendlich wirken sich diese Punkte aber vor allem auf die Dauer der Maschinenlaufzeiten aus, die bei der Frage nach den Implementierungskosten letztlich nur eine untergeordnete Rolle spielen. Optimiert werden sollte die Oberfläche zur Steuerung des Verfahrens. Bereits jetzt laufen einige der Programme unter einer menügeführten Windows-Schnittstelle (Kasadew) ab, was für alle Verfahrensteile erreicht werden sollte. Schließlich ist zu klären, unter welchen Bedingungen das Gewichtungsverfahren im Praxisbetrieb ablaufen kann.
Da sich mit jedem Dokument, das zu dem im Gewichtungsverfahren befindlichen Gesamtbestand hinzukommt, die Werte aller bereits gewichteten Deskriptoren ändern können, müsste die Berechnung der Häufigkeitsverteilung jeder Grundform im Prinzip nach jeder Änderung im Dokumentbestand neu berechnet werden. Eine Online-Aktualisierung des Bestandes erscheint daher wenig sinnvoll. In der Praxis könnte eine Neuberechnung in bestimmten zeitlichen Abständen mit einem Abzug des OPAC-Bestandes unabhängig vom eigentlichen Betrieb des OPAC erfolgen, was auch insofern genügen würde, als die zugrunde liegenden Maße auf relativen Häufigkeiten basieren. Dadurch würde nur ein geringer Verzug in der Bereitstellung der aktuellen Gewichte eintreten. Außerdem würde der Zeitfaktor eine nur untergeordnete Rolle spielen, da ein offline ablaufender Gewichtungslauf erst bis zum nächsten Aktualisierungszeitpunkt abgeschlossen sein müsste. Denkbar wäre zusätzlich, für die Zeit zwischen zwei Aktualisierungen des OPACs für die in den Neuzugängen enthaltenen Begriffe Standardgewichte einzusetzen, soweit diese Begriffe bereits in dem Bestand auftreten. Bei entsprechender Optimierung und Rationalisierung der SELIX-Verfahrensabläufe, Nutzung der Gewichte auf der Retrievalseite für ein Ranking der auszugebenden Dokumente und Integration der THEAS-Komponente kann das Verfahren zu einem wirkungsvollen Instrument zur Verbesserung der Retrievaleffektivität weiterentwickelt werden.

Footnote

Zugl.: Köln, Fachhochsch., Fachbereich Bibliotheks- und Informationswesen, Hausarbeit

Imprint

Düsseldorf : Universitäts- und Landesbibliothek

Series

Schriften der Universitäts- und Landesbibliothek Düsseldorf; 31

Zimmermann, H.H.: Möglichkeiten einer computergestützen Sacherschließung (2003) 0.00

9.753074E-4 = product of:
  0.016580226 = sum of:
    0.016580226 = weight(_text_:und in 2375) [ClassicSimilarity], result of:
      0.016580226 = score(doc=2375,freq=4.0), product of:
        0.0598465 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027002072 = queryNorm
        0.27704588 = fieldWeight in 2375, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0625 = fieldNorm(doc=2375)
  0.05882353 = coord(1/17)

Abstract: Prof. Dr. Harald Zimmermann, Universität des Saarlandes, berichtete über zukunftsfähige Erschließungsverfahren, die intellektuelle Leistungen einsparen helfen und trotzdem den Weg zur gewünschten Literatur öffnen können sollen. Er erinnerte an das von Lustig und Knorz in den 80er Jahren entwickelte Verfahren Air/Phys. Dort lernt das System mit dem Anwachsen eines lexikalischen Inventars (ISBN 3-487-07825-2).

Oberhauser, O.; Labner, J.: OPAC-Erweiterung durch automatische Indexierung : Empirische Untersuchung mit Daten aus dem Österreichischen Verbundkatalog (2002) 0.00
```
8.958771E-4 = product of:
  0.015229911 = sum of:
    0.015229911 = weight(_text_:und in 883) [ClassicSimilarity], result of:
      0.015229911 = score(doc=883,freq=6.0), product of:
        0.0598465 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027002072 = queryNorm
        0.2544829 = fieldWeight in 883, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.046875 = fieldNorm(doc=883)
  0.05882353 = coord(1/17)
```
Abstract

In Anlehnung an die in den neunziger Jahren durchgeführten Erschließungsprojekte MILOS I und MILOS II, die die Eignung eines Verfahrens zur automatischen Indexierung für Bibliothekskataloge zum Thema hatten, wurde eine empirische Untersuchung anhand einer repräsentativen Stichprobe von Titelsätzen aus dem Österreichischen Verbundkatalog durchgeführt. Ziel war die Prüfung und Bewertung der Einsatzmöglichkeit dieses Verfahrens in den Online-Katalogen des Verbundes. Der Realsituation der OPAC-Benutzung gemäß wurde ausschließlich die Auswirkung auf den automatisch generierten Begriffen angereicherten Basic Index ("Alle Felder") untersucht. Dazu wurden 100 Suchanfragen zunächst im ursprünglichen Basic Index und sodann im angereicherten Basic Index in einem OPAC unter Aleph 500 durchgeführt. Die Tests erbrachten einen Zuwachs an relevanten Treffern bei nur leichten Verlusten an Precision, eine Reduktion der Nulltreffer-Ergebnisse sowie Aufschlüsse über die Auswirkung einer vorhandenen verbalen Sacherschließung.

Peters, G.: Verschlagwortung und automatische Verfahren in der G+J Dokumentation (2003) 0.00

8.6205814E-4 = product of:
  0.014654988 = sum of:
    0.014654988 = weight(_text_:und in 2377) [ClassicSimilarity], result of:
      0.014654988 = score(doc=2377,freq=2.0), product of:
        0.0598465 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.027002072 = queryNorm
        0.24487628 = fieldWeight in 2377, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.078125 = fieldNorm(doc=2377)
  0.05882353 = coord(1/17)

Newman, D.J.; Block, S.: Probabilistic topic decomposition of an eighteenth-century American newspaper (2006) 0.00

7.532016E-4 = product of:
  0.012804427 = sum of:
    0.012804427 = product of:
      0.025608854 = sum of:
        0.025608854 = weight(_text_:22 in 5291) [ClassicSimilarity], result of:
          0.025608854 = score(doc=5291,freq=2.0), product of:
            0.09455665 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.027002072 = queryNorm
            0.2708308 = fieldWeight in 5291, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0546875 = fieldNorm(doc=5291)
      0.5 = coord(1/2)
  0.05882353 = coord(1/17)

Date: 22. 7.2006 17:32:00

Search (48 results, page 3 of 3)

Authors

Languages

Types

Themes

Subjects

Classifications