Search (11 results, page 1 of 1)

Lepsky, K.; Vorhauer, J.: Lingo - ein open source System für die Automatische Indexierung deutschsprachiger Dokumente (2006) 0.09

0.08618581 = product of:
  0.17237163 = sum of:
    0.17237163 = sum of:
      0.11703885 = weight(_text_:dokumente in 3581) [ClassicSimilarity], result of:
        0.11703885 = score(doc=3581,freq=2.0), product of:
          0.25999573 = queryWeight, product of:
            5.092943 = idf(docFreq=737, maxDocs=44218)
            0.05105019 = queryNorm
          0.45015684 = fieldWeight in 3581, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            5.092943 = idf(docFreq=737, maxDocs=44218)
            0.0625 = fieldNorm(doc=3581)
      0.05533277 = weight(_text_:22 in 3581) [ClassicSimilarity], result of:
        0.05533277 = score(doc=3581,freq=2.0), product of:
          0.17876907 = queryWeight, product of:
            3.5018296 = idf(docFreq=3622, maxDocs=44218)
            0.05105019 = queryNorm
          0.30952093 = fieldWeight in 3581, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            3.5018296 = idf(docFreq=3622, maxDocs=44218)
            0.0625 = fieldNorm(doc=3581)
  0.5 = coord(1/2)

Date: 24. 3.2006 12:22:02

Nohr, H.: Grundlagen der automatischen Indexierung : ein Lehrbuch (2003) 0.04
```
0.043092906 = product of:
  0.08618581 = sum of:
    0.08618581 = sum of:
      0.058519427 = weight(_text_:dokumente in 1767) [ClassicSimilarity], result of:
        0.058519427 = score(doc=1767,freq=2.0), product of:
          0.25999573 = queryWeight, product of:
            5.092943 = idf(docFreq=737, maxDocs=44218)
            0.05105019 = queryNorm
          0.22507842 = fieldWeight in 1767, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            5.092943 = idf(docFreq=737, maxDocs=44218)
            0.03125 = fieldNorm(doc=1767)
      0.027666384 = weight(_text_:22 in 1767) [ClassicSimilarity], result of:
        0.027666384 = score(doc=1767,freq=2.0), product of:
          0.17876907 = queryWeight, product of:
            3.5018296 = idf(docFreq=3622, maxDocs=44218)
            0.05105019 = queryNorm
          0.15476047 = fieldWeight in 1767, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            3.5018296 = idf(docFreq=3622, maxDocs=44218)
            0.03125 = fieldNorm(doc=1767)
  0.5 = coord(1/2)
```
Date

22. 6.2009 12:46:51

Footnote

Im fünften Kapitel "Information Extraction" geht Nohr auf eine Problemstellung ein, die in der Fachwelt eine noch stärkere Betonung verdiente: "Die stetig ansteigende Zahl elektronischer Dokumente macht neben einer automatischen Erschließung auch eine automatische Gewinnung der relevanten Informationen aus diesen Dokumenten wünschenswert, um diese z.B. für weitere Bearbeitungen oder Auswertungen in betriebliche Informationssysteme übernehmen zu können." (S. 103) "Indexierung und Retrievalverfahren" als voneinander abhängige Verfahren werden im sechsten Kapitel behandelt. Hier stehen Relevance Ranking und Relevance Feedback sowie die Anwendung informationslinguistischer Verfahren in der Recherche im Mittelpunkt. Die "Evaluation automatischer Indexierung" setzt den thematischen Schlusspunkt. Hier geht es vor allem um die Oualität einer Indexierung, um gängige Retrievalmaße in Retrievaltest und deren Einssatz. Weiterhin ist hervorzuheben, dass jedes Kapitel durch die Vorgabe von Lernzielen eingeleitet wird und zu den jeweiligen Kapiteln (im hinteren Teil des Buches) einige Kontrollfragen gestellt werden. Die sehr zahlreichen Beispiele aus der Praxis, ein Abkürzungsverzeichnis und ein Sachregister erhöhen den Nutzwert des Buches. Die Lektüre förderte beim Rezensenten das Verständnis für die Zusammenhänge von BID-Handwerkzeug, Wirtschaftsinformatik (insbesondere Data Warehousing) und Künstlicher Intelligenz. Die "Grundlagen der automatischen Indexierung" sollte auch in den bibliothekarischen Studiengängen zur Pflichtlektüre gehören. Holger Nohrs Lehrbuch ist auch für den BID-Profi geeignet, um die mehr oder weniger fundierten Kenntnisse auf dem Gebiet "automatisches Indexieren" schnell, leicht verständlich und informativ aufzufrischen."
Nohr, H.: Theorie des Information Retrieval II : Automatische Indexierung (2004) 0.03
```
0.03167457 = product of:
  0.06334914 = sum of:
    0.06334914 = product of:
      0.12669829 = sum of:
        0.12669829 = weight(_text_:dokumente in 8) [ClassicSimilarity], result of:
          0.12669829 = score(doc=8,freq=6.0), product of:
            0.25999573 = queryWeight, product of:
              5.092943 = idf(docFreq=737, maxDocs=44218)
              0.05105019 = queryNorm
            0.4873091 = fieldWeight in 8, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              5.092943 = idf(docFreq=737, maxDocs=44218)
              0.0390625 = fieldNorm(doc=8)
      0.5 = coord(1/2)
  0.5 = coord(1/2)
```
Abstract

Ein großer Teil der Informationen - Schätzungen zufolge bis zu 80% - liegt in Organisationen in unstrukturierten Dokumenten vor. In der Vergangenheit wurden Lösungen für das Management strukturierter Informationen entwickelt, die es nun auch zu erreichen gilt für unstrukturierte Informationen. Neben Verfahren des Data Mining für die Datenanalyse treten Versuche, Text Mining (Lit. 06) auf die Textanalyse anzuwenden. Um gezielt Dokumente im Repository suchen zu können, ist eine effektive Inhaltserkennung und -kennzeichnung erforderlich, d.h. eine Zuordnung der Dokumente zu Themengebieten bzw die Speicherung geeigneter Indexterme als Metadaten. Zu diesem Zweck müssen die Dokumenteninhalte repräsentiert, d.h. indexiert oder klassifiziert, werden. Dokumentanalyse dient auch der Steuerung des Informations- und Dokumentenflusses. Ziel ist die Einleitung eines "Workflow nach Posteingang". Eine Dokumentanalyse kann anhand erkannter Merkmale Eingangspost automatisch an den Sachbearbeiter oder die zuständige Organisationseinheit (Rechnungen in die Buchhaltung, Aufträge in den Vertrieb) im Unternehmen leiten. Dokumentanalysen werden auch benötigt, wenn Mitarbeiter über einen persönlichen Informationsfilter relevante Dokumente automatisch zugestellt bekommen sollen. Aufgrund der Systemintegration werden Indexierungslösungen in den Funktionsumfang von DMS- bzw. Workflow-Produkten integriert. Eine Architektur solcher Systeme zeigt Abb. 1. Die Architektur zeigt die Indexierungs- bzw. Klassifizierungsfunktion im Zentrum der Anwendung. Dabei erfüllt sie Aufgaben für die Repräsentation von Dokumenten (Metadaten) und das spätere Retrieval.

Hlava, M.M.K.: Automatic indexing : comparing rule-based and statistics-based indexing systems (2005) 0.02

0.024208086 = product of:
  0.04841617 = sum of:
    0.04841617 = product of:
      0.09683234 = sum of:
        0.09683234 = weight(_text_:22 in 6265) [ClassicSimilarity], result of:
          0.09683234 = score(doc=6265,freq=2.0), product of:
            0.17876907 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.05105019 = queryNorm
            0.5416616 = fieldWeight in 6265, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.109375 = fieldNorm(doc=6265)
      0.5 = coord(1/2)
  0.5 = coord(1/2)

Source: Information outlook. 9(2005) no.8, S.22-23

Hauer, M.: Automatische Indexierung (2000) 0.02

0.020749787 = product of:
  0.041499574 = sum of:
    0.041499574 = product of:
      0.08299915 = sum of:
        0.08299915 = weight(_text_:22 in 5887) [ClassicSimilarity], result of:
          0.08299915 = score(doc=5887,freq=2.0), product of:
            0.17876907 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.05105019 = queryNorm
            0.46428138 = fieldWeight in 5887, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.09375 = fieldNorm(doc=5887)
      0.5 = coord(1/2)
  0.5 = coord(1/2)

Source: Wissen in Aktion: Wege des Knowledge Managements. 22. Online-Tagung der DGI, Frankfurt am Main, 2.-4.5.2000. Proceedings. Hrsg.: R. Schmidt

Lohmann, H.: KASCADE: Dokumentanreicherung und automatische Inhaltserschließung : Projektbericht und Ergebnisse des Retrievaltests (2000) 0.02
```
0.018103525 = product of:
  0.03620705 = sum of:
    0.03620705 = product of:
      0.0724141 = sum of:
        0.0724141 = weight(_text_:dokumente in 494) [ClassicSimilarity], result of:
          0.0724141 = score(doc=494,freq=4.0), product of:
            0.25999573 = queryWeight, product of:
              5.092943 = idf(docFreq=737, maxDocs=44218)
              0.05105019 = queryNorm
            0.27852035 = fieldWeight in 494, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              5.092943 = idf(docFreq=737, maxDocs=44218)
              0.02734375 = fieldNorm(doc=494)
      0.5 = coord(1/2)
  0.5 = coord(1/2)
```
Abstract

Verbesserungen des Gewichtungsverfahrens sollten schließlich unterstützt werden durch Maßnahmen zur Optimierung der Retrievalumgebung, etwa durch - den Einsatz von Hypertextwerkzeugen; - die Integration der THEAS-Komponente, mit der die automatische Mehrwortgruppengewinnung mit Hilfe eines Mehrwortgruppen-Parsers möglich ist; dies könnte im Rahmen der Dialogführung mit dem Nutzer eingesetzt werden, wenn dieser Teilkomponenten solcher Mehrwortgruppen im Retrieval verwendet. Mit THEAS wäre daneben der Einstieg in das Retrieval über das Register mit kanonischen Formen möglich; - die Integration von Wörterbuchfunktionen zur Benutzerunterstützung. Eine Weiterentwicklung des SELIX-Verfahrens könnte daneben in diese Richtungen erfolgen: - Bildung von Dokument-Clustern. Dabei werden Dokumente in einem Dokumenten-Raum einander in dem Maße zugeordnet, in dem ihre selektierten Grundformen übereinstimmen. - Errichtung von statistisch basierten semantischen Netzen, in denen Grundformen einander in einem Begriffs-Raum in dem Maße zugeordnet werden, in dem sie "gemeinsam" in Dokumenten auftreten.
Da sich mit jedem Dokument, das zu dem im Gewichtungsverfahren befindlichen Gesamtbestand hinzukommt, die Werte aller bereits gewichteten Deskriptoren ändern können, müsste die Berechnung der Häufigkeitsverteilung jeder Grundform im Prinzip nach jeder Änderung im Dokumentbestand neu berechnet werden. Eine Online-Aktualisierung des Bestandes erscheint daher wenig sinnvoll. In der Praxis könnte eine Neuberechnung in bestimmten zeitlichen Abständen mit einem Abzug des OPAC-Bestandes unabhängig vom eigentlichen Betrieb des OPAC erfolgen, was auch insofern genügen würde, als die zugrunde liegenden Maße auf relativen Häufigkeiten basieren. Dadurch würde nur ein geringer Verzug in der Bereitstellung der aktuellen Gewichte eintreten. Außerdem würde der Zeitfaktor eine nur untergeordnete Rolle spielen, da ein offline ablaufender Gewichtungslauf erst bis zum nächsten Aktualisierungszeitpunkt abgeschlossen sein müsste. Denkbar wäre zusätzlich, für die Zeit zwischen zwei Aktualisierungen des OPACs für die in den Neuzugängen enthaltenen Begriffe Standardgewichte einzusetzen, soweit diese Begriffe bereits in dem Bestand auftreten. Bei entsprechender Optimierung und Rationalisierung der SELIX-Verfahrensabläufe, Nutzung der Gewichte auf der Retrievalseite für ein Ranking der auszugebenden Dokumente und Integration der THEAS-Komponente kann das Verfahren zu einem wirkungsvollen Instrument zur Verbesserung der Retrievaleffektivität weiterentwickelt werden.
Halip, I.: Automatische Extrahierung von Schlagworten aus unstrukturierten Texten (2005) 0.01
```
0.014629857 = product of:
  0.029259713 = sum of:
    0.029259713 = product of:
      0.058519427 = sum of:
        0.058519427 = weight(_text_:dokumente in 861) [ClassicSimilarity], result of:
          0.058519427 = score(doc=861,freq=2.0), product of:
            0.25999573 = queryWeight, product of:
              5.092943 = idf(docFreq=737, maxDocs=44218)
              0.05105019 = queryNorm
            0.22507842 = fieldWeight in 861, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.092943 = idf(docFreq=737, maxDocs=44218)
              0.03125 = fieldNorm(doc=861)
      0.5 = coord(1/2)
  0.5 = coord(1/2)
```
Abstract

Durch die zunehmende Mediatisierung und Digitalisierung wird die moderne Gesellschaft immer mehr mit dem Thema der Informationsüberflutung konfrontiert. Erstaunlicherweise führt der Zuwachs an Informationen gleichzeitig zu einem Mangel an Wissen. Die Erklärung kann darin gefunden werden, dass ein großer Teil der existierenden Informationen nicht aufgefunden werden kann. Es handelt sich meistens um Informationen die auf semi- und nichtstrukturierte Daten beruhen. Schätzungen zufolge sind heute rund 80% der entscheidungsrelevanten Informationen in Unternehmen in unstrukturierter, d. h. meist textueller Form vorhanden. Die Unfähigkeit der Maschinen den Inhalt unstrukturierter Texte zu verstehen führt dazu, dass dokumentiertes Wissen schwer auffindbar ist und oft unentdeckt bleibt. Wegen des Informationsvolumens, das meistens zu groß ist, um gelesen, verstanden oder sogar benutzt zu werden, ergibt sich folgendes Problem, mit dem man konfrontiert wird: Informationen die nicht in Wissen umgewandelt werden können, bleiben als papiergebundene oder digitale Dokumente in Data-Repositories verschlossen. Angesichts der heute anfallenden Menge an Dokumenten erscheint eine manuelle Vergabe von Schlagworten nicht mehr realistisch. Deshalb entwickelt Wissensmanagement unterstützende Verfahren, die Informationen rechtzeitig, in der richtigen Qualität und den richtigen Personen verfügbar machen. Einige Schwerpunkte an denen zur Zeit geforscht wird, sind Modelle zur Repräsentation von Dokumenten, Methoden zur Ähnlichkeitsbestimmung von Anfragen zu Dokumenten und zur Indexierung von Dokumentenmengen, sowie die automatische Klassifikation. Vor diesem Hintergrund konzentriert sich diese Arbeit auf die unterschiedlichen Verfahren der automatischen Indexierung, hebt die algorithmischen Vor- und Nachteile hervor, mit dem Ziel die Funktionsweise im Bereich der unstrukturierten Texte zu analysieren. Hierfür erfolgt im 3. Kapitel eine genauere Untersuchung und Darstellung automatischer Indexierungsverfahren. Zuvor werden in Kapitel 2 grundlegende Begrifflichkeiten erklärt, eingeordnet und abgegrenzt. Abschließend werden anhand der theoretischen Darlegung Implementierungen der vorgestellten Verfahren kurz beschrieben. Die Ausarbeitung endet mit der Schlussfolgerung und dem Ausblick.

Probst, M.; Mittelbach, J.: Maschinelle Indexierung in der Sacherschließung wissenschaftlicher Bibliotheken (2006) 0.01

0.013833192 = product of:
  0.027666384 = sum of:
    0.027666384 = product of:
      0.05533277 = sum of:
        0.05533277 = weight(_text_:22 in 1755) [ClassicSimilarity], result of:
          0.05533277 = score(doc=1755,freq=2.0), product of:
            0.17876907 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.05105019 = queryNorm
            0.30952093 = fieldWeight in 1755, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0625 = fieldNorm(doc=1755)
      0.5 = coord(1/2)
  0.5 = coord(1/2)

Date: 22. 3.2008 12:35:19

Renz, M.: Automatische Inhaltserschließung im Zeichen von Wissensmanagement (2001) 0.01

0.012104043 = product of:
  0.024208086 = sum of:
    0.024208086 = product of:
      0.04841617 = sum of:
        0.04841617 = weight(_text_:22 in 5671) [ClassicSimilarity], result of:
          0.04841617 = score(doc=5671,freq=2.0), product of:
            0.17876907 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.05105019 = queryNorm
            0.2708308 = fieldWeight in 5671, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0546875 = fieldNorm(doc=5671)
      0.5 = coord(1/2)
  0.5 = coord(1/2)

Date: 22. 3.2001 13:14:48

Newman, D.J.; Block, S.: Probabilistic topic decomposition of an eighteenth-century American newspaper (2006) 0.01

0.012104043 = product of:
  0.024208086 = sum of:
    0.024208086 = product of:
      0.04841617 = sum of:
        0.04841617 = weight(_text_:22 in 5291) [ClassicSimilarity], result of:
          0.04841617 = score(doc=5291,freq=2.0), product of:
            0.17876907 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.05105019 = queryNorm
            0.2708308 = fieldWeight in 5291, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0546875 = fieldNorm(doc=5291)
      0.5 = coord(1/2)
  0.5 = coord(1/2)

Date: 22. 7.2006 17:32:00

Lorenz, S.: Konzeption und prototypische Realisierung einer begriffsbasierten Texterschließung (2006) 0.01

0.010374893 = product of:
  0.020749787 = sum of:
    0.020749787 = product of:
      0.041499574 = sum of:
        0.041499574 = weight(_text_:22 in 1746) [ClassicSimilarity], result of:
          0.041499574 = score(doc=1746,freq=2.0), product of:
            0.17876907 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.05105019 = queryNorm
            0.23214069 = fieldWeight in 1746, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.046875 = fieldNorm(doc=1746)
      0.5 = coord(1/2)
  0.5 = coord(1/2)

Date: 22. 3.2015 9:17:30

Search (11 results, page 1 of 1)

Authors

Languages

Types

Themes

Classifications