Document (#29199)

Author
Hoffmann, R.
Title
Entwicklung einer benutzerunterstützten automatisierten Klassifikation von Web - Dokumenten : Untersuchung gegenwärtiger Methoden zur automatisierten Dokumentklassifikation und Implementierung eines Prototyps zum verbesserten Information Retrieval für das xFIND System
Imprint
Graz : Technischen Universität, Institut für Informationsverarbeitung und Computerunterstützte neue Medien (IICM)
Year
2002
Pages
210 S
Abstract
Das unüberschaubare und permanent wachsende Angebot von Informationen im Internet ermöglicht es den Menschen nicht mehr, dieses inhaltlich zu erfassen oder gezielt nach Informationen zu suchen. Einen Lösungsweg zur verbesserten Informationsauffindung stellt hierbei die Kategorisierung bzw. Klassifikation der Informationen auf Basis ihres thematischen Inhaltes dar. Diese thematische Klassifikation kann sowohl anhand manueller (intellektueller) Methoden als auch durch automatisierte Verfahren erfolgen. Doch beide Ansätze für sich konnten die an sie gestellten Erwartungen bis zum heutigen Tag nur unzureichend erfüllen. Im Rahmen dieser Arbeit soll daher der naheliegende Ansatz, die beiden Methoden sinnvoll zu verknüpfen, untersucht werden. Im ersten Teil dieser Arbeit, dem Untersuchungsbereich, wird einleitend das Problem des Informationsüberangebots in unserer Gesellschaft erläutert und gezeigt, dass die Kategorisierung bzw. Klassifikation dieser Informationen speziell im Internet sinnvoll erscheint. Die prinzipiellen Möglichkeiten der Themenzuordnung von Dokumenten zur Verbesserung der Wissensverwaltung und Wissensauffindung werden beschrieben. Dabei werden unter anderem verschiedene Klassifikationsschemata, Topic Maps und semantische Netze vorgestellt. Schwerpunkt des Untersuchungsbereiches ist die Beschreibung automatisierter Methoden zur Themenzuordnung. Neben einem Überblick über die gebräuchlichsten Klassifikations-Algorithmen werden sowohl am Markt existierende Systeme sowie Forschungsansätze und frei verfügbare Module zur automatischen Klassifikation vorgestellt. Berücksichtigt werden auch Systeme, die zumindest teilweise den erwähnten Ansatz der Kombination von manuellen und automatischen Methoden unterstützen. Auch die in Zusammenhang mit der Klassifikation von Dokumenten im Internet auftretenden Probleme werden aufgezeigt. Die im Untersuchungsbereich gewonnenen Erkenntnisse fließen in die Entwicklung eines Moduls zur benutzerunterstützten, automatischen Dokumentklassifikation im Rahmen des xFIND Systems (extended Framework for Information Discovery) ein. Dieses an der technischen Universität Graz konzipierte Framework stellt die Basis für eine Vielzahl neuer Ideen zur Verbesserung des Information Retrieval dar. Der im Gestaltungsbereich entwickelte Lösungsansatz sieht zunächst die Verwendung bereits im System vorhandener, manuell klassifizierter Dokumente, Server oder Serverbereiche als Grundlage für die automatische Klassifikation vor. Nach erfolgter automatischer Klassifikation können in einem nächsten Schritt dann Autoren und Administratoren die Ergebnisse im Rahmen einer Benutzerunterstützung anpassen. Dabei kann das kollektive Benutzerverhalten durch die Möglichkeit eines Votings - mittels Zustimmung bzw. Ablehnung der Klassifikationsergebnisse - Einfluss finden. Das Wissen von Fachexperten und Benutzern trägt somit letztendlich zur Verbesserung der automatischen Klassifikation bei. Im Gestaltungsbereich werden die grundlegenden Konzepte, der Aufbau und die Funktionsweise des entwickelten Moduls beschrieben, sowie eine Reihe von Vorschlägen und Ideen zur Weiterentwicklung der benutzerunterstützten automatischen Dokumentklassifikation präsentiert.
Content
Auch unter: http://www2.iicm.edu/cguetl/education/thesis/rhoff
Footnote
Diplomarbeit an der Technischen Universität Graz, Institut für Informationsverarbeitung und Computerunterstützte neue Medien (IICM)
Theme
Automatisches Klassifizieren
Object
xFind

Similar documents (author)

  1. Hoffmann, L.: Wie unordentlich darf ein Katalog sein? (1991) 4.69
    4.6934686 = sum of:
      4.6934686 = weight(author_txt:hoffmann in 957) [ClassicSimilarity], result of:
        4.6934686 = fieldWeight in 957, product of:
          1.0 = tf(freq=1.0), with freq of:
            1.0 = termFreq=1.0
          7.5095496 = idf(docFreq=62, maxDocs=42306)
          0.625 = fieldNorm(doc=957)
    
  2. Hoffmann, H.: Descriptive Cataloging in a new light : polemical chapters for librarians (1976) 4.69
    4.6934686 = sum of:
      4.6934686 = weight(author_txt:hoffmann in 3497) [ClassicSimilarity], result of:
        4.6934686 = fieldWeight in 3497, product of:
          1.0 = tf(freq=1.0), with freq of:
            1.0 = termFreq=1.0
          7.5095496 = idf(docFreq=62, maxDocs=42306)
          0.625 = fieldNorm(doc=3497)
    
  3. Hoffmann, J.: ¬Die Welt der Begriffe : Psychologische Untersuchungen zur Organisation des menschlichen Wissens (1986) 4.69
    4.6934686 = sum of:
      4.6934686 = weight(author_txt:hoffmann in 5430) [ClassicSimilarity], result of:
        4.6934686 = fieldWeight in 5430, product of:
          1.0 = tf(freq=1.0), with freq of:
            1.0 = termFreq=1.0
          7.5095496 = idf(docFreq=62, maxDocs=42306)
          0.625 = fieldNorm(doc=5430)
    
  4. Hoffmann, H.W.: Vom Bandkatalog zum OPAC (1995) 4.69
    4.6934686 = sum of:
      4.6934686 = weight(author_txt:hoffmann in 5661) [ClassicSimilarity], result of:
        4.6934686 = fieldWeight in 5661, product of:
          1.0 = tf(freq=1.0), with freq of:
            1.0 = termFreq=1.0
          7.5095496 = idf(docFreq=62, maxDocs=42306)
          0.625 = fieldNorm(doc=5661)
    
  5. Hoffmann, B.: Auswahlbibliographie zur Theorie und Praxis des Auskunftsdienstes (1978) 4.69
    4.6934686 = sum of:
      4.6934686 = weight(author_txt:hoffmann in 5747) [ClassicSimilarity], result of:
        4.6934686 = fieldWeight in 5747, product of:
          1.0 = tf(freq=1.0), with freq of:
            1.0 = termFreq=1.0
          7.5095496 = idf(docFreq=62, maxDocs=42306)
          0.625 = fieldNorm(doc=5747)
    

Similar documents (content)

  1. Diemer, A.: Gegenstandstheoretische Grundlagen der Klassifikation (1977) 0.47
    0.47240946 = sum of:
      0.47240946 = product of:
        1.9683728 = sum of:
          0.022572903 = weight(abstract_txt:auch in 1521) [ClassicSimilarity], result of:
            0.022572903 = score(doc=1521,freq=1.0), product of:
              0.06375808 = queryWeight, product of:
                1.0705404 = boost
                3.7764254 = idf(docFreq=2633, maxDocs=42306)
                0.015770711 = queryNorm
              0.35403988 = fieldWeight in 1521, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                3.7764254 = idf(docFreq=2633, maxDocs=42306)
                0.09375 = fieldNorm(doc=1521)
          0.065829694 = weight(abstract_txt:beschrieben in 1521) [ClassicSimilarity], result of:
            0.065829694 = score(doc=1521,freq=1.0), product of:
              0.113691434 = queryWeight, product of:
                1.1672226 = boost
                6.1762204 = idf(docFreq=238, maxDocs=42306)
                0.015770711 = queryNorm
              0.5790207 = fieldWeight in 1521, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                6.1762204 = idf(docFreq=238, maxDocs=42306)
                0.09375 = fieldNorm(doc=1521)
          0.057433855 = weight(abstract_txt:eines in 1521) [ClassicSimilarity], result of:
            0.057433855 = score(doc=1521,freq=2.0), product of:
              0.0943146 = queryWeight, product of:
                1.3020416 = boost
                4.5930667 = idf(docFreq=1163, maxDocs=42306)
                0.015770711 = queryNorm
              0.6089604 = fieldWeight in 1521, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                4.5930667 = idf(docFreq=1163, maxDocs=42306)
                0.09375 = fieldNorm(doc=1521)
          0.06747768 = weight(abstract_txt:rahmen in 1521) [ClassicSimilarity], result of:
            0.06747768 = score(doc=1521,freq=1.0), product of:
              0.13230728 = queryWeight, product of:
                1.5421524 = boost
                5.4400783 = idf(docFreq=498, maxDocs=42306)
                0.015770711 = queryNorm
              0.5100073 = fieldWeight in 1521, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                5.4400783 = idf(docFreq=498, maxDocs=42306)
                0.09375 = fieldNorm(doc=1521)
          0.096215755 = weight(abstract_txt:werden in 1521) [ClassicSimilarity], result of:
            0.096215755 = score(doc=1521,freq=5.0), product of:
              0.13000998 = queryWeight, product of:
                2.335136 = boost
                3.530313 = idf(docFreq=3368, maxDocs=42306)
                0.015770711 = queryNorm
              0.7400644 = fieldWeight in 1521, product of:
                2.236068 = tf(freq=5.0), with freq of:
                  5.0 = termFreq=5.0
                3.530313 = idf(docFreq=3368, maxDocs=42306)
                0.09375 = fieldNorm(doc=1521)
          1.6588429 = weight(title_txt:klassifikation in 1521) [ClassicSimilarity], result of:
            1.6588429 = score(doc=1521,freq=1.0), product of:
              0.52851224 = queryWeight, product of:
                5.3385534 = boost
                6.2774057 = idf(docFreq=215, maxDocs=42306)
                0.015770711 = queryNorm
              3.1387029 = fieldWeight in 1521, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                6.2774057 = idf(docFreq=215, maxDocs=42306)
                0.5 = fieldNorm(doc=1521)
        0.24 = coord(6/25)
    
  2. Manecke, H.-J.: Klassifikation, Klassieren (2004) 0.44
    0.43641287 = sum of:
      0.43641287 = product of:
        2.1820643 = sum of:
          0.0112864515 = weight(abstract_txt:auch in 3903) [ClassicSimilarity], result of:
            0.0112864515 = score(doc=3903,freq=1.0), product of:
              0.06375808 = queryWeight, product of:
                1.0705404 = boost
                3.7764254 = idf(docFreq=2633, maxDocs=42306)
                0.015770711 = queryNorm
              0.17701994 = fieldWeight in 3903, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                3.7764254 = idf(docFreq=2633, maxDocs=42306)
                0.046875 = fieldNorm(doc=3903)
          0.025478274 = weight(abstract_txt:dieser in 3903) [ClassicSimilarity], result of:
            0.025478274 = score(doc=3903,freq=2.0), product of:
              0.08708305 = queryWeight, product of:
                1.2511295 = boost
                4.4134693 = idf(docFreq=1392, maxDocs=42306)
                0.015770711 = queryNorm
              0.29257444 = fieldWeight in 3903, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                4.4134693 = idf(docFreq=1392, maxDocs=42306)
                0.046875 = fieldNorm(doc=3903)
          0.028716927 = weight(abstract_txt:eines in 3903) [ClassicSimilarity], result of:
            0.028716927 = score(doc=3903,freq=2.0), product of:
              0.0943146 = queryWeight, product of:
                1.3020416 = boost
                4.5930667 = idf(docFreq=1163, maxDocs=42306)
                0.015770711 = queryNorm
              0.3044802 = fieldWeight in 3903, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                4.5930667 = idf(docFreq=1163, maxDocs=42306)
                0.046875 = fieldNorm(doc=3903)
          0.04302899 = weight(abstract_txt:werden in 3903) [ClassicSimilarity], result of:
            0.04302899 = score(doc=3903,freq=4.0), product of:
              0.13000998 = queryWeight, product of:
                2.335136 = boost
                3.530313 = idf(docFreq=3368, maxDocs=42306)
                0.015770711 = queryNorm
              0.33096683 = fieldWeight in 3903, product of:
                2.0 = tf(freq=4.0), with freq of:
                  4.0 = termFreq=4.0
                3.530313 = idf(docFreq=3368, maxDocs=42306)
                0.046875 = fieldNorm(doc=3903)
          2.0735536 = weight(title_txt:klassifikation in 3903) [ClassicSimilarity], result of:
            2.0735536 = score(doc=3903,freq=1.0), product of:
              0.52851224 = queryWeight, product of:
                5.3385534 = boost
                6.2774057 = idf(docFreq=215, maxDocs=42306)
                0.015770711 = queryNorm
              3.9233785 = fieldWeight in 3903, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                6.2774057 = idf(docFreq=215, maxDocs=42306)
                0.625 = fieldNorm(doc=3903)
        0.2 = coord(5/25)
    
  3. Oberhauser, O.: Klassifikation in Online-Informationssystemen (1986) 0.38
    0.38138428 = sum of:
      0.38138428 = product of:
        1.9069214 = sum of:
          0.026602423 = weight(abstract_txt:auch in 2589) [ClassicSimilarity], result of:
            0.026602423 = score(doc=2589,freq=2.0), product of:
              0.06375808 = queryWeight, product of:
                1.0705404 = boost
                3.7764254 = idf(docFreq=2633, maxDocs=42306)
                0.015770711 = queryNorm
              0.41724 = fieldWeight in 2589, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                3.7764254 = idf(docFreq=2633, maxDocs=42306)
                0.078125 = fieldNorm(doc=2589)
          0.04246379 = weight(abstract_txt:dieser in 2589) [ClassicSimilarity], result of:
            0.04246379 = score(doc=2589,freq=2.0), product of:
              0.08708305 = queryWeight, product of:
                1.2511295 = boost
                4.4134693 = idf(docFreq=1392, maxDocs=42306)
                0.015770711 = queryNorm
              0.48762408 = fieldWeight in 2589, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                4.4134693 = idf(docFreq=1392, maxDocs=42306)
                0.078125 = fieldNorm(doc=2589)
          0.116905205 = weight(abstract_txt:verbesserung in 2589) [ClassicSimilarity], result of:
            0.116905205 = score(doc=2589,freq=1.0), product of:
              0.21551971 = queryWeight, product of:
                1.9682441 = boost
                6.943154 = idf(docFreq=110, maxDocs=42306)
                0.015770711 = queryNorm
              0.5424339 = fieldWeight in 2589, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                6.943154 = idf(docFreq=110, maxDocs=42306)
                0.078125 = fieldNorm(doc=2589)
          0.062106997 = weight(abstract_txt:werden in 2589) [ClassicSimilarity], result of:
            0.062106997 = score(doc=2589,freq=3.0), product of:
              0.13000998 = queryWeight, product of:
                2.335136 = boost
                3.530313 = idf(docFreq=3368, maxDocs=42306)
                0.015770711 = queryNorm
              0.47770947 = fieldWeight in 2589, product of:
                1.7320508 = tf(freq=3.0), with freq of:
                  3.0 = termFreq=3.0
                3.530313 = idf(docFreq=3368, maxDocs=42306)
                0.078125 = fieldNorm(doc=2589)
          1.6588429 = weight(title_txt:klassifikation in 2589) [ClassicSimilarity], result of:
            1.6588429 = score(doc=2589,freq=1.0), product of:
              0.52851224 = queryWeight, product of:
                5.3385534 = boost
                6.2774057 = idf(docFreq=215, maxDocs=42306)
                0.015770711 = queryNorm
              3.1387029 = fieldWeight in 2589, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                6.2774057 = idf(docFreq=215, maxDocs=42306)
                0.5 = fieldNorm(doc=2589)
        0.2 = coord(5/25)
    
  4. Degens, P.O.: Hierarchische Klassifikation (1980) 0.37
    0.36599976 = sum of:
      0.36599976 = product of:
        2.2874985 = sum of:
          0.026335055 = weight(abstract_txt:auch in 90) [ClassicSimilarity], result of:
            0.026335055 = score(doc=90,freq=1.0), product of:
              0.06375808 = queryWeight, product of:
                1.0705404 = boost
                3.7764254 = idf(docFreq=2633, maxDocs=42306)
                0.015770711 = queryNorm
              0.41304654 = fieldWeight in 90, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                3.7764254 = idf(docFreq=2633, maxDocs=42306)
                0.109375 = fieldNorm(doc=90)
          0.11661553 = weight(abstract_txt:sinnvoll in 90) [ClassicSimilarity], result of:
            0.11661553 = score(doc=90,freq=1.0), product of:
              0.15019412 = queryWeight, product of:
                1.3415791 = boost
                7.0988073 = idf(docFreq=94, maxDocs=42306)
                0.015770711 = queryNorm
              0.77643204 = fieldWeight in 90, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                7.0988073 = idf(docFreq=94, maxDocs=42306)
                0.109375 = fieldNorm(doc=90)
          0.07099422 = weight(abstract_txt:werden in 90) [ClassicSimilarity], result of:
            0.07099422 = score(doc=90,freq=2.0), product of:
              0.13000998 = queryWeight, product of:
                2.335136 = boost
                3.530313 = idf(docFreq=3368, maxDocs=42306)
                0.015770711 = queryNorm
              0.5460675 = fieldWeight in 90, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                3.530313 = idf(docFreq=3368, maxDocs=42306)
                0.109375 = fieldNorm(doc=90)
          2.0735536 = weight(title_txt:klassifikation in 90) [ClassicSimilarity], result of:
            2.0735536 = score(doc=90,freq=1.0), product of:
              0.52851224 = queryWeight, product of:
                5.3385534 = boost
                6.2774057 = idf(docFreq=215, maxDocs=42306)
                0.015770711 = queryNorm
              3.9233785 = fieldWeight in 90, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                6.2774057 = idf(docFreq=215, maxDocs=42306)
                0.625 = fieldNorm(doc=90)
        0.16 = coord(4/25)
    
  5. Panyr, J.: Automatische Indexierung und Klassifikation (1983) 0.35
    0.35297507 = sum of:
      0.35297507 = product of:
        2.2060943 = sum of:
          0.062126733 = weight(abstract_txt:vorgestellt in 762) [ClassicSimilarity], result of:
            0.062126733 = score(doc=762,freq=1.0), product of:
              0.09029695 = queryWeight, product of:
                1.0402228 = boost
                5.5042157 = idf(docFreq=467, maxDocs=42306)
                0.015770711 = queryNorm
              0.68802696 = fieldWeight in 762, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                5.5042157 = idf(docFreq=467, maxDocs=42306)
                0.125 = fieldNorm(doc=762)
          0.05737199 = weight(abstract_txt:werden in 762) [ClassicSimilarity], result of:
            0.05737199 = score(doc=762,freq=1.0), product of:
              0.13000998 = queryWeight, product of:
                2.335136 = boost
                3.530313 = idf(docFreq=3368, maxDocs=42306)
                0.015770711 = queryNorm
              0.44128913 = fieldWeight in 762, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                3.530313 = idf(docFreq=3368, maxDocs=42306)
                0.125 = fieldNorm(doc=762)
          0.4277525 = weight(abstract_txt:automatischen in 762) [ClassicSimilarity], result of:
            0.4277525 = score(doc=762,freq=2.0), product of:
              0.35203493 = queryWeight, product of:
                3.2475264 = boost
                6.873561 = idf(docFreq=118, maxDocs=42306)
                0.015770711 = queryNorm
              1.2150854 = fieldWeight in 762, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                6.873561 = idf(docFreq=118, maxDocs=42306)
                0.125 = fieldNorm(doc=762)
          1.6588429 = weight(title_txt:klassifikation in 762) [ClassicSimilarity], result of:
            1.6588429 = score(doc=762,freq=1.0), product of:
              0.52851224 = queryWeight, product of:
                5.3385534 = boost
                6.2774057 = idf(docFreq=215, maxDocs=42306)
                0.015770711 = queryNorm
              3.1387029 = fieldWeight in 762, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                6.2774057 = idf(docFreq=215, maxDocs=42306)
                0.5 = fieldNorm(doc=762)
        0.16 = coord(4/25)