Search (208 results, page 1 of 11)

  • × theme_ss:"Automatisches Klassifizieren"
  1. Ruiz, M.E.; Srinivasan, P.: Combining machine learning and hierarchical indexing structures for text categorization (2001) 0.04
    0.04432572 = product of:
      0.06648858 = sum of:
        0.017332384 = weight(_text_:h in 1595) [ClassicSimilarity], result of:
          0.017332384 = score(doc=1595,freq=2.0), product of:
            0.09020387 = queryWeight, product of:
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.03630739 = queryNorm
            0.19214681 = fieldWeight in 1595, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.0546875 = fieldNorm(doc=1595)
        0.030107405 = weight(_text_:u in 1595) [ClassicSimilarity], result of:
          0.030107405 = score(doc=1595,freq=2.0), product of:
            0.11888653 = queryWeight, product of:
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.03630739 = queryNorm
            0.25324488 = fieldWeight in 1595, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.0546875 = fieldNorm(doc=1595)
        0.0074665863 = weight(_text_:a in 1595) [ClassicSimilarity], result of:
          0.0074665863 = score(doc=1595,freq=8.0), product of:
            0.041864127 = queryWeight, product of:
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03630739 = queryNorm
            0.17835285 = fieldWeight in 1595, product of:
              2.828427 = tf(freq=8.0), with freq of:
                8.0 = termFreq=8.0
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.0546875 = fieldNorm(doc=1595)
        0.011582206 = product of:
          0.034746617 = sum of:
            0.034746617 = weight(_text_:29 in 1595) [ClassicSimilarity], result of:
              0.034746617 = score(doc=1595,freq=2.0), product of:
                0.12771805 = queryWeight, product of:
                  3.5176873 = idf(docFreq=3565, maxDocs=44218)
                  0.03630739 = queryNorm
                0.27205724 = fieldWeight in 1595, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5176873 = idf(docFreq=3565, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=1595)
          0.33333334 = coord(1/3)
      0.6666667 = coord(4/6)
    
    Abstract
    This paper presents a method that exploits the hierarchical structure of an indexing vocabulary to guide the development and training of machine learning methods for automatic text categorization. We present the design of a hierarchical classifier based an the divide-and-conquer principle. The method is evaluated using backpropagation neural networks, such as the machine learning algorithm, that leam to assign MeSH categories to a subset of MEDLINE records. Comparisons with traditional Rocchio's algorithm adapted for text categorization, as well as flat neural network classifiers, are provided. The results indicate that the use of hierarchical structures improves Performance significantly.
    Date
    11. 5.2003 18:29:44
    Source
    Advances in classification research, vol.10: proceedings of the 10th ASIS SIG/CR Classification Research Workshop. Ed.: Albrechtsen, H. u. J.E. Mai
    Type
    a
  2. Hotho, A.; Bloehdorn, S.: Data Mining 2004 : Text classification by boosting weak learners based on terms and concepts (2004) 0.03
    0.029743772 = product of:
      0.059487544 = sum of:
        0.043249317 = product of:
          0.17299727 = sum of:
            0.17299727 = weight(_text_:3a in 562) [ClassicSimilarity], result of:
              0.17299727 = score(doc=562,freq=2.0), product of:
                0.30781445 = queryWeight, product of:
                  8.478011 = idf(docFreq=24, maxDocs=44218)
                  0.03630739 = queryNorm
                0.56201804 = fieldWeight in 562, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  8.478011 = idf(docFreq=24, maxDocs=44218)
                  0.046875 = fieldNorm(doc=562)
          0.25 = coord(1/4)
        0.0063999314 = weight(_text_:a in 562) [ClassicSimilarity], result of:
          0.0063999314 = score(doc=562,freq=8.0), product of:
            0.041864127 = queryWeight, product of:
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03630739 = queryNorm
            0.15287387 = fieldWeight in 562, product of:
              2.828427 = tf(freq=8.0), with freq of:
                8.0 = termFreq=8.0
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.046875 = fieldNorm(doc=562)
        0.0098383 = product of:
          0.0295149 = sum of:
            0.0295149 = weight(_text_:22 in 562) [ClassicSimilarity], result of:
              0.0295149 = score(doc=562,freq=2.0), product of:
                0.1271423 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.03630739 = queryNorm
                0.23214069 = fieldWeight in 562, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.046875 = fieldNorm(doc=562)
          0.33333334 = coord(1/3)
      0.5 = coord(3/6)
    
    Abstract
    Document representations for text classification are typically based on the classical Bag-Of-Words paradigm. This approach comes with deficiencies that motivate the integration of features on a higher semantic level than single words. In this paper we propose an enhancement of the classical document representation through concepts extracted from background knowledge. Boosting is used for actual classification. Experimental evaluations on two well known text corpora support our approach through consistent improvement of the results.
    Content
    Vgl.: http://www.google.de/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&ved=0CEAQFjAA&url=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Fdoi%3D10.1.1.91.4940%26rep%3Drep1%26type%3Dpdf&ei=dOXrUMeIDYHDtQahsIGACg&usg=AFQjCNHFWVh6gNPvnOrOS9R3rkrXCNVD-A&sig2=5I2F5evRfMnsttSgFF9g7Q&bvm=bv.1357316858,d.Yms.
    Date
    8. 1.2013 10:22:32
    Type
    a
  3. Wätjen, H.-J.; Diekmann, B.; Möller, G.; Carstensen, K.-U.: Bericht zum DFG-Projekt: GERHARD : German Harvest Automated Retrieval and Directory (1998) 0.02
    0.02259038 = product of:
      0.06777114 = sum of:
        0.024760552 = weight(_text_:h in 3065) [ClassicSimilarity], result of:
          0.024760552 = score(doc=3065,freq=2.0), product of:
            0.09020387 = queryWeight, product of:
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.03630739 = queryNorm
            0.27449545 = fieldWeight in 3065, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.078125 = fieldNorm(doc=3065)
        0.04301058 = weight(_text_:u in 3065) [ClassicSimilarity], result of:
          0.04301058 = score(doc=3065,freq=2.0), product of:
            0.11888653 = queryWeight, product of:
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.03630739 = queryNorm
            0.3617784 = fieldWeight in 3065, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.078125 = fieldNorm(doc=3065)
      0.33333334 = coord(2/6)
    
  4. Reiner, U.: Automatische DDC-Klassifizierung bibliografischer Titeldatensätze der Deutschen Nationalbibliografie (2009) 0.02
    0.020026237 = product of:
      0.040052474 = sum of:
        0.029798606 = weight(_text_:u in 3284) [ClassicSimilarity], result of:
          0.029798606 = score(doc=3284,freq=6.0), product of:
            0.11888653 = queryWeight, product of:
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.03630739 = queryNorm
            0.25064746 = fieldWeight in 3284, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.03125 = fieldNorm(doc=3284)
        0.0036950023 = weight(_text_:a in 3284) [ClassicSimilarity], result of:
          0.0036950023 = score(doc=3284,freq=6.0), product of:
            0.041864127 = queryWeight, product of:
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03630739 = queryNorm
            0.088261776 = fieldWeight in 3284, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03125 = fieldNorm(doc=3284)
        0.006558867 = product of:
          0.019676602 = sum of:
            0.019676602 = weight(_text_:22 in 3284) [ClassicSimilarity], result of:
              0.019676602 = score(doc=3284,freq=2.0), product of:
                0.1271423 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.03630739 = queryNorm
                0.15476047 = fieldWeight in 3284, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.03125 = fieldNorm(doc=3284)
          0.33333334 = coord(1/3)
      0.5 = coord(3/6)
    
    Abstract
    Das Klassifizieren von Objekten (z. B. Fauna, Flora, Texte) ist ein Verfahren, das auf menschlicher Intelligenz basiert. In der Informatik - insbesondere im Gebiet der Künstlichen Intelligenz (KI) - wird u. a. untersucht, inweit Verfahren, die menschliche Intelligenz benötigen, automatisiert werden können. Hierbei hat sich herausgestellt, dass die Lösung von Alltagsproblemen eine größere Herausforderung darstellt, als die Lösung von Spezialproblemen, wie z. B. das Erstellen eines Schachcomputers. So ist "Rybka" der seit Juni 2007 amtierende Computerschach-Weltmeistern. Inwieweit Alltagsprobleme mit Methoden der Künstlichen Intelligenz gelöst werden können, ist eine - für den allgemeinen Fall - noch offene Frage. Beim Lösen von Alltagsproblemen spielt die Verarbeitung der natürlichen Sprache, wie z. B. das Verstehen, eine wesentliche Rolle. Den "gesunden Menschenverstand" als Maschine (in der Cyc-Wissensbasis in Form von Fakten und Regeln) zu realisieren, ist Lenat's Ziel seit 1984. Bezüglich des KI-Paradeprojektes "Cyc" gibt es CycOptimisten und Cyc-Pessimisten. Das Verstehen der natürlichen Sprache (z. B. Werktitel, Zusammenfassung, Vorwort, Inhalt) ist auch beim intellektuellen Klassifizieren von bibliografischen Titeldatensätzen oder Netzpublikationen notwendig, um diese Textobjekte korrekt klassifizieren zu können. Seit dem Jahr 2007 werden von der Deutschen Nationalbibliothek nahezu alle Veröffentlichungen mit der Dewey Dezimalklassifikation (DDC) intellektuell klassifiziert.
    Die Menge der zu klassifizierenden Veröffentlichungen steigt spätestens seit der Existenz des World Wide Web schneller an, als sie intellektuell sachlich erschlossen werden kann. Daher werden Verfahren gesucht, um die Klassifizierung von Textobjekten zu automatisieren oder die intellektuelle Klassifizierung zumindest zu unterstützen. Seit 1968 gibt es Verfahren zur automatischen Dokumentenklassifizierung (Information Retrieval, kurz: IR) und seit 1992 zur automatischen Textklassifizierung (ATC: Automated Text Categorization). Seit immer mehr digitale Objekte im World Wide Web zur Verfügung stehen, haben Arbeiten zur automatischen Textklassifizierung seit ca. 1998 verstärkt zugenommen. Dazu gehören seit 1996 auch Arbeiten zur automatischen DDC-Klassifizierung bzw. RVK-Klassifizierung von bibliografischen Titeldatensätzen und Volltextdokumenten. Bei den Entwicklungen handelt es sich unseres Wissens bislang um experimentelle und keine im ständigen Betrieb befindlichen Systeme. Auch das VZG-Projekt Colibri/DDC ist seit 2006 u. a. mit der automatischen DDC-Klassifizierung befasst. Die diesbezüglichen Untersuchungen und Entwicklungen dienen zur Beantwortung der Forschungsfrage: "Ist es möglich, eine inhaltlich stimmige DDC-Titelklassifikation aller GVK-PLUS-Titeldatensätze automatisch zu erzielen?"
    Date
    22. 1.2010 14:41:24
    Type
    a
  5. Bock, H.-H.: Datenanalyse zur Strukturierung und Ordnung von Information (1989) 0.02
    0.019861503 = product of:
      0.039723005 = sum of:
        0.024511693 = weight(_text_:h in 141) [ClassicSimilarity], result of:
          0.024511693 = score(doc=141,freq=4.0), product of:
            0.09020387 = queryWeight, product of:
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.03630739 = queryNorm
            0.27173662 = fieldWeight in 141, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.0546875 = fieldNorm(doc=141)
        0.0037332932 = weight(_text_:a in 141) [ClassicSimilarity], result of:
          0.0037332932 = score(doc=141,freq=2.0), product of:
            0.041864127 = queryWeight, product of:
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03630739 = queryNorm
            0.089176424 = fieldWeight in 141, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.0546875 = fieldNorm(doc=141)
        0.011478017 = product of:
          0.03443405 = sum of:
            0.03443405 = weight(_text_:22 in 141) [ClassicSimilarity], result of:
              0.03443405 = score(doc=141,freq=2.0), product of:
                0.1271423 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.03630739 = queryNorm
                0.2708308 = fieldWeight in 141, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=141)
          0.33333334 = coord(1/3)
      0.5 = coord(3/6)
    
    Pages
    S.1-22
    Type
    a
  6. Reiner, U.: Automatische DDC-Klassifizierung von bibliografischen Titeldatensätzen (2009) 0.02
    0.019802583 = product of:
      0.05940775 = sum of:
        0.04301058 = weight(_text_:u in 611) [ClassicSimilarity], result of:
          0.04301058 = score(doc=611,freq=2.0), product of:
            0.11888653 = queryWeight, product of:
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.03630739 = queryNorm
            0.3617784 = fieldWeight in 611, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.078125 = fieldNorm(doc=611)
        0.016397167 = product of:
          0.0491915 = sum of:
            0.0491915 = weight(_text_:22 in 611) [ClassicSimilarity], result of:
              0.0491915 = score(doc=611,freq=2.0), product of:
                0.1271423 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.03630739 = queryNorm
                0.38690117 = fieldWeight in 611, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.078125 = fieldNorm(doc=611)
          0.33333334 = coord(1/3)
      0.33333334 = coord(2/6)
    
    Date
    22. 8.2009 12:54:24
  7. Golub, K.; Hansson, J.; Soergel, D.; Tudhope, D.: Managing classification in libraries : a methodological outline for evaluating automatic subject indexing and classification in Swedish library catalogues (2015) 0.02
    0.018660344 = product of:
      0.03732069 = sum of:
        0.02150529 = weight(_text_:u in 2300) [ClassicSimilarity], result of:
          0.02150529 = score(doc=2300,freq=2.0), product of:
            0.11888653 = queryWeight, product of:
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.03630739 = queryNorm
            0.1808892 = fieldWeight in 2300, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.0390625 = fieldNorm(doc=2300)
        0.0075423913 = weight(_text_:a in 2300) [ClassicSimilarity], result of:
          0.0075423913 = score(doc=2300,freq=16.0), product of:
            0.041864127 = queryWeight, product of:
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03630739 = queryNorm
            0.18016359 = fieldWeight in 2300, product of:
              4.0 = tf(freq=16.0), with freq of:
                16.0 = termFreq=16.0
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.0390625 = fieldNorm(doc=2300)
        0.0082730055 = product of:
          0.024819015 = sum of:
            0.024819015 = weight(_text_:29 in 2300) [ClassicSimilarity], result of:
              0.024819015 = score(doc=2300,freq=2.0), product of:
                0.12771805 = queryWeight, product of:
                  3.5176873 = idf(docFreq=3565, maxDocs=44218)
                  0.03630739 = queryNorm
                0.19432661 = fieldWeight in 2300, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5176873 = idf(docFreq=3565, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=2300)
          0.33333334 = coord(1/3)
      0.5 = coord(3/6)
    
    Abstract
    Subject terms play a crucial role in resource discovery but require substantial effort to produce. Automatic subject classification and indexing address problems of scale and sustainability and can be used to enrich existing bibliographic records, establish more connections across and between resources and enhance consistency of bibliographic data. The paper aims to put forward a complex methodological framework to evaluate automatic classification tools of Swedish textual documents based on the Dewey Decimal Classification (DDC) recently introduced to Swedish libraries. Three major complementary approaches are suggested: a quality-built gold standard, retrieval effects, domain analysis. The gold standard is built based on input from at least two catalogue librarians, end-users expert in the subject, end users inexperienced in the subject and automated tools. Retrieval effects are studied through a combination of assigned and free tasks, including factual and comprehensive types. The study also takes into consideration the different role and character of subject terms in various knowledge domains, such as scientific disciplines. As a theoretical framework, domain analysis is used and applied in relation to the implementation of DDC in Swedish libraries and chosen domains of knowledge within the DDC itself.
    Source
    Classification and authority control: expanding resource discovery: proceedings of the International UDC Seminar 2015, 29-30 October 2015, Lisbon, Portugal. Eds.: Slavic, A. u. M.I. Cordeiro
    Type
    a
  8. Reiner, U.: VZG-Projekt Colibri : Bewertung von automatisch DDC-klassifizierten Titeldatensätzen der Deutschen Nationalbibliothek (DNB) (2009) 0.02
    0.018276103 = product of:
      0.036552206 = sum of:
        0.012380276 = weight(_text_:h in 2675) [ClassicSimilarity], result of:
          0.012380276 = score(doc=2675,freq=2.0), product of:
            0.09020387 = queryWeight, product of:
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.03630739 = queryNorm
            0.13724773 = fieldWeight in 2675, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.0390625 = fieldNorm(doc=2675)
        0.02150529 = weight(_text_:u in 2675) [ClassicSimilarity], result of:
          0.02150529 = score(doc=2675,freq=2.0), product of:
            0.11888653 = queryWeight, product of:
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.03630739 = queryNorm
            0.1808892 = fieldWeight in 2675, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.0390625 = fieldNorm(doc=2675)
        0.0026666378 = weight(_text_:a in 2675) [ClassicSimilarity], result of:
          0.0026666378 = score(doc=2675,freq=2.0), product of:
            0.041864127 = queryWeight, product of:
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03630739 = queryNorm
            0.06369744 = fieldWeight in 2675, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.0390625 = fieldNorm(doc=2675)
      0.5 = coord(3/6)
    
    Abstract
    Das VZG-Projekt Colibri/DDC beschäftigt sich seit 2003 mit automatischen Verfahren zur Dewey-Dezimalklassifikation (Dewey Decimal Classification, kurz DDC). Ziel des Projektes ist eine einheitliche DDC-Erschließung von bibliografischen Titeldatensätzen und eine Unterstützung der DDC-Expert(inn)en und DDC-Laien, z. B. bei der Analyse und Synthese von DDC-Notationen und deren Qualitätskontrolle und der DDC-basierten Suche. Der vorliegende Bericht konzentriert sich auf die erste größere automatische DDC-Klassifizierung und erste automatische und intellektuelle Bewertung mit der Klassifizierungskomponente vc_dcl1. Grundlage hierfür waren die von der Deutschen Nationabibliothek (DNB) im November 2007 zur Verfügung gestellten 25.653 Titeldatensätze (12 Wochen-/Monatslieferungen) der Deutschen Nationalbibliografie der Reihen A, B und H. Nach Erläuterung der automatischen DDC-Klassifizierung und automatischen Bewertung in Kapitel 2 wird in Kapitel 3 auf den DNB-Bericht "Colibri_Auswertung_DDC_Endbericht_Sommer_2008" eingegangen. Es werden Sachverhalte geklärt und Fragen gestellt, deren Antworten die Weichen für den Verlauf der weiteren Klassifizierungstests stellen werden. Über das Kapitel 3 hinaus führende weitergehende Betrachtungen und Gedanken zur Fortführung der automatischen DDC-Klassifizierung werden in Kapitel 4 angestellt. Der Bericht dient dem vertieften Verständnis für die automatischen Verfahren.
  9. Chung, Y.-M.; Noh, Y.-H.: Developing a specialized directory system by automatically classifying Web documents (2003) 0.02
    0.017698511 = product of:
      0.035397023 = sum of:
        0.014856329 = weight(_text_:h in 1566) [ClassicSimilarity], result of:
          0.014856329 = score(doc=1566,freq=2.0), product of:
            0.09020387 = queryWeight, product of:
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.03630739 = queryNorm
            0.16469726 = fieldWeight in 1566, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.046875 = fieldNorm(doc=1566)
        0.010613086 = weight(_text_:a in 1566) [ClassicSimilarity], result of:
          0.010613086 = score(doc=1566,freq=22.0), product of:
            0.041864127 = queryWeight, product of:
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03630739 = queryNorm
            0.25351265 = fieldWeight in 1566, product of:
              4.690416 = tf(freq=22.0), with freq of:
                22.0 = termFreq=22.0
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.046875 = fieldNorm(doc=1566)
        0.009927606 = product of:
          0.029782817 = sum of:
            0.029782817 = weight(_text_:29 in 1566) [ClassicSimilarity], result of:
              0.029782817 = score(doc=1566,freq=2.0), product of:
                0.12771805 = queryWeight, product of:
                  3.5176873 = idf(docFreq=3565, maxDocs=44218)
                  0.03630739 = queryNorm
                0.23319192 = fieldWeight in 1566, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5176873 = idf(docFreq=3565, maxDocs=44218)
                  0.046875 = fieldNorm(doc=1566)
          0.33333334 = coord(1/3)
      0.5 = coord(3/6)
    
    Abstract
    This study developed a specialized directory system using an automatic classification technique. Economics was selected as the subject field for the classification experiments with Web documents. The classification scheme of the directory follows the DDC, and subject terms representing each class number or subject category were selected from the DDC table to construct a representative term dictionary. In collecting and classifying the Web documents, various strategies were tested in order to find the optimal thresholds. In the classification experiments, Web documents in economics were classified into a total of 757 hierarchical subject categories built from the DDC scheme. The first and second experiments using the representative term dictionary resulted in relatively high precision ratios of 77 and 60%, respectively. The third experiment employing a machine learning-based k-nearest neighbours (kNN) classifier in a closed experimental setting achieved a precision ratio of 96%. This implies that it is possible to enhance the classification performance by applying a hybrid method combining a dictionary-based technique and a kNN classifier
    Source
    Journal of information science. 29(2003) no.2, S.117-126
    Type
    a
  10. Piros, A.: Automatic interpretation of complex UDC numbers : towards support for library systems (2015) 0.01
    0.014928274 = product of:
      0.029856548 = sum of:
        0.01720423 = weight(_text_:u in 2301) [ClassicSimilarity], result of:
          0.01720423 = score(doc=2301,freq=2.0), product of:
            0.11888653 = queryWeight, product of:
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.03630739 = queryNorm
            0.14471136 = fieldWeight in 2301, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.03125 = fieldNorm(doc=2301)
        0.006033913 = weight(_text_:a in 2301) [ClassicSimilarity], result of:
          0.006033913 = score(doc=2301,freq=16.0), product of:
            0.041864127 = queryWeight, product of:
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03630739 = queryNorm
            0.14413087 = fieldWeight in 2301, product of:
              4.0 = tf(freq=16.0), with freq of:
                16.0 = termFreq=16.0
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03125 = fieldNorm(doc=2301)
        0.006618404 = product of:
          0.01985521 = sum of:
            0.01985521 = weight(_text_:29 in 2301) [ClassicSimilarity], result of:
              0.01985521 = score(doc=2301,freq=2.0), product of:
                0.12771805 = queryWeight, product of:
                  3.5176873 = idf(docFreq=3565, maxDocs=44218)
                  0.03630739 = queryNorm
                0.15546128 = fieldWeight in 2301, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5176873 = idf(docFreq=3565, maxDocs=44218)
                  0.03125 = fieldNorm(doc=2301)
          0.33333334 = coord(1/3)
      0.5 = coord(3/6)
    
    Abstract
    Analytico-synthetic and faceted classifications, such as Universal Decimal Classification (UDC) express content of documents with complex, pre-combined classification codes. Without classification authority control that would help manage and access structured notations, the use of UDC codes in searching and browsing is limited. Existing UDC parsing solutions are usually created for a particular database system or a specific task and are not widely applicable. The approach described in this paper provides a solution by which the analysis and interpretation of UDC notations would be stored into an intermediate format (in this case, in XML) by automatic means without any data or information loss. Due to its richness, the output file can be converted into different formats, such as standard mark-up and data exchange formats or simple lists of the recommended entry points of a UDC number. The program can also be used to create authority records containing complex UDC numbers which can be comprehensively analysed in order to be retrieved effectively. The Java program, as well as the corresponding schema definition it employs, is under continuous development. The current version of the interpreter software is now available online for testing purposes at the following web site: http://interpreter-eto.rhcloud.com. The future plan is to implement conversion methods for standard formats and to create standard online interfaces in order to make it possible to use the features of software as a service. This would result in the algorithm being able to be employed both in existing and future library systems to analyse UDC numbers without any significant programming effort.
    Source
    Classification and authority control: expanding resource discovery: proceedings of the International UDC Seminar 2015, 29-30 October 2015, Lisbon, Portugal. Eds.: Slavic, A. u. M.I. Cordeiro
    Type
    a
  11. Kleinoeder, H.H.; Puzicha, J.: Automatische Katalogisierung am Beispiel einer Pilotanwendung (2002) 0.01
    0.014043786 = product of:
      0.042131357 = sum of:
        0.03466477 = weight(_text_:h in 1154) [ClassicSimilarity], result of:
          0.03466477 = score(doc=1154,freq=2.0), product of:
            0.09020387 = queryWeight, product of:
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.03630739 = queryNorm
            0.38429362 = fieldWeight in 1154, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.109375 = fieldNorm(doc=1154)
        0.0074665863 = weight(_text_:a in 1154) [ClassicSimilarity], result of:
          0.0074665863 = score(doc=1154,freq=2.0), product of:
            0.041864127 = queryWeight, product of:
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03630739 = queryNorm
            0.17835285 = fieldWeight in 1154, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.109375 = fieldNorm(doc=1154)
      0.33333334 = coord(2/6)
    
    Source
    Info 7. 17(2002) H.1, S.19-21
    Type
    a
  12. Schulze, U.: Erfahrungen bei der Anwendung automatischer Klassifizierungsverfahren zur Inhaltsanalyse einer Dokumentenmenge (1978) 0.01
    0.012891694 = product of:
      0.03867508 = sum of:
        0.03440846 = weight(_text_:u in 83) [ClassicSimilarity], result of:
          0.03440846 = score(doc=83,freq=2.0), product of:
            0.11888653 = queryWeight, product of:
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.03630739 = queryNorm
            0.28942272 = fieldWeight in 83, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.0625 = fieldNorm(doc=83)
        0.0042666206 = weight(_text_:a in 83) [ClassicSimilarity], result of:
          0.0042666206 = score(doc=83,freq=2.0), product of:
            0.041864127 = queryWeight, product of:
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03630739 = queryNorm
            0.10191591 = fieldWeight in 83, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.0625 = fieldNorm(doc=83)
      0.33333334 = coord(2/6)
    
    Type
    a
  13. Pfister, J.: Clustering von Patent-Dokumenten am Beispiel der Datenbanken des Fachinformationszentrums Karlsruhe (2006) 0.01
    0.012891694 = product of:
      0.03867508 = sum of:
        0.03440846 = weight(_text_:u in 5976) [ClassicSimilarity], result of:
          0.03440846 = score(doc=5976,freq=2.0), product of:
            0.11888653 = queryWeight, product of:
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.03630739 = queryNorm
            0.28942272 = fieldWeight in 5976, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.0625 = fieldNorm(doc=5976)
        0.0042666206 = weight(_text_:a in 5976) [ClassicSimilarity], result of:
          0.0042666206 = score(doc=5976,freq=2.0), product of:
            0.041864127 = queryWeight, product of:
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03630739 = queryNorm
            0.10191591 = fieldWeight in 5976, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.0625 = fieldNorm(doc=5976)
      0.33333334 = coord(2/6)
    
    Source
    Effektive Information Retrieval Verfahren in Theorie und Praxis: ausgewählte und erweiterte Beiträge des Vierten Hildesheimer Evaluierungs- und Retrievalworkshop (HIER 2005), Hildesheim, 20.7.2005. Hrsg.: T. Mandl u. C. Womser-Hacker
    Type
    a
  14. Schek, M.: Automatische Klassifizierung und Visualisierung im Archiv der Süddeutschen Zeitung (2005) 0.01
    0.012793271 = product of:
      0.025586542 = sum of:
        0.008666192 = weight(_text_:h in 4884) [ClassicSimilarity], result of:
          0.008666192 = score(doc=4884,freq=2.0), product of:
            0.09020387 = queryWeight, product of:
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.03630739 = queryNorm
            0.096073404 = fieldWeight in 4884, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.02734375 = fieldNorm(doc=4884)
        0.0150537025 = weight(_text_:u in 4884) [ClassicSimilarity], result of:
          0.0150537025 = score(doc=4884,freq=2.0), product of:
            0.11888653 = queryWeight, product of:
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.03630739 = queryNorm
            0.12662244 = fieldWeight in 4884, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.02734375 = fieldNorm(doc=4884)
        0.0018666466 = weight(_text_:a in 4884) [ClassicSimilarity], result of:
          0.0018666466 = score(doc=4884,freq=2.0), product of:
            0.041864127 = queryWeight, product of:
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03630739 = queryNorm
            0.044588212 = fieldWeight in 4884, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.02734375 = fieldNorm(doc=4884)
      0.5 = coord(3/6)
    
    Source
    Medienwirtschaft. 2(2005) H.1, S.20-24
    Theme
    Semantisches Umfeld in Indexierung u. Retrieval
    Type
    a
  15. Panyr, J.: STEINADLER: ein Verfahren zur automatischen Deskribierung und zur automatischen thematischen Klassifikation (1978) 0.01
    0.011668953 = product of:
      0.03500686 = sum of:
        0.008533241 = weight(_text_:a in 5169) [ClassicSimilarity], result of:
          0.008533241 = score(doc=5169,freq=2.0), product of:
            0.041864127 = queryWeight, product of:
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03630739 = queryNorm
            0.20383182 = fieldWeight in 5169, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.125 = fieldNorm(doc=5169)
        0.026473615 = product of:
          0.07942084 = sum of:
            0.07942084 = weight(_text_:29 in 5169) [ClassicSimilarity], result of:
              0.07942084 = score(doc=5169,freq=2.0), product of:
                0.12771805 = queryWeight, product of:
                  3.5176873 = idf(docFreq=3565, maxDocs=44218)
                  0.03630739 = queryNorm
                0.6218451 = fieldWeight in 5169, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5176873 = idf(docFreq=3565, maxDocs=44218)
                  0.125 = fieldNorm(doc=5169)
          0.33333334 = coord(1/3)
      0.33333334 = coord(2/6)
    
    Source
    Nachrichten für Dokumentation. 29(1978), S.92-96
    Type
    a
  16. Automatische Klassifikation und Extraktion in Documentum (2005) 0.01
    0.011659959 = product of:
      0.023319919 = sum of:
        0.012380276 = weight(_text_:h in 3974) [ClassicSimilarity], result of:
          0.012380276 = score(doc=3974,freq=2.0), product of:
            0.09020387 = queryWeight, product of:
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.03630739 = queryNorm
            0.13724773 = fieldWeight in 3974, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.0390625 = fieldNorm(doc=3974)
        0.0026666378 = weight(_text_:a in 3974) [ClassicSimilarity], result of:
          0.0026666378 = score(doc=3974,freq=2.0), product of:
            0.041864127 = queryWeight, product of:
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03630739 = queryNorm
            0.06369744 = fieldWeight in 3974, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.0390625 = fieldNorm(doc=3974)
        0.0082730055 = product of:
          0.024819015 = sum of:
            0.024819015 = weight(_text_:29 in 3974) [ClassicSimilarity], result of:
              0.024819015 = score(doc=3974,freq=2.0), product of:
                0.12771805 = queryWeight, product of:
                  3.5176873 = idf(docFreq=3565, maxDocs=44218)
                  0.03630739 = queryNorm
                0.19432661 = fieldWeight in 3974, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5176873 = idf(docFreq=3565, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=3974)
          0.33333334 = coord(1/3)
      0.5 = coord(3/6)
    
    Footnote
    Kontakt: LCI GmbH, Freiburger Str. 16, 16,79199 Kirchzarten, Tel.: (0 76 61) 9 89 961o, Fax: (01212) 5 37 48 29 36, info@lci-software.com, www.lci-software.com
    Source
    Information - Wissenschaft und Praxis. 56(2005) H.5/6, S.276
    Type
    a
  17. Bollmann, P.; Konrad, E.; Schneider, H.-J.; Zuse, H.: Anwendung automatischer Klassifikationsverfahren mit dem System FAKYR (1978) 0.01
    0.010759996 = product of:
      0.032279987 = sum of:
        0.028013365 = weight(_text_:h in 82) [ClassicSimilarity], result of:
          0.028013365 = score(doc=82,freq=4.0), product of:
            0.09020387 = queryWeight, product of:
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.03630739 = queryNorm
            0.31055614 = fieldWeight in 82, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.0625 = fieldNorm(doc=82)
        0.0042666206 = weight(_text_:a in 82) [ClassicSimilarity], result of:
          0.0042666206 = score(doc=82,freq=2.0), product of:
            0.041864127 = queryWeight, product of:
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03630739 = queryNorm
            0.10191591 = fieldWeight in 82, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.0625 = fieldNorm(doc=82)
      0.33333334 = coord(2/6)
    
    Type
    a
  18. Brückner, T.; Dambeck, H.: Sortierautomaten : Grundlagen der Textklassifizierung (2003) 0.01
    0.010759996 = product of:
      0.032279987 = sum of:
        0.028013365 = weight(_text_:h in 2398) [ClassicSimilarity], result of:
          0.028013365 = score(doc=2398,freq=4.0), product of:
            0.09020387 = queryWeight, product of:
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.03630739 = queryNorm
            0.31055614 = fieldWeight in 2398, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.0625 = fieldNorm(doc=2398)
        0.0042666206 = weight(_text_:a in 2398) [ClassicSimilarity], result of:
          0.0042666206 = score(doc=2398,freq=2.0), product of:
            0.041864127 = queryWeight, product of:
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03630739 = queryNorm
            0.10191591 = fieldWeight in 2398, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.0625 = fieldNorm(doc=2398)
      0.33333334 = coord(2/6)
    
    Source
    c't. 2003, H.19, S.192-197
    Type
    a
  19. Oberhauser, O.: Automatisches Klassifizieren : Entwicklungsstand - Methodik - Anwendungsbereiche (2005) 0.01
    0.010696211 = product of:
      0.021392422 = sum of:
        0.008754177 = weight(_text_:h in 38) [ClassicSimilarity], result of:
          0.008754177 = score(doc=38,freq=4.0), product of:
            0.09020387 = queryWeight, product of:
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.03630739 = queryNorm
            0.0970488 = fieldWeight in 38, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.4844491 = idf(docFreq=10020, maxDocs=44218)
              0.01953125 = fieldNorm(doc=38)
        0.010752645 = weight(_text_:u in 38) [ClassicSimilarity], result of:
          0.010752645 = score(doc=38,freq=2.0), product of:
            0.11888653 = queryWeight, product of:
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.03630739 = queryNorm
            0.0904446 = fieldWeight in 38, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.01953125 = fieldNorm(doc=38)
        0.0018855978 = weight(_text_:a in 38) [ClassicSimilarity], result of:
          0.0018855978 = score(doc=38,freq=4.0), product of:
            0.041864127 = queryWeight, product of:
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03630739 = queryNorm
            0.045040898 = fieldWeight in 38, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.01953125 = fieldNorm(doc=38)
      0.5 = coord(3/6)
    
    Footnote
    Rez. in: VÖB-Mitteilungen 58(2005) H.3, S.102-104 (R.F. Müller); ZfBB 53(2006) H.5, S.282-283 (L. Svensson): "Das Sammeln und Verzeichnen elektronischer Ressourcen gehört in wissenschaftlichen Bibliotheken längst zum Alltag. Parallel dazu kündigt sich ein Paradigmenwechsel bei den Findmitteln an: Um einen effizienten und benutzerorientierten Zugang zu den gemischten Kollektionen bieten zu können, experimentieren einige bibliothekarische Diensteanbieter wie z. B. das hbz (http://suchen.hbz-nrw.de/dreilaender/), die Bibliothek der North Carolina State University (www.lib.ncsu.edu/) und demnächst vascoda (www.vascoda.de/) und der Librarians-Internet Index (www.lii.org/) zunehmend mit Suchmaschinentechnologie. Dabei wird angestrebt, nicht nur einen vollinvertierten Suchindex anzubieten, sondern auch das Browsing durch eine hierarchisch geordnete Klassifikation. Von den Daten in den deutschen Verbunddatenbanken ist jedoch nur ein kleiner Teil schon klassifikatorisch erschlossen. Fremddaten aus dem angloamerikanischen Bereich sind oft mit LCC und/oder DDC erschlossen, wobei die Library of Congress sich bei der DDCErschließung auf Titel, die hauptsächlich für die Public Libraries interessant sind, konzentriert. Die Deutsche Nationalbibliothek wird ab 2007 Printmedien und Hochschulschriften flächendeckend mit DDC erschließen. Es ist aber schon offensichtlich, dass v. a. im Bereich der elektronischen Publikationen die anfallenden Dokumentenmengen mit immer knapperen Personalressourcen nicht intellektuell erschlossen werden können, sondern dass neue Verfahren entwickelt werden müssen. Hier kommt Oberhausers Buch gerade richtig. Seit Anfang der 1990er Jahre sind mehrere Projekte zum Thema automatisches Klassifizieren durchgeführt worden. Wer sich in diese Thematik einarbeiten wollte oder sich für die Ergebnisse der größeren Projekte interessierte, konnte bislang auf keine Überblicksdarstellung zurückgreifen, sondern war auf eine Vielzahl von Einzeluntersuchungen sowie die Projektdokumentationen angewiesen. Oberhausers Darstellung, die auf einer Fülle von publizierter und grauer Literatur fußt, schließt diese Lücke. Das selbst gesetzte Ziel, einen guten Überblick über den momentanen Kenntnisstand und die Ergebnisse der einschlägigen Projekte verständlich zu vermitteln, erfüllt der Autor mit Bravour. Dabei ist anzumerken, dass er ein bibliothekarisches Grundwissen und mindestens grundlegende Kenntnisse über informationswissenschaftliche Grundbegriffe und Fragestellungen voraussetzt, wobei hier für den Einsteiger einige Hinweise auf einführende Darstellungen wünschenswert gewesen wären.
    Zum Inhalt Auf einen kurzen einleitenden Abschnitt folgt eine Einführung in die grundlegende Methodik des automatischen Klassifizierens. Oberhauser erklärt hier Begriffe wie Einfach- und Mehrfachklassifizierung, Klassen- und Dokumentzentrierung, und geht danach auf die hauptsächlichen Anwendungen der automatischen Klassifikation von Textdokumenten, maschinelle Lernverfahren und Techniken der Dimensionsreduktion bei der Indexierung ein. Zwei weitere Unterkapitel sind der Erstellung von Klassifikatoren und den Methoden für deren Auswertung gewidmet. Das Kapitel wird abgerundet von einer kurzen Auflistung einiger Softwareprodukte für automatisches Klassifizieren, die sowohl kommerzielle Software, als auch Projekte aus dem Open-Source-Bereich umfasst. Der Hauptteil des Buches ist den großen Projekten zur automatischen Erschließung von Webdokumenten gewidmet, die von OCLC (Scorpion) sowie an den Universitäten Lund (Nordic WAIS/WWW, DESIRE II), Wolverhampton (WWLib-TOS, WWLib-TNG, Old ACE, ACE) und Oldenburg (GERHARD, GERHARD II) durchgeführt worden sind. Der Autor beschreibt hier sehr detailliert - wobei der Detailliertheitsgrad unterschiedlich ist, je nachdem, was aus der Projektdokumentation geschlossen werden kann - die jeweilige Zielsetzung des Projektes, die verwendete Klassifikation, die methodische Vorgehensweise sowie die Evaluierungsmethoden und -ergebnisse. Sofern Querverweise zu anderen Projekten bestehen, werden auch diese besprochen. Der Verfasser geht hier sehr genau auf wichtige Aspekte wie Vokabularbildung, Textaufbereitung und Gewichtung ein, so dass der Leser eine gute Vorstellung von den Ansätzen und der möglichen Weiterentwicklung des Projektes bekommt. In einem weiteren Kapitel wird auf einige kleinere Projekte eingegangen, die dem für Bibliotheken besonders interessanten Thema des automatischen Klassifizierens von Büchern sowie den Bereichen Patentliteratur, Mediendokumentation und dem Einsatz bei Informationsdiensten gewidmet sind. Die Darstellung wird ergänzt von einem Literaturverzeichnis mit über 250 Titeln zu den konkreten Projekten sowie einem Abkürzungs- und einem Abbildungsverzeichnis. In der abschließenden Diskussion der beschriebenen Projekte wird einerseits auf die Bedeutung der einzelnen Projekte für den methodischen Fortschritt eingegangen, andererseits aber auch einiges an Kritik geäußert, v. a. bezüglich der mangelnden Auswertung der Projektergebnisse und des Fehlens an brauchbarer Dokumentation. So waren z. B. die Projektseiten des Projekts GERHARD (www.gerhard.de/) auf den Stand von 1998 eingefroren, zurzeit [11.07.06] sind sie überhaupt nicht mehr erreichbar. Mit einigem Erstaunen stellt Oberhauser auch fest, dass - abgesehen von der fast 15 Jahre alten Untersuchung von Larsen - »keine signifikanten Studien oder Anwendungen aus dem Bibliotheksbereich vorliegen« (S. 139). Wie der Autor aber selbst ergänzend ausführt, dürfte dies daran liegen, dass sich bibliografische Metadaten wegen des geringen Textumfangs sehr schlecht für automatische Klassifikation eignen, und dass - wie frühere Ergebnisse gezeigt haben - das übliche TF/IDF-Verfahren nicht für Katalogisate geeignet ist (ibd.).
    Theme
    Grundlagen u. Einführungen: Allgemeine Literatur
  20. Reiner, U.: DDC-based search in the data of the German National Bibliography (2008) 0.01
    0.009668771 = product of:
      0.029006314 = sum of:
        0.025806347 = weight(_text_:u in 2166) [ClassicSimilarity], result of:
          0.025806347 = score(doc=2166,freq=2.0), product of:
            0.11888653 = queryWeight, product of:
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.03630739 = queryNorm
            0.21706703 = fieldWeight in 2166, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.2744443 = idf(docFreq=4547, maxDocs=44218)
              0.046875 = fieldNorm(doc=2166)
        0.0031999657 = weight(_text_:a in 2166) [ClassicSimilarity], result of:
          0.0031999657 = score(doc=2166,freq=2.0), product of:
            0.041864127 = queryWeight, product of:
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.03630739 = queryNorm
            0.07643694 = fieldWeight in 2166, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.153047 = idf(docFreq=37942, maxDocs=44218)
              0.046875 = fieldNorm(doc=2166)
      0.33333334 = coord(2/6)
    
    Type
    a

Years

Languages

  • e 169
  • d 36
  • a 1
  • chi 1
  • More… Less…

Types

  • a 178
  • el 29
  • m 4
  • r 3
  • x 3
  • s 2
  • d 1
  • More… Less…