Search (15 results, page 1 of 1)

Fagni, T.; Sebastiani, F.: Selecting negative examples for hierarchical text classification: An experimental comparison (2010) 0.01
```
0.012504436 = product of:
  0.050017744 = sum of:
    0.050017744 = weight(_text_:c in 4101) [ClassicSimilarity], result of:
      0.050017744 = score(doc=4101,freq=6.0), product of:
        0.15154591 = queryWeight, product of:
          3.4494052 = idf(docFreq=3817, maxDocs=44218)
          0.043933928 = queryNorm
        0.3300501 = fieldWeight in 4101, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          3.4494052 = idf(docFreq=3817, maxDocs=44218)
          0.0390625 = fieldNorm(doc=4101)
  0.25 = coord(1/4)
```
Abstract

Hierarchical text classification (HTC) approaches have recently attracted a lot of interest on the part of researchers in human language technology and machine learning, since they have been shown to bring about equal, if not better, classification accuracy with respect to their "flat" counterparts while allowing exponential time savings at both learning and classification time. A typical component of HTC methods is a "local" policy for selecting negative examples: Given a category c, its negative training examples are by default identified with the training examples that are negative for c and positive for the categories which are siblings of c in the hierarchy. However, this policy has always been taken for granted and never been subjected to careful scrutiny since first proposed 15 years ago. This article proposes a thorough experimental comparison between this policy and three other policies for the selection of negative examples in HTC contexts, one of which (BEST LOCAL (k)) is being proposed for the first time in this article. We compare these policies on the hierarchical versions of three supervised learning algorithms (boosting, support vector machines, and naïve Bayes) by performing experiments on two standard TC datasets, REUTERS-21578 and RCV1-V2.
Qu, B.; Cong, G.; Li, C.; Sun, A.; Chen, H.: ¬An evaluation of classification models for question topic categorization (2012) 0.01
```
0.01020983 = product of:
  0.04083932 = sum of:
    0.04083932 = weight(_text_:c in 237) [ClassicSimilarity], result of:
      0.04083932 = score(doc=237,freq=4.0), product of:
        0.15154591 = queryWeight, product of:
          3.4494052 = idf(docFreq=3817, maxDocs=44218)
          0.043933928 = queryNorm
        0.2694848 = fieldWeight in 237, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.4494052 = idf(docFreq=3817, maxDocs=44218)
          0.0390625 = fieldNorm(doc=237)
  0.25 = coord(1/4)
```
Abstract

We study the problem of question topic classification using a very large real-world Community Question Answering (CQA) dataset from Yahoo! Answers. The dataset comprises 3.9 million questions and these questions are organized into more than 1,000 categories in a hierarchy. To the best knowledge, this is the first systematic evaluation of the performance of different classification methods on question topic classification as well as short texts. Specifically, we empirically evaluate the following in classifying questions into CQA categories: (a) the usefulness of n-gram features and bag-of-word features; (b) the performance of three standard classification algorithms (naive Bayes, maximum entropy, and support vector machines); (c) the performance of the state-of-the-art hierarchical classification algorithms; (d) the effect of training data size on performance; and (e) the effectiveness of the different components of CQA data, including subject, content, asker, and the best answer. The experimental results show what aspects are important for question topic classification in terms of both effectiveness and efficiency. We believe that the experimental findings from this study will be useful in real-world classification problems.

Sojka, P.; Lee, M.; Rehurek, R.; Hatlapatka, R.; Kucbel, M.; Bouche, T.; Goutorbe, C.; Anghelache, R.; Wojciechowski, K.: Toolset for entity and semantic associations : Final Release (2013) 0.01

0.008663327 = product of:
  0.03465331 = sum of:
    0.03465331 = weight(_text_:c in 1057) [ClassicSimilarity], result of:
      0.03465331 = score(doc=1057,freq=2.0), product of:
        0.15154591 = queryWeight, product of:
          3.4494052 = idf(docFreq=3817, maxDocs=44218)
          0.043933928 = queryNorm
        0.22866541 = fieldWeight in 1057, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.4494052 = idf(docFreq=3817, maxDocs=44218)
          0.046875 = fieldNorm(doc=1057)
  0.25 = coord(1/4)

HaCohen-Kerner, Y. et al.: Classification using various machine learning methods and combinations of key-phrases and visual features (2016) 0.01

0.0074405507 = product of:
  0.029762203 = sum of:
    0.029762203 = product of:
      0.059524406 = sum of:
        0.059524406 = weight(_text_:22 in 2748) [ClassicSimilarity], result of:
          0.059524406 = score(doc=2748,freq=2.0), product of:
            0.15384912 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.043933928 = queryNorm
            0.38690117 = fieldWeight in 2748, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.078125 = fieldNorm(doc=2748)
      0.5 = coord(1/2)
  0.25 = coord(1/4)

Date: 1. 2.2016 18:25:22

Wartena, C.; Sommer, M.: Automatic classification of scientific records using the German Subject Heading Authority File (SWD) (2012) 0.01

0.007219439 = product of:
  0.028877756 = sum of:
    0.028877756 = weight(_text_:c in 472) [ClassicSimilarity], result of:
      0.028877756 = score(doc=472,freq=2.0), product of:
        0.15154591 = queryWeight, product of:
          3.4494052 = idf(docFreq=3817, maxDocs=44218)
          0.043933928 = queryNorm
        0.1905545 = fieldWeight in 472, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.4494052 = idf(docFreq=3817, maxDocs=44218)
          0.0390625 = fieldNorm(doc=472)
  0.25 = coord(1/4)

Vilares, D.; Alonso, M.A.; Gómez-Rodríguez, C.: On the usefulness of lexical and syntactic processing in polarity classification of Twitter messages (2015) 0.01

0.007219439 = product of:
  0.028877756 = sum of:
    0.028877756 = weight(_text_:c in 2161) [ClassicSimilarity], result of:
      0.028877756 = score(doc=2161,freq=2.0), product of:
        0.15154591 = queryWeight, product of:
          3.4494052 = idf(docFreq=3817, maxDocs=44218)
          0.043933928 = queryNorm
        0.1905545 = fieldWeight in 2161, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.4494052 = idf(docFreq=3817, maxDocs=44218)
          0.0390625 = fieldNorm(doc=2161)
  0.25 = coord(1/4)

Chae, G.; Park, J.; Park, J.; Yeo, W.S.; Shi, C.: Linking and clustering artworks using social tags : revitalizing crowd-sourced information on cultural collections (2016) 0.01

0.007219439 = product of:
  0.028877756 = sum of:
    0.028877756 = weight(_text_:c in 2852) [ClassicSimilarity], result of:
      0.028877756 = score(doc=2852,freq=2.0), product of:
        0.15154591 = queryWeight, product of:
          3.4494052 = idf(docFreq=3817, maxDocs=44218)
          0.043933928 = queryNorm
        0.1905545 = fieldWeight in 2852, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.4494052 = idf(docFreq=3817, maxDocs=44218)
          0.0390625 = fieldNorm(doc=2852)
  0.25 = coord(1/4)

Ru, C.; Tang, J.; Li, S.; Xie, S.; Wang, T.: Using semantic similarity to reduce wrong labels in distant supervision for relation extraction (2018) 0.01

0.007219439 = product of:
  0.028877756 = sum of:
    0.028877756 = weight(_text_:c in 5055) [ClassicSimilarity], result of:
      0.028877756 = score(doc=5055,freq=2.0), product of:
        0.15154591 = queryWeight, product of:
          3.4494052 = idf(docFreq=3817, maxDocs=44218)
          0.043933928 = queryNorm
        0.1905545 = fieldWeight in 5055, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.4494052 = idf(docFreq=3817, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5055)
  0.25 = coord(1/4)

Sommer, M.: Automatische Generierung von DDC-Notationen für Hochschulveröffentlichungen (2012) 0.01
```
0.0057443646 = product of:
  0.022977458 = sum of:
    0.022977458 = product of:
      0.045954917 = sum of:
        0.045954917 = weight(_text_:der in 587) [ClassicSimilarity], result of:
          0.045954917 = score(doc=587,freq=20.0), product of:
            0.098138146 = queryWeight, product of:
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.043933928 = queryNorm
            0.46826762 = fieldWeight in 587, product of:
              4.472136 = tf(freq=20.0), with freq of:
                20.0 = termFreq=20.0
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.046875 = fieldNorm(doc=587)
      0.5 = coord(1/2)
  0.25 = coord(1/4)
```
Abstract

Das Thema dieser Bachelorarbeit ist die automatische Generierung von Notationen der Dewey-Dezimalklassifikation für Metadaten. Die Metadaten sind im Dublin-Core-Format und stammen vom Server für wissenschaftliche Schriften der Hochschule Hannover. Zu Beginn erfolgt eine allgemeine Einführung über die Methoden und Hauptanwendungsbereiche des automatischen Klassifizierens. Danach werden die Dewey-Dezimalklassifikation und der Prozess der Metadatengewinnung beschrieben. Der theoretische Teil endet mit der Beschreibung von zwei Projekten. In dem ersten Projekt wurde ebenfalls versucht Metadaten mit Notationen der Dewey-Dezimalklassifikation anzureichern. Das Ergebnis des zweiten Projekts ist eine Konkordanz zwischen der Schlagwortnormdatei und der Dewey-Dezimalklassifikation. Diese Konkordanz wurde im praktischen Teil dieser Arbeit dazu benutzt um automatisch Notationen der Dewey-Dezimalklassifikation zu vergeben.
Jersek, T.: Automatische DDC-Klassifizierung mit Lingo : Vorgehensweise und Ergebnisse (2012) 0.01
```
0.0054158387 = product of:
  0.021663355 = sum of:
    0.021663355 = product of:
      0.04332671 = sum of:
        0.04332671 = weight(_text_:der in 122) [ClassicSimilarity], result of:
          0.04332671 = score(doc=122,freq=10.0), product of:
            0.098138146 = queryWeight, product of:
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.043933928 = queryNorm
            0.44148692 = fieldWeight in 122, product of:
              3.1622777 = tf(freq=10.0), with freq of:
                10.0 = termFreq=10.0
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.0625 = fieldNorm(doc=122)
      0.5 = coord(1/2)
  0.25 = coord(1/4)
```
Abstract

Die Arbeit befasst sich mit der Realisierung und der Durchführung einer automatischen DDCKlassifizierung durch das Indexierungssystem Lingo. Dies geschieht durch die Einbeziehung von Relationen des DFG-Projektes CrissCross, anhand derer Lingo bibliographische Titeldatensätze automatisch klassifiziert. Der dabei verwendete Ansatz wird mit dem üblichen methodischen Vorgehen bei automatischen Klassifizierungssystemen verglichen. Das Klassifizierungsverfahren wird daraufhin anhand einer Testkollektion von bibliographischen Titeldatensätzen der Deutschen Nationalbibliothek (DNB) getestet. Es folgt eine Diskussion der Ergebnisse und eine Bewertung des Klassifizierungssystems.
Groß, T.; Faden, M.: Automatische Indexierung elektronischer Dokumente an der Deutschen Zentralbibliothek für Wirtschaftswissenschaften : Bericht über die Jahrestagung der Internationalen Buchwissenschaftlichen Gesellschaft (2010) 0.00
```
0.004993156 = product of:
  0.019972624 = sum of:
    0.019972624 = product of:
      0.03994525 = sum of:
        0.03994525 = weight(_text_:der in 4051) [ClassicSimilarity], result of:
          0.03994525 = score(doc=4051,freq=34.0), product of:
            0.098138146 = queryWeight, product of:
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.043933928 = queryNorm
            0.40703082 = fieldWeight in 4051, product of:
              5.8309517 = tf(freq=34.0), with freq of:
                34.0 = termFreq=34.0
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.03125 = fieldNorm(doc=4051)
      0.5 = coord(1/2)
  0.25 = coord(1/4)
```
Abstract

Die zunehmende Verfügbarmachung digitaler Informationen in den letzten Jahren sowie die Aussicht auf ein weiteres Ansteigen der sogenannten Datenflut kumulieren in einem grundlegenden, sich weiter verstärkenden Informationsstrukturierungsproblem. Die stetige Zunahme von digitalen Informationsressourcen im World Wide Web sichert zwar jederzeit und ortsungebunden den Zugriff auf verschiedene Informationen; offen bleibt der strukturierte Zugang, insbesondere zu wissenschaftlichen Ressourcen. Angesichts der steigenden Anzahl elektronischer Inhalte und vor dem Hintergrund stagnierender bzw. knapper werdender personeller Ressourcen in der Sacherschließun schafft keine Bibliothek bzw. kein Bibliotheksverbund es mehr, weder aktuell noch zukünftig, alle digitalen Daten zu erfassen, zu strukturieren und zueinander in Beziehung zu setzen. In der Informationsgesellschaft des 21. Jahrhunderts wird es aber zunehmend wichtiger, die in der Flut verschwundenen wissenschaftlichen Informationen zeitnah, angemessen und vollständig zu strukturieren und somit als Basis für eine Wissensgenerierung wieder nutzbar zu machen. Eine normierte Inhaltserschließung digitaler Informationsressourcen ist deshalb für die Deutsche Zentralbibliothek für Wirtschaftswissenschaften (ZBW) als wichtige Informationsinfrastruktureinrichtung in diesem Bereich ein entscheidender und auch erfolgskritischer Aspekt im Wettbewerb mit anderen Informationsdienstleistern. Weil die traditionelle intellektuelle Sacherschließung aber nicht beliebig skalierbar ist - mit dem Anstieg der Zahl an Online-Dokumenten steigt proportional auch der personelle Ressourcenbedarf an Fachreferenten, wenn ein gewisser Qualitätsstandard gehalten werden soll - bedarf es zukünftig anderer Sacherschließungsverfahren. Automatisierte Verschlagwortungsmethoden werden dabei als einzige Möglichkeit angesehen, die bibliothekarische Sacherschließung auch im digitalen Zeitalter zukunftsfest auszugestalten. Zudem können maschinelle Ansätze dazu beitragen, die Heterogenitäten (Indexierungsinkonsistenzen) zwischen den einzelnen Sacherschließer zu nivellieren, und somit zu einer homogeneren Erschließung des Bibliotheksbestandes beitragen.
Mit der Anfang 2010 begonnen Implementierung und Ergebnisevaluierung des automatischen Indexierungsverfahrens "Decisiv Categorization" der Firma Recommind soll das hier skizzierte Informationsstrukturierungsproblem in zwei Schritten gelöst werden. Kurz- bis mittelfristig soll die intellektuelle Indexierung durch ein semiautomatisches Verfahren6 unterstützt werden. Mittel- bis langfristig soll das maschinelle Verfahren, aufbauend auf einem entsprechenden Training, in die Lage versetzt werden, sowohl im Hause vorliegende Dokumente vollautomatisch zu indexieren als auch ZBW-fremde digitale Informationsressourcen zu verschlagworten bzw. zu klassifizieren, um sie in einem gemeinsamen Suchraum auffindbar machen zu können. Im Anschluss an diese Einleitung werden die ersten Ansätze maschineller Sacherschließung an der ZBW (2001-2004) und deren Ergebnisse und Problemlagen aufgezeigt. Danach werden die Rahmenbedingungen (Projektauftrag und -ziel) für eine Wiederaufnahme des Vorhabens im Jahre 2009 aufgezeigt, gefolgt von einer Darstellung der Funktionsweise der Recommind-Technologie und deren Einsatz im Rahmen der Sacherschließung von Online-Dokumenten mit einem Thesaurus. Schwerpunkt dieser Abhandlung bilden im Anschluss daran die Evaluierungsmöglichkeiten automatischer Indexierungsansätze sowie die aktuellen Ergebnisse und zentralen Erkenntnisse des Einsatzes im Kontext der ZBW. Das Fazit beschreibt die entsprechenden Schlussfolgerungen aus den erzielten Ergebnissen sowie den Ausblick auf das weitere Vorgehen.
Kasprzik, A.: Automatisierte und semiautomatisierte Klassifizierung : eine Analyse aktueller Projekte (2014) 0.00
```
0.00480608 = product of:
  0.01922432 = sum of:
    0.01922432 = product of:
      0.03844864 = sum of:
        0.03844864 = weight(_text_:der in 2470) [ClassicSimilarity], result of:
          0.03844864 = score(doc=2470,freq=14.0), product of:
            0.098138146 = queryWeight, product of:
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.043933928 = queryNorm
            0.3917808 = fieldWeight in 2470, product of:
              3.7416575 = tf(freq=14.0), with freq of:
                14.0 = termFreq=14.0
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.046875 = fieldNorm(doc=2470)
      0.5 = coord(1/2)
  0.25 = coord(1/4)
```
Abstract

Das sprunghafte Anwachsen der Menge digital verfügbarer Dokumente gepaart mit dem Zeit- und Personalmangel an wissenschaftlichen Bibliotheken legt den Einsatz von halb- oder vollautomatischen Verfahren für die verbale und klassifikatorische Inhaltserschließung nahe. Nach einer kurzen allgemeinen Einführung in die gängige Methodik beleuchtet dieser Artikel eine Reihe von Projekten zur automatisierten Klassifizierung aus dem Zeitraum 2007-2012 und aus dem deutschsprachigen Raum. Ein Großteil der vorgestellten Projekte verwendet Methoden des Maschinellen Lernens aus der Künstlichen Intelligenz, arbeitet meist mit angepassten Versionen einer kommerziellen Software und bezieht sich in der Regel auf die Dewey Decimal Classification (DDC). Als Datengrundlage dienen Metadatensätze, Abstracs, Inhaltsverzeichnisse und Volltexte in diversen Datenformaten. Die abschließende Analyse enthält eine Anordnung der Projekte nach einer Reihe von verschiedenen Kriterien und eine Zusammenfassung der aktuellen Lage und der größten Herausfordungen für automatisierte Klassifizierungsverfahren.

Zhu, W.Z.; Allen, R.B.: Document clustering using the LSI subspace signature model (2013) 0.00

0.00446433 = product of:
  0.01785732 = sum of:
    0.01785732 = product of:
      0.03571464 = sum of:
        0.03571464 = weight(_text_:22 in 690) [ClassicSimilarity], result of:
          0.03571464 = score(doc=690,freq=2.0), product of:
            0.15384912 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.043933928 = queryNorm
            0.23214069 = fieldWeight in 690, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.046875 = fieldNorm(doc=690)
      0.5 = coord(1/2)
  0.25 = coord(1/4)

Date: 23. 3.2013 13:22:36

Egbert, J.; Biber, D.; Davies, M.: Developing a bottom-up, user-based method of web register classification (2015) 0.00

0.00446433 = product of:
  0.01785732 = sum of:
    0.01785732 = product of:
      0.03571464 = sum of:
        0.03571464 = weight(_text_:22 in 2158) [ClassicSimilarity], result of:
          0.03571464 = score(doc=2158,freq=2.0), product of:
            0.15384912 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.043933928 = queryNorm
            0.23214069 = fieldWeight in 2158, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.046875 = fieldNorm(doc=2158)
      0.5 = coord(1/2)
  0.25 = coord(1/4)

Date: 4. 8.2015 19:22:04

Liu, R.-L.: ¬A passage extractor for classification of disease aspect information (2013) 0.00

0.0037202754 = product of:
  0.014881101 = sum of:
    0.014881101 = product of:
      0.029762203 = sum of:
        0.029762203 = weight(_text_:22 in 1107) [ClassicSimilarity], result of:
          0.029762203 = score(doc=1107,freq=2.0), product of:
            0.15384912 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.043933928 = queryNorm
            0.19345059 = fieldWeight in 1107, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0390625 = fieldNorm(doc=1107)
      0.5 = coord(1/2)
  0.25 = coord(1/4)

Date: 28.10.2013 19:22:57

Search (15 results, page 1 of 1)

Authors

Languages

Types

Themes