Search (51 results, page 2 of 3)

  • × theme_ss:"Computerlinguistik"
  • × year_i:[2010 TO 2020}
  1. Lu, C.; Bu, Y.; Wang, J.; Ding, Y.; Torvik, V.; Schnaars, M.; Zhang, C.: Examining scientific writing styles from the perspective of linguistic complexity : a cross-level moderation model (2019) 0.01
    0.006803468 = product of:
      0.03401734 = sum of:
        0.03401734 = weight(_text_:b in 5219) [ClassicSimilarity], result of:
          0.03401734 = score(doc=5219,freq=2.0), product of:
            0.14483635 = queryWeight, product of:
              3.542962 = idf(docFreq=3476, maxDocs=44218)
              0.040880017 = queryNorm
            0.23486741 = fieldWeight in 5219, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.542962 = idf(docFreq=3476, maxDocs=44218)
              0.046875 = fieldNorm(doc=5219)
      0.2 = coord(1/5)
    
    Abstract
    Publishing articles in high-impact English journals is difficult for scholars around the world, especially for non-native English-speaking scholars (NNESs), most of whom struggle with proficiency in English. To uncover the differences in English scientific writing between native English-speaking scholars (NESs) and NNESs, we collected a large-scale data set containing more than 150,000 full-text articles published in PLoS between 2006 and 2015. We divided these articles into three groups according to the ethnic backgrounds of the first and corresponding authors, obtained by Ethnea, and examined the scientific writing styles in English from a two-fold perspective of linguistic complexity: (a) syntactic complexity, including measurements of sentence length and sentence complexity; and (b) lexical complexity, including measurements of lexical diversity, lexical density, and lexical sophistication. The observations suggest marginal differences between groups in syntactical and lexical complexity.
  2. Bredack, J.: Automatische Extraktion fachterminologischer Mehrwortbegriffe : ein Verfahrensvergleich (2016) 0.01
    0.0067610326 = product of:
      0.03380516 = sum of:
        0.03380516 = weight(_text_:der in 3194) [ClassicSimilarity], result of:
          0.03380516 = score(doc=3194,freq=18.0), product of:
            0.091316424 = queryWeight, product of:
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.040880017 = queryNorm
            0.37019804 = fieldWeight in 3194, product of:
              4.2426405 = tf(freq=18.0), with freq of:
                18.0 = termFreq=18.0
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.0390625 = fieldNorm(doc=3194)
      0.2 = coord(1/5)
    
    Abstract
    In dieser Untersuchung wurden zwei Systeme eingesetzt, um MWT aus einer Dokumentkollektion mit fachsprachlichem Bezug (Volltexte des ACL Anthology Reference Corpus) automatisch zu extrahieren. Das thematische Spektrum umfasste alle Bereiche der natürlichen Sprachverarbeitung, im Speziellen die CL als interdisziplinäre Wissenschaft. Ziel war es MWT zu extrahieren, die als potentielle Indexterme im IR Verwendung finden können. Diese sollten auf Konzepte, Methoden, Verfahren und Algorithmen in der CL und angrenzenden Teilgebieten, wie Linguistik und Informatik hinweisen bzw. benennen.
    Als Extraktionssysteme wurden der TreeTagger und die Indexierungssoftware Lingo verwendet. Der TreeTagger basiert auf einem statistischen Tagging- und Chunking- Algorithmus, mit dessen Hilfe NPs automatisch identifiziert und extrahiert werden. Er kann für verschiedene Anwendungsszenarien der natürlichen Sprachverarbeitung eingesetzt werden, in erster Linie als POS-Tagger für unterschiedliche Sprachen. Das Indexierungssystem Lingo arbeitet im Gegensatz zum TreeTagger mit elektronischen Wörterbüchern und einem musterbasierten Abgleich. Lingo ist ein auf automatische Indexierung ausgerichtetes System, was eine Vielzahl von Modulen mitliefert, die individuell auf eine bestimmte Aufgabenstellung angepasst und aufeinander abgestimmt werden können. Die unterschiedlichen Verarbeitungsweisen haben sich in den Ergebnismengen beider Systeme deutlich gezeigt. Die gering ausfallenden Übereinstimmungen der Ergebnismengen verdeutlichen die abweichende Funktionsweise und konnte mit einer qualitativen Analyse beispielhaft beschrieben werden. In der vorliegenden Arbeit kann abschließend nicht geklärt werden, welches der beiden Systeme bevorzugt für die Generierung von Indextermen eingesetzt werden sollte.
    Content
    Schriftliche Hausarbeit (Masterarbeit) zur Erlangung des Grades eines Master of Arts An der Universität Trier Fachbereich II Studiengang Computerlinguistik.
  3. ¬Die Bibel als Stilkompass (2019) 0.01
    0.0067610326 = product of:
      0.03380516 = sum of:
        0.03380516 = weight(_text_:der in 5331) [ClassicSimilarity], result of:
          0.03380516 = score(doc=5331,freq=18.0), product of:
            0.091316424 = queryWeight, product of:
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.040880017 = queryNorm
            0.37019804 = fieldWeight in 5331, product of:
              4.2426405 = tf(freq=18.0), with freq of:
                18.0 = termFreq=18.0
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.0390625 = fieldNorm(doc=5331)
      0.2 = coord(1/5)
    
    Content
    "Die Heilige Schrift gibt es nicht nur in mehreren hundert Sprachen, sondern oft innerhalb eines Sprachraums auch in mehreren Varianten. Britische Leser konnen unter anderem zwischen der bewusst sehr einfach geschriebenen Bible in Basic English und der linguistisch komplexen King James Version aus dem 17. Jahrhundert wahlen. Die Fassungen unterscheiden sich in Satzlänge, Wortwahl sowie Förmlichkeit und sprechen so Menschen aus verschiedenen Kulturen und mit unterschiedlichem Bildungsstand an. Ein Team um Keith Carlson vom Dartmouth College will die insgesamt 34 englischsprachigen Versionen der Bibel nun dazu nutzen, um Computern unterschiedliche Stilformen beizubringen Bisher übersetzen entsprechende Programme zwar Fremdsprachen, zum Teil mit beeindruckender Genauigkeit. Oft scheitern sie aber, wenn sie einen Text zielsicher stilistisch verändern sollen, vor allem wenn es dabei um mehr als ein einzelnes Merkmal wie beispielsweise die Komplexität geht. Die Bibel eigne sich mit ihren rund 31 000 Versen wie kein anderes Werk für das Training von Übersetzungsprogrammen, argumentiert das Team um Carlson. Schließlich seien alle Fassungen sehr gewissenhaft von Menschen übersetzt und außerdem Vers für Vers durchnummeriert worden. Das erleichtere einer Maschine die Zuordnung und sei bei anderen umfangreichen Schriftquellen wie dem Werk von William Shakespeare oder der Wikipedia nicht zwangsläufig der Fall. Als erste Demonstration haben die Forscher zwei Algorithmen, von denen einer auf neuronalen Netzen basierte, mit acht frei im Internet verfügbaren Bibelversionen trainiert. Anschließend testeten sie, wie gut die beiden Programme Verse der Vorlagen in einen gewünschten Stil übertrugen, ohne dass die Software auf die anvisierte Fassung der Bibel zugreifen konnte. Insgesamt seien die automatischen Übersetzer dem Ziel schon recht nahegekommen, berichten die Forscher. Sie sehen ihre Arbeit aber erst als Startpunkt bei der Entwicklung einer künstlichen Intelligenz, die souverän zwischen verschiedenen Sprachstilen wechseln kann."
    Source
    Spektrum der Wissenschaft. 2019, H.2, S.11
  4. Scherer Auberson, K.: Counteracting concept drift in natural language classifiers : proposal for an automated method (2018) 0.01
    0.006624432 = product of:
      0.03312216 = sum of:
        0.03312216 = weight(_text_:der in 2849) [ClassicSimilarity], result of:
          0.03312216 = score(doc=2849,freq=12.0), product of:
            0.091316424 = queryWeight, product of:
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.040880017 = queryNorm
            0.36271852 = fieldWeight in 2849, product of:
              3.4641016 = tf(freq=12.0), with freq of:
                12.0 = termFreq=12.0
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.046875 = fieldNorm(doc=2849)
      0.2 = coord(1/5)
    
    Abstract
    Natural Language Classifier helfen Unternehmen zunehmend dabei die Flut von Textdaten zu überwinden. Aber diese Classifier, einmal trainiert, verlieren mit der Zeit ihre Nützlichkeit. Sie bleiben statisch, aber die zugrundeliegende Domäne der Textdaten verändert sich: Ihre Genauigkeit nimmt aufgrund eines Phänomens ab, das als Konzeptdrift bekannt ist. Die Frage ist ob Konzeptdrift durch die Ausgabe eines Classifiers zuverlässig erkannt werden kann, und falls ja: ist es möglich dem durch nachtrainieren des Classifiers entgegenzuwirken. Es wird eine System-Implementierung mittels Proof-of-Concept vorgestellt, bei der das Konfidenzmass des Classifiers zur Erkennung von Konzeptdrift verwendet wird. Der Classifier wird dann iterativ neu trainiert, indem er Stichproben mit niedrigem Konfidenzmass auswählt, sie korrigiert und im Trainingsset der nächsten Iteration verwendet. Die Leistung des Classifiers wird über die Zeit gemessen, und die Leistung des Systems beobachtet. Basierend darauf werden schließlich Empfehlungen gegeben, die sich bei der Implementierung solcher Systeme als nützlich erweisen können.
  5. Geißler, S.: Maschinelles Lernen und NLP : Reif für die industrielle Anwendung! (2019) 0.01
    0.006624432 = product of:
      0.03312216 = sum of:
        0.03312216 = weight(_text_:der in 3547) [ClassicSimilarity], result of:
          0.03312216 = score(doc=3547,freq=12.0), product of:
            0.091316424 = queryWeight, product of:
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.040880017 = queryNorm
            0.36271852 = fieldWeight in 3547, product of:
              3.4641016 = tf(freq=12.0), with freq of:
                12.0 = termFreq=12.0
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.046875 = fieldNorm(doc=3547)
      0.2 = coord(1/5)
    
    Abstract
    Anwendungen von maschinellen Lernverfahren (ML) haben in jüngster Zeit aufsehenerregende Durchbrüche bei einer ganzen Reihe von Aufgaben in der maschinellen Sprachverarbeitung (NLP) erzielt. Der Fokus vieler Arbeiten liegt hierbei in der Entwicklung immer besserer Modelle, während der Anteil der Aufgaben in praktischen Projekten, der sich nicht mit Modellbildung, sondern mit Themen wie Datenbereitstellung sowie Evaluierung, Wartung und Deployment von Modellen beschäftigt, oftmals noch nicht ausreichend Beachtung erfährt. Im Ergebnis fehlen gerade Unternehmen, die nicht die Möglichkeit haben, eigene Plattformen für den Einsatz von ML und NLP zu entwerfen, oft geeignete Werkzeuge und Best Practices. Es ist zeichnet sich ab, dass in den kommenden Monaten eine gerade diesen praktischen Fragen zugewandte Ingenieurssicht auf ML und ihren Einsatz im Unternehmen an Bedeutung gewinnen wird.
  6. Hahn, U.: Methodische Grundlagen der Informationslinguistik (2013) 0.01
    0.0063743624 = product of:
      0.03187181 = sum of:
        0.03187181 = weight(_text_:der in 719) [ClassicSimilarity], result of:
          0.03187181 = score(doc=719,freq=4.0), product of:
            0.091316424 = queryWeight, product of:
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.040880017 = queryNorm
            0.34902605 = fieldWeight in 719, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.078125 = fieldNorm(doc=719)
      0.2 = coord(1/5)
    
    Source
    Grundlagen der praktischen Information und Dokumentation. Handbuch zur Einführung in die Informationswissenschaft und -praxis. 6., völlig neu gefaßte Ausgabe. Hrsg. von R. Kuhlen, W. Semar u. D. Strauch. Begründet von Klaus Laisiepen, Ernst Lutterbeck, Karl-Heinrich Meyer-Uhlenried
  7. Fegley, B.D.; Torvik, V.I.: On the role of poetic versus nonpoetic features in "kindred" and diachronic poetry attribution (2012) 0.01
    0.0056695566 = product of:
      0.028347783 = sum of:
        0.028347783 = weight(_text_:b in 488) [ClassicSimilarity], result of:
          0.028347783 = score(doc=488,freq=2.0), product of:
            0.14483635 = queryWeight, product of:
              3.542962 = idf(docFreq=3476, maxDocs=44218)
              0.040880017 = queryNorm
            0.19572285 = fieldWeight in 488, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.542962 = idf(docFreq=3476, maxDocs=44218)
              0.0390625 = fieldNorm(doc=488)
      0.2 = coord(1/5)
    
    Abstract
    Author attribution studies have demonstrated remarkable success in applying orthographic and lexicographic features of text in a variety of discrimination problems. What might poetic features, such as syllabic stress and mood, contribute? We address this question in the context of two different attribution problems: (a) kindred: differentiate Langston Hughes' early poems from those of kindred poets and (b) diachronic: differentiate Hughes' early from his later poems. Using a diverse set of 535 generic text features, each categorized as poetic or nonpoetic, correlation-based greedy forward search ranked the features and a support vector machine classified the poems. A small subset of features (~10) achieved cross-validated precision and recall as high as 87%. Poetic features (rhyme patterns particularly) were nearly as effective as nonpoetic in kindred discrimination, but less effective diachronically. In other words, Hughes used both poetic and nonpoetic features in distinctive ways and his use of nonpoetic features evolved systematically while he continued to experiment with poetic features. These findings affirm qualitative studies attesting to structural elements from Black oral tradition and Black folk music (blues) and to the internal consistency of Hughes' early poetry.
  8. Ye, Z.; He, B.; Wang, L.; Luo, T.: Utilizing term proximity for blog post retrieval (2013) 0.01
    0.0056695566 = product of:
      0.028347783 = sum of:
        0.028347783 = weight(_text_:b in 1126) [ClassicSimilarity], result of:
          0.028347783 = score(doc=1126,freq=2.0), product of:
            0.14483635 = queryWeight, product of:
              3.542962 = idf(docFreq=3476, maxDocs=44218)
              0.040880017 = queryNorm
            0.19572285 = fieldWeight in 1126, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.542962 = idf(docFreq=3476, maxDocs=44218)
              0.0390625 = fieldNorm(doc=1126)
      0.2 = coord(1/5)
    
  9. Malo, P.; Sinha, A.; Korhonen, P.; Wallenius, J.; Takala, P.: Good debt or bad debt : detecting semantic orientations in economic texts (2014) 0.01
    0.0056695566 = product of:
      0.028347783 = sum of:
        0.028347783 = weight(_text_:b in 1226) [ClassicSimilarity], result of:
          0.028347783 = score(doc=1226,freq=2.0), product of:
            0.14483635 = queryWeight, product of:
              3.542962 = idf(docFreq=3476, maxDocs=44218)
              0.040880017 = queryNorm
            0.19572285 = fieldWeight in 1226, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.542962 = idf(docFreq=3476, maxDocs=44218)
              0.0390625 = fieldNorm(doc=1226)
      0.2 = coord(1/5)
    
    Abstract
    The use of robo-readers to analyze news texts is an emerging technology trend in computational finance. Recent research has developed sophisticated financial polarity lexicons for investigating how financial sentiments relate to future company performance. However, based on experience from fields that commonly analyze sentiment, it is well known that the overall semantic orientation of a sentence may differ from that of individual words. This article investigates how semantic orientations can be better detected in financial and economic news by accommodating the overall phrase-structure information and domain-specific use of language. Our three main contributions are the following: (a) a human-annotated finance phrase bank that can be used for training and evaluating alternative models; (b) a technique to enhance financial lexicons with attributes that help to identify expected direction of events that affect sentiment; and (c) a linearized phrase-structure model for detecting contextual semantic orientations in economic texts. The relevance of the newly added lexicon features and the benefit of using the proposed learning algorithm are demonstrated in a comparative study against general sentiment models as well as the popular word frequency models used in recent financial studies. The proposed framework is parsimonious and avoids the explosion in feature space caused by the use of conventional n-gram features.
  10. Symonds, M.; Bruza, P.; Zuccon, G.; Koopman, B.; Sitbon, L.; Turner, I.: Automatic query expansion : a structural linguistic perspective (2014) 0.01
    0.0056695566 = product of:
      0.028347783 = sum of:
        0.028347783 = weight(_text_:b in 1338) [ClassicSimilarity], result of:
          0.028347783 = score(doc=1338,freq=2.0), product of:
            0.14483635 = queryWeight, product of:
              3.542962 = idf(docFreq=3476, maxDocs=44218)
              0.040880017 = queryNorm
            0.19572285 = fieldWeight in 1338, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.542962 = idf(docFreq=3476, maxDocs=44218)
              0.0390625 = fieldNorm(doc=1338)
      0.2 = coord(1/5)
    
  11. Reyes Ayala, B.; Knudson, R.; Chen, J.; Cao, G.; Wang, X.: Metadata records machine translation combining multi-engine outputs with limited parallel data (2018) 0.01
    0.0056695566 = product of:
      0.028347783 = sum of:
        0.028347783 = weight(_text_:b in 4010) [ClassicSimilarity], result of:
          0.028347783 = score(doc=4010,freq=2.0), product of:
            0.14483635 = queryWeight, product of:
              3.542962 = idf(docFreq=3476, maxDocs=44218)
              0.040880017 = queryNorm
            0.19572285 = fieldWeight in 4010, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.542962 = idf(docFreq=3476, maxDocs=44218)
              0.0390625 = fieldNorm(doc=4010)
      0.2 = coord(1/5)
    
  12. Agarwal, B.; Ramampiaro, H.; Langseth, H.; Ruocco, M.: ¬A deep network model for paraphrase detection in short text messages (2018) 0.01
    0.0056695566 = product of:
      0.028347783 = sum of:
        0.028347783 = weight(_text_:b in 5043) [ClassicSimilarity], result of:
          0.028347783 = score(doc=5043,freq=2.0), product of:
            0.14483635 = queryWeight, product of:
              3.542962 = idf(docFreq=3476, maxDocs=44218)
              0.040880017 = queryNorm
            0.19572285 = fieldWeight in 5043, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.542962 = idf(docFreq=3476, maxDocs=44218)
              0.0390625 = fieldNorm(doc=5043)
      0.2 = coord(1/5)
    
  13. Holland, M.: Erstes wissenschaftliches Buch eines Algorithmus' veröffentlicht (2019) 0.01
    0.0054648775 = product of:
      0.027324388 = sum of:
        0.027324388 = weight(_text_:der in 5227) [ClassicSimilarity], result of:
          0.027324388 = score(doc=5227,freq=6.0), product of:
            0.091316424 = queryWeight, product of:
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.040880017 = queryNorm
            0.29922754 = fieldWeight in 5227, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.0546875 = fieldNorm(doc=5227)
      0.2 = coord(1/5)
    
    Abstract
    Der Wissenschaftsverlag Springer Nature hat nach eigenen Angaben das erste Buch veröffentlicht, das von einem Algorithmus verfasst wurde. Bei Springer Nature ist das nach Angaben des Wissenschaftsverlags erste maschinengenerierte Buch erschienen: "Lithium-Ion Batteries - A Machine-Generated Summary of Current Research" biete einen Überblick über die neuesten Forschungspublikationen über Lithium-Ionen-Batterien, erklärte die Goethe-Universität Frankfurt am Main. Dort wurde im Bereich Angewandte Computerlinguistik unter der Leitung von Christian Chiarcos jenes Verfahren entwickelt, das Textinhalte automatisch analysiert und relevante Publikationen auswählen kann. Es heißt "Beta Writer" und steht als Autor über dem Buch.
    Content
    Das Buch enthält eine Einleitung, in der die Vorgehensweise zur Erstellung des Buches geschildert wird.
  14. Lobin, H: Computerlinguistik und Texttechnologie (2010) 0.01
    0.005408826 = product of:
      0.027044129 = sum of:
        0.027044129 = weight(_text_:der in 564) [ClassicSimilarity], result of:
          0.027044129 = score(doc=564,freq=8.0), product of:
            0.091316424 = queryWeight, product of:
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.040880017 = queryNorm
            0.29615843 = fieldWeight in 564, product of:
              2.828427 = tf(freq=8.0), with freq of:
                8.0 = termFreq=8.0
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.046875 = fieldNorm(doc=564)
      0.2 = coord(1/5)
    
    Abstract
    Computerlinguistik (die Verarbeitung von Sprache mit dem Computer) und Texttechnologie (die automatisierte Handhabung elektronischer Texte) haben im letzten Jahrzehnt unterschiedliche Richtungen eingeschlagen. Beide Disziplinen speisen sich jedoch aus der gleichen Quelle: der formalen Grammatik. Deshalb ist eine gemeinsame Darstellung sinnvoll. Der Bezug auf die gemeinsamen Grundlagen und die kontrastierende Gegenüberstellung einzelner Teilbereiche fördern das Verständnis der jeweils anderen Disziplin und eröffnen interessante Querbezüge. Erstmals wird die Verknüpfung von Computerlinguistik und Texttechnologie mit dieser Einführung in knapper Form systematisch vollzogen, was sie insbesondere für Module im Bachelor-Studium geeignet macht.
  15. Engerer, V.: Indexierungstheorie für Linguisten : zu einigen natürlichsprachlichen Zügen in künstlichen Indexsprachen (2014) 0.01
    0.005408826 = product of:
      0.027044129 = sum of:
        0.027044129 = weight(_text_:der in 3339) [ClassicSimilarity], result of:
          0.027044129 = score(doc=3339,freq=2.0), product of:
            0.091316424 = queryWeight, product of:
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.040880017 = queryNorm
            0.29615843 = fieldWeight in 3339, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.09375 = fieldNorm(doc=3339)
      0.2 = coord(1/5)
    
    Source
    Dialekte, Konzepte, Kontakte. Ergebnisse des Arbeitstreffens der Gesellschaft für Sprache und Sprachen, GeSuS e.V., 31. Mai - 1. Juni 2013 in Freiburg/Breisgau. Hrsg.: V. Schönenberger et al
  16. Heid, U.: Computerlinguistik zwischen Informationswissenschaft und multilingualer Kommunikation (2010) 0.01
    0.00509949 = product of:
      0.02549745 = sum of:
        0.02549745 = weight(_text_:der in 4018) [ClassicSimilarity], result of:
          0.02549745 = score(doc=4018,freq=4.0), product of:
            0.091316424 = queryWeight, product of:
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.040880017 = queryNorm
            0.27922085 = fieldWeight in 4018, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.0625 = fieldNorm(doc=4018)
      0.2 = coord(1/5)
    
    Abstract
    Dieser Beitrag widmet sich den Möglichkeiten der Interaktion zwischen Informationswissenschaft und Computerlinguistik. Dazu werden relevante Aspekte computerlinguistischer Forschung präsentiert, und ihr Potential für die Interaktion mit informationswissenschaftlichen Fragestellungen und Produkten wird erläutert. Im dritten Teil werden anhand der spezifischen Hildesheimer Situation Vorschläge für eine solche Interaktion diskutiert, und zwar im Dreieck: Informationswissenschaft, Computerlinguistik und Multilinguale Kommunikation.
  17. Becks, D.; Schulz, J.M.: Domänenübergreifende Phrasenextraktion mithilfe einer lexikonunabhängigen Analysekomponente (2010) 0.01
    0.00509949 = product of:
      0.02549745 = sum of:
        0.02549745 = weight(_text_:der in 4661) [ClassicSimilarity], result of:
          0.02549745 = score(doc=4661,freq=4.0), product of:
            0.091316424 = queryWeight, product of:
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.040880017 = queryNorm
            0.27922085 = fieldWeight in 4661, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.0625 = fieldNorm(doc=4661)
      0.2 = coord(1/5)
    
    Abstract
    Der vorliegende Artikel beschreibt einen neuartigen domänenübergreifenden Ansatz zur Extraktion von Phrasen, der sich mit geringem Aufwand und ohne komplexe Lexika umsetzen und auf andere Domänen übertragen lässt. Dies wird anhand von Kundenrezensionen und Patentschriften getestet.
  18. Menge-Sonnentag, R.: Google veröffentlicht einen Parser für natürliche Sprache (2016) 0.01
    0.00509949 = product of:
      0.02549745 = sum of:
        0.02549745 = weight(_text_:der in 2941) [ClassicSimilarity], result of:
          0.02549745 = score(doc=2941,freq=16.0), product of:
            0.091316424 = queryWeight, product of:
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.040880017 = queryNorm
            0.27922085 = fieldWeight in 2941, product of:
              4.0 = tf(freq=16.0), with freq of:
                16.0 = termFreq=16.0
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.03125 = fieldNorm(doc=2941)
      0.2 = coord(1/5)
    
    Abstract
    SyntaxNet zerlegt Sätze in ihre grammatikalischen Bestandteile und bestimmt die syntaktischen Beziehungen der Wörter untereinander. Das Framework ist Open Source und als TensorFlow Model implementiert. Ein Parser für natürliche Sprache ist eine Software, die Sätze in ihre grammatikalischen Bestandteile zerlegt. Diese Zerlegung ist notwendig, damit Computer Befehle verstehen oder Texte übersetzen können. Die digitalen Helfer wie Microsofts Cortana, Apples Siri und Google Now verwenden Parser, um Sätze wie "Stell den Wecker auf 5 Uhr!" richtig umzusetzen. SyntaxNet ist ein solcher Parser, den Google als TensorFlow Model veröffentlicht hat. Entwickler können eigene Modelle erstellen, und SnytaxNet bringt einen vortrainierten Parser für die englische Sprache mit, den seine Macher Parsey McParseface genannt haben.
    Content
    "Syntaktische Beziehungen Der Parser teilt den Wörtern eine syntaktische Funktion zu und untersucht die syntaktischen Beziehungen zwischen den Einzelteilen. Den englischen Beispielsatz aus dem Blog-Beitrag "Alice saw Bob" analysiert er folgendermaßen: "Alice" und "Bob" sind Substantive, und "saw" ist ein Verb. Letzteres ist gleichzeitig die Wurzel (ROOT), von der die restlichen Beziehungen ausgehen. Alice ist das zugehörige Subjekt (nsubj) und Bob das Objekt (dobj). Längere Sätze werden leicht mehrdeutig. Beispielsweise ist im Satz "Alice sah Bob mit dem Fernglas" nicht erkennbar, wer von den beiden das Fernglas in der Hand hält. Rein syntaktisch ist auch der Satz "Peter schneidet das Brot mit Sonnenblumenkernen" mehrdeutig. Das menschliche Gehirn erkennt die richtige Bedeutung recht zuverlässig, aber für maschinelle Parser stellen sie eine Herausforderung dar.
    SyntaxNet nutzt zur Entscheidung neuronale Netze und versucht die Abhängigkeiten richtig zuzuordnen. Damit "lernt" der Parser, dass es schwierig ist, Sonnenblumenkerne zum Schneiden einzusetzen, und sie somit wohl eher Bestandteil des Brots als ein Werkzeug sind. Die Analyse beschränkt sich jedoch auf den Satz selbst. Semantische Zusammenhänge berücksichtigt das Modell nicht. So lösen sich manche Mehrdeutigkeiten durch den Kontext auf: Wenn Alice im obigen Beispiel das Fernglas beim Verlassen des Hauses eingepackt hat, wird sie es vermutlich benutzen. Trefferquote Mensch vs. Maschine Laut dem Blog-Beitrag kommt Parsey McParseface auf eine Genauigkeit von gut 94 Prozent für Sätze aus dem Penn Treebank Project. Die menschliche Quote soll laut Linguisten bei 96 bis 97 Prozent liegen. Allerdings weist der Beitrag auch darauf hin, dass es sich bei den Testsätzen um wohlgeformte Texte handelt. Im Test mit Googles WebTreebank erreicht der Parser eine Genauigkeit von knapp 90 Prozent."
  19. Renker, L.: Exploration von Textkorpora : Topic Models als Grundlage der Interaktion (2015) 0.01
    0.005039376 = product of:
      0.02519688 = sum of:
        0.02519688 = weight(_text_:der in 2380) [ClassicSimilarity], result of:
          0.02519688 = score(doc=2380,freq=10.0), product of:
            0.091316424 = queryWeight, product of:
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.040880017 = queryNorm
            0.27592933 = fieldWeight in 2380, product of:
              3.1622777 = tf(freq=10.0), with freq of:
                10.0 = termFreq=10.0
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.0390625 = fieldNorm(doc=2380)
      0.2 = coord(1/5)
    
    Abstract
    Das Internet birgt schier endlose Informationen. Ein zentrales Problem besteht heutzutage darin diese auch zugänglich zu machen. Es ist ein fundamentales Domänenwissen erforderlich, um in einer Volltextsuche die korrekten Suchanfragen zu formulieren. Das ist jedoch oftmals nicht vorhanden, so dass viel Zeit aufgewandt werden muss, um einen Überblick des behandelten Themas zu erhalten. In solchen Situationen findet sich ein Nutzer in einem explorativen Suchvorgang, in dem er sich schrittweise an ein Thema heranarbeiten muss. Für die Organisation von Daten werden mittlerweile ganz selbstverständlich Verfahren des Machine Learnings verwendet. In den meisten Fällen bleiben sie allerdings für den Anwender unsichtbar. Die interaktive Verwendung in explorativen Suchprozessen könnte die menschliche Urteilskraft enger mit der maschinellen Verarbeitung großer Datenmengen verbinden. Topic Models sind ebensolche Verfahren. Sie finden in einem Textkorpus verborgene Themen, die sich relativ gut von Menschen interpretieren lassen und sind daher vielversprechend für die Anwendung in explorativen Suchprozessen. Nutzer können damit beim Verstehen unbekannter Quellen unterstützt werden. Bei der Betrachtung entsprechender Forschungsarbeiten fiel auf, dass Topic Models vorwiegend zur Erzeugung statischer Visualisierungen verwendet werden. Das Sensemaking ist ein wesentlicher Bestandteil der explorativen Suche und wird dennoch nur in sehr geringem Umfang genutzt, um algorithmische Neuerungen zu begründen und in einen umfassenden Kontext zu setzen. Daraus leitet sich die Vermutung ab, dass die Verwendung von Modellen des Sensemakings und die nutzerzentrierte Konzeption von explorativen Suchen, neue Funktionen für die Interaktion mit Topic Models hervorbringen und einen Kontext für entsprechende Forschungsarbeiten bieten können.
    Footnote
    Masterthesis zur Erlangung des akademischen Grades Master of Science (M.Sc.) vorgelegt an der Fachhochschule Köln / Fakultät für Informatik und Ingenieurswissenschaften im Studiengang Medieninformatik.
  20. Franke-Maier, M.: Computerlinguistik und Bibliotheken : Editorial (2016) 0.01
    0.005039376 = product of:
      0.02519688 = sum of:
        0.02519688 = weight(_text_:der in 3206) [ClassicSimilarity], result of:
          0.02519688 = score(doc=3206,freq=10.0), product of:
            0.091316424 = queryWeight, product of:
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.040880017 = queryNorm
            0.27592933 = fieldWeight in 3206, product of:
              3.1622777 = tf(freq=10.0), with freq of:
                10.0 = termFreq=10.0
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.0390625 = fieldNorm(doc=3206)
      0.2 = coord(1/5)
    
    Abstract
    Vor 50 Jahren, im Februar 1966, wies Floyd M. Cammack auf den Zusammenhang von "Linguistics and Libraries" hin. Er ging dabei von dem Eintrag für "Linguistics" in den Library of Congress Subject Headings (LCSH) von 1957 aus, der als Verweis "See Language and Languages; Philology; Philology, Comparative" enthielt. Acht Jahre später kamen unter dem Schlagwort "Language and Languages" Ergänzungen wie "language data processing", "automatic indexing", "machine translation" und "psycholinguistics" hinzu. Für Cammack zeigt sich hier ein Netz komplexer Wechselbeziehungen, die unter dem Begriff "Linguistics" zusammengefasst werden sollten. Dieses System habe wichtigen Einfluss auf alle, die mit dem Sammeln, Organisieren, Speichern und Wiederauffinden von Informationen befasst seien. (Cammack 1966:73). Hier liegt - im übertragenen Sinne - ein Heft vor Ihnen, in dem es um computerlinguistische Verfahren in Bibliotheken geht. Letztlich geht es um eine Versachlichung der Diskussion, um den Stellenwert der Inhaltserschliessung und die Rekalibrierung ihrer Wertschätzung in Zeiten von Mega-Indizes und Big Data. Der derzeitige Widerspruch zwischen dem Wunsch nach relevanter Treffermenge in Rechercheoberflächen vs. der Erfahrung des Relevanz-Rankings ist zu lösen. Explizit auch die Frage, wie oft wir von letzterem enttäuscht wurden und was zu tun ist, um das Verhältnis von recall und precision wieder in ein angebrachtes Gleichgewicht zu bringen. Unsere Nutzerinnen und Nutzer werden es uns danken.

Languages

  • d 29
  • e 22

Types

  • a 37
  • el 12
  • x 7
  • m 5
  • s 1
  • More… Less…