Search (664 results, page 1 of 34)

Granitzer, M.: Statistische Verfahren der Textanalyse (2006) 0.31

0.3054297 = product of:
  0.42760155 = sum of:
    0.094961956 = weight(_text_:methoden in 5809) [ClassicSimilarity], result of:
      0.094961956 = score(doc=5809,freq=2.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.40078837 = fieldWeight in 5809, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5809)
    0.030086353 = weight(_text_:und in 5809) [ClassicSimilarity], result of:
      0.030086353 = score(doc=5809,freq=6.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.2968967 = fieldWeight in 5809, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5809)
    0.26696095 = weight(_text_:techniken in 5809) [ClassicSimilarity], result of:
      0.26696095 = score(doc=5809,freq=8.0), product of:
        0.2809109 = queryWeight, product of:
          6.1439276 = idf(docFreq=257, maxDocs=44218)
          0.045721713 = queryNorm
        0.9503403 = fieldWeight in 5809, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          6.1439276 = idf(docFreq=257, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5809)
    0.0065428335 = weight(_text_:in in 5809) [ClassicSimilarity], result of:
      0.0065428335 = score(doc=5809,freq=2.0), product of:
        0.062193166 = queryWeight, product of:
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.045721713 = queryNorm
        0.10520181 = fieldWeight in 5809, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5809)
    0.029049452 = weight(_text_:den in 5809) [ClassicSimilarity], result of:
      0.029049452 = score(doc=5809,freq=2.0), product of:
        0.13104749 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.045721713 = queryNorm
        0.2216712 = fieldWeight in 5809, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5809)
  0.71428573 = coord(5/7)

Abstract: Der vorliegende Artikel bietet einen Überblick über statistische Verfahren der Textanalyse im Kontext des Semantic Webs. Als Einleitung erfolgt die Diskussion von Methoden und gängigen Techniken zur Vorverarbeitung von Texten wie z. B. Stemming oder Part-of-Speech Tagging. Die so eingeführten Repräsentationsformen dienen als Basis für statistische Merkmalsanalysen sowie für weiterführende Techniken wie Information Extraction und maschinelle Lernverfahren. Die Darstellung dieser speziellen Techniken erfolgt im Überblick, wobei auf die wichtigsten Aspekte in Bezug auf das Semantic Web detailliert eingegangen wird. Die Anwendung der vorgestellten Techniken zur Erstellung und Wartung von Ontologien sowie der Verweis auf weiterführende Literatur bilden den Abschluss dieses Artikels.

Krause, J.: Was leisten informationslinguistische Komponenten von Referenz-Retrievalsystemen für Massendaten? : Von der 'Pragmatik im Computer' zur Pragmatikanalyse als Designgrundlage (1986) 0.18

0.18059717 = product of:
  0.4213934 = sum of:
    0.16279194 = weight(_text_:methoden in 7395) [ClassicSimilarity], result of:
      0.16279194 = score(doc=7395,freq=2.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.6870658 = fieldWeight in 7395, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.09375 = fieldNorm(doc=7395)
    0.029777767 = weight(_text_:und in 7395) [ClassicSimilarity], result of:
      0.029777767 = score(doc=7395,freq=2.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.29385152 = fieldWeight in 7395, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.09375 = fieldNorm(doc=7395)
    0.22882368 = weight(_text_:techniken in 7395) [ClassicSimilarity], result of:
      0.22882368 = score(doc=7395,freq=2.0), product of:
        0.2809109 = queryWeight, product of:
          6.1439276 = idf(docFreq=257, maxDocs=44218)
          0.045721713 = queryNorm
        0.8145774 = fieldWeight in 7395, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          6.1439276 = idf(docFreq=257, maxDocs=44218)
          0.09375 = fieldNorm(doc=7395)
  0.42857143 = coord(3/7)

Source: Deutscher Dokumentartag 1986, Freiburg, 8.-10.10.1986: Bedarfsorientierte Fachinformation: Methoden und Techniken am Arbeitsplatz. Bearb.: H. Strohl-Goebel

Schwarz, C.; Thurmair, G.: REALIST: eine Retrievalhilfe mit informationslinguistischen Komponenten (1986) 0.18

0.18059717 = product of:
  0.4213934 = sum of:
    0.16279194 = weight(_text_:methoden in 493) [ClassicSimilarity], result of:
      0.16279194 = score(doc=493,freq=2.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.6870658 = fieldWeight in 493, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.09375 = fieldNorm(doc=493)
    0.029777767 = weight(_text_:und in 493) [ClassicSimilarity], result of:
      0.029777767 = score(doc=493,freq=2.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.29385152 = fieldWeight in 493, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.09375 = fieldNorm(doc=493)
    0.22882368 = weight(_text_:techniken in 493) [ClassicSimilarity], result of:
      0.22882368 = score(doc=493,freq=2.0), product of:
        0.2809109 = queryWeight, product of:
          6.1439276 = idf(docFreq=257, maxDocs=44218)
          0.045721713 = queryNorm
        0.8145774 = fieldWeight in 493, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          6.1439276 = idf(docFreq=257, maxDocs=44218)
          0.09375 = fieldNorm(doc=493)
  0.42857143 = coord(3/7)

Source: Deutscher Dokumentartag 1986, Freiburg, 8.-10.10.1986: Bedarfsorientierte Fachinformation: Methoden und Techniken am Arbeitsplatz. Bearb.: H. Strohl-Goebel

Computerlinguistik und Sprachtechnologie : Eine Einführung (2001) 0.14

0.14229037 = product of:
  0.24900813 = sum of:
    0.14098196 = weight(_text_:methoden in 1749) [ClassicSimilarity], result of:
      0.14098196 = score(doc=1749,freq=6.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.5950165 = fieldWeight in 1749, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.046875 = fieldNorm(doc=1749)
    0.053682633 = weight(_text_:und in 1749) [ClassicSimilarity], result of:
      0.053682633 = score(doc=1749,freq=26.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.5297484 = fieldWeight in 1749, product of:
          5.0990195 = tf(freq=26.0), with freq of:
            26.0 = termFreq=26.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.046875 = fieldNorm(doc=1749)
    0.011216287 = weight(_text_:in in 1749) [ClassicSimilarity], result of:
      0.011216287 = score(doc=1749,freq=8.0), product of:
        0.062193166 = queryWeight, product of:
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.045721713 = queryNorm
        0.18034597 = fieldWeight in 1749, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.046875 = fieldNorm(doc=1749)
    0.043127254 = weight(_text_:den in 1749) [ClassicSimilarity], result of:
      0.043127254 = score(doc=1749,freq=6.0), product of:
        0.13104749 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.045721713 = queryNorm
        0.32909638 = fieldWeight in 1749, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.046875 = fieldNorm(doc=1749)
  0.5714286 = coord(4/7)

Abstract: Dieses Lehrbuch bietet eine umfassende Einführung in Grundlagen und Methoden der Computerlinguistik und stellt die wichtigsten Anwendungsgebiete in der Sprachtechnologie vor. Es richtet sich gleichermaßen an Studierende der Computerlinguistik und verwandter Fächer mit Bezug zur Verarbeitung natürlicher Sprache wie an Entwickler sprachverarbeitender Systeme. Nach einem Überblick über Aufgaben und Ziele der Computerlinguistik werden die erforderlichen theoretischen Grundlagen zur Logik, den Formalen Sprachen und statistischen Verfahren ausführlich und beispielbezogen erläutert. Es schließt sich eine Darstellung der verschiedenen Methoden für die Verarbeitung auf den linguistischen Beschreibungsebenen an. Dabei werden zunächst die grundlegenden Begriffe und Konzepte der Phonetik, Morphologie, Syntax, Semantik sowie der Pragmatik vermittelt und darauf aufbauend die Prinzipien der sprachtechnologischen Umsetzung behandelt. Der letzte Teil des Buchs gibt einen Überblick über die sprachtechnologischen Anwendungen in der Praxis und zeigt anhand einer Vielzahl konkreter Fragestellungen - von Spracherkennung über Sprachsynthese, Information Retrieval bis hin zu Dialogsystemen und automatischer Übersetzung - das Zusammenwirken der einzelnen Methoden auf. "Durch dieses Handbuch wird für den deutschsprachigen Raum eine empfindliche Lücke geschlossen. Es umfasst die relevanten Aspekte computerlinguistischer Grundlagenwissenschaft und sprachtechnologischer Anwendung in eindrucksvoller Breite und auf aktuellem Stand" [Manfred Pinkal]

Budin, G.: Zum Entwicklungsstand der Terminologiewissenschaft (2019) 0.13

0.1294939 = product of:
  0.22661433 = sum of:
    0.13429649 = weight(_text_:methoden in 5604) [ClassicSimilarity], result of:
      0.13429649 = score(doc=5604,freq=4.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.56680036 = fieldWeight in 5604, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5604)
    0.045957662 = weight(_text_:und in 5604) [ClassicSimilarity], result of:
      0.045957662 = score(doc=5604,freq=14.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.4535172 = fieldWeight in 5604, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5604)
    0.017310712 = weight(_text_:in in 5604) [ClassicSimilarity], result of:
      0.017310712 = score(doc=5604,freq=14.0), product of:
        0.062193166 = queryWeight, product of:
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.045721713 = queryNorm
        0.27833787 = fieldWeight in 5604, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5604)
    0.029049452 = weight(_text_:den in 5604) [ClassicSimilarity], result of:
      0.029049452 = score(doc=5604,freq=2.0), product of:
        0.13104749 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.045721713 = queryNorm
        0.2216712 = fieldWeight in 5604, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5604)
  0.5714286 = coord(4/7)

Abstract: In diesem Aufsatz wird der Entwicklungsstand der Terminologiewissenschaft auf 3 Ebenen analysiert: (1) in Bezug auf die Forschungsfragen, die in Forschungsprojekten, universitären Qualifizierungsarbeiten und anderen Forschungskontexten gestellt und auf der Basis empirischer Analysen beantwortet werden, darauf aufbauend (2) in Bezug auf die Methoden, die dabei verwendet werden, die Theorien, die solchen Arbeiten zugrunde gelegt werden, und die Paradigmen, in denen sich die Theorien und Methoden verorten lassen, sowie (3) in Bezug auf die darüber liegende Ebene der Terminologiewissenschaft als Disziplin. Auf allen 3 Ebenen lässt sich feststellen, dass der interdisziplinäre und multiperspektivische Charakter der Terminologiewissenschaft in den letzten Jahrzehnten zugenommen hat und sich weiter verstärkt.
Series: Kommunikation und Medienmanagement - Springer eBooks. Computer Science and Engineering

Computerlinguistik und Sprachtechnologie : Eine Einführung (2010) 0.11
```
0.107731655 = product of:
  0.18853039 = sum of:
    0.10852795 = weight(_text_:methoden in 1735) [ClassicSimilarity], result of:
      0.10852795 = score(doc=1735,freq=8.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.45804384 = fieldWeight in 1735, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.03125 = fieldNorm(doc=1735)
    0.038442936 = weight(_text_:und in 1735) [ClassicSimilarity], result of:
      0.038442936 = score(doc=1735,freq=30.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.3793607 = fieldWeight in 1735, product of:
          5.477226 = tf(freq=30.0), with freq of:
            30.0 = termFreq=30.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=1735)
    0.008360127 = weight(_text_:in in 1735) [ClassicSimilarity], result of:
      0.008360127 = score(doc=1735,freq=10.0), product of:
        0.062193166 = queryWeight, product of:
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.045721713 = queryNorm
        0.13442196 = fieldWeight in 1735, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.03125 = fieldNorm(doc=1735)
    0.033199377 = weight(_text_:den in 1735) [ClassicSimilarity], result of:
      0.033199377 = score(doc=1735,freq=8.0), product of:
        0.13104749 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.045721713 = queryNorm
        0.25333852 = fieldWeight in 1735, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.03125 = fieldNorm(doc=1735)
  0.5714286 = coord(4/7)
```
Abstract

Dieses Lehrbuch bietet eine umfassende Einführung in Grundlagen und Methoden der Computerlinguistik und stellt die wichtigsten Anwendungsgebiete in der Sprachtechnologie vor. Es richtet sich gleichermaßen an Studierende der Computerlinguistik und verwandter Fächer mit Bezug zur Verarbeitung natürlicher Sprache wie an Entwickler sprachverarbeitender Systeme. Nach einem Überblick über Aufgaben und Ziele der Computerlinguistik werden die erforderlichen theoretischen Grundlagen zur Logik, den Formalen Sprachen, der Graphentheorie, den statistischen Verfahren sowie der Texttechnologie beispielbezogen erläutert. Es schließt sich eine Darstellung der verschiedenen Methoden für die Verarbeitung auf den linguistischen Beschreibungsebenen an. Dabei werden zunächst die grundlegenden Begriffe und Konzepte der Phonetik und Phonologie, Morphologie, Syntax, Semantik sowie der Pragmatik vermittelt und darauf aufbauend die Prinzipien der sprachtechnologischen Umsetzung behandelt. Die drei letzten Teile des Buchs geben Überblicke über die verwendeten sprachtechnologischen Informationsquellen, die vielfältigen Anwendungen in der Praxis sowie über Evaluationsverfahren für sprachverarbeitende Systeme. Anhand konkreter Fragestellungen - von der Entwicklung von Korrekturprogrammen über das Informationsmanagement bis zur Maschinellen Übersetzung - wird das Zusammenwirken der einzelnen Methoden aufgezeigt. Für die dritte Auflage wurden sämtliche Kapitel überarbeitet und aktualisiert sowie zum Teil zu eigenständigen, neuen Kapiteln zusammengeführt. Insbesondere trägt die dritte Auflage der rasanten Entwicklung in der Computerlinguistik und Sprachtechnologie durch eine stärkere Fokussierung auf statistische Grundlagen und Methoden Rechnung. "Durch dieses Handbuch wird für den deutschsprachigen Raum eine empfindliche Lücke geschlossen. Es umfasst die relevanten Aspekte computerlinguistischer Grundlagenwissenschaft und sprachtechnologischer Anwendung in eindrucksvoller Breite und auf aktuellem Stand." [Manfred Pinkal]

BK

18.00 Einzelne Sprachen und Literaturen allgemein

Classification

18.00 Einzelne Sprachen und Literaturen allgemein

Strube, M.: Kreativ durch Analogien (2011) 0.11

0.10579168 = product of:
  0.18513544 = sum of:
    0.094961956 = weight(_text_:methoden in 4805) [ClassicSimilarity], result of:
      0.094961956 = score(doc=4805,freq=2.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.40078837 = fieldWeight in 4805, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.0546875 = fieldNorm(doc=4805)
    0.04254853 = weight(_text_:und in 4805) [ClassicSimilarity], result of:
      0.04254853 = score(doc=4805,freq=12.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.41987535 = fieldWeight in 4805, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0546875 = fieldNorm(doc=4805)
    0.0065428335 = weight(_text_:in in 4805) [ClassicSimilarity], result of:
      0.0065428335 = score(doc=4805,freq=2.0), product of:
        0.062193166 = queryWeight, product of:
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.045721713 = queryNorm
        0.10520181 = fieldWeight in 4805, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.0546875 = fieldNorm(doc=4805)
    0.041082133 = weight(_text_:den in 4805) [ClassicSimilarity], result of:
      0.041082133 = score(doc=4805,freq=4.0), product of:
        0.13104749 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.045721713 = queryNorm
        0.31349042 = fieldWeight in 4805, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0546875 = fieldNorm(doc=4805)
  0.5714286 = coord(4/7)

Abstract: Gleiche Strukturen erkennen bei Dingen, die auf den ersten Blick nichts miteinander gemein haben: Das ist das Arbeitsprinzip, mit dem die interdisziplinäre Computerlinguistik ihre Erfolge erzielt.
Content: "Die Computerlinguistik vereinigt Elemente von Informatik und Linguistik; sie verwendet darüber hinaus Methoden aus weiteren Gebieten wie Mathematik, Psychologie, Statistik und künstliche Intelligenz. Der Reiz und die Herausforderung einer solchen interdisziplinären Wissenschaft liegen darin, Analogien zwischen Konzepten aus weit entfernten Teilgebieten zu erkennen und zu nutzen. Paradebeispiel dafür ist einer der entscheidenden Durchbrüche, welche die Computerlinguistik prägten. Es geht um das »Parsing«: Ein Computerprogramm, genauer gesagt ein Compiler, nimmt Zeichen für Zeichen den Input des Benutzers entgegen, der in diesem Fall seinerseits aus dem Text eines Computerprogramms besteht, und ermittelt dessen Struktur. Im Prinzip dasselbe tut ein Mensch, der einen gesprochenen Satz hört und versteht."

Schürmann, H.: Software scannt Radio- und Fernsehsendungen : Recherche in Nachrichtenarchiven erleichtert (2001) 0.10
```
0.104892 = product of:
  0.1468488 = sum of:
    0.047480978 = weight(_text_:methoden in 5759) [ClassicSimilarity], result of:
      0.047480978 = score(doc=5759,freq=2.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.20039418 = fieldWeight in 5759, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.02734375 = fieldNorm(doc=5759)
    0.03785783 = weight(_text_:und in 5759) [ClassicSimilarity], result of:
      0.03785783 = score(doc=5759,freq=38.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.3735868 = fieldWeight in 5759, product of:
          6.164414 = tf(freq=38.0), with freq of:
            38.0 = termFreq=38.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02734375 = fieldNorm(doc=5759)
    0.012240521 = weight(_text_:in in 5759) [ClassicSimilarity], result of:
      0.012240521 = score(doc=5759,freq=28.0), product of:
        0.062193166 = queryWeight, product of:
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.045721713 = queryNorm
        0.19681457 = fieldWeight in 5759, product of:
          5.2915025 = tf(freq=28.0), with freq of:
            28.0 = termFreq=28.0
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.02734375 = fieldNorm(doc=5759)
    0.038428817 = weight(_text_:den in 5759) [ClassicSimilarity], result of:
      0.038428817 = score(doc=5759,freq=14.0), product of:
        0.13104749 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.045721713 = queryNorm
        0.29324344 = fieldWeight in 5759, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.02734375 = fieldNorm(doc=5759)
    0.010840657 = product of:
      0.021681314 = sum of:
        0.021681314 = weight(_text_:22 in 5759) [ClassicSimilarity], result of:
          0.021681314 = score(doc=5759,freq=2.0), product of:
            0.16010965 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.045721713 = queryNorm
            0.1354154 = fieldWeight in 5759, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.02734375 = fieldNorm(doc=5759)
      0.5 = coord(1/2)
  0.71428573 = coord(5/7)
```
Content

Um Firmen und Agenturen die Beobachtungen von Medien zu erleichtern, entwickeln Forscher an der Duisburger Hochschule zurzeit ein System zur automatischen Themenerkennung in Rundfunk und Fernsehen. Das so genannte Alert-System soll dem Nutzer helfen, die für ihn relevanten Sprachinformationen aus Nachrichtensendungen herauszufiltem und weiterzuverarbeiten. Durch die automatische Analyse durch den Computer können mehrere Programme rund um die Uhr beobachtet werden. Noch erfolgt die Informationsgewinnung aus TV- und Radiosendungen auf klassischem Wege: Ein Mensch sieht, hört, liest und wertet aus. Das ist enorm zeitaufwendig und für eine Firma, die beispielsweise die Konkurrenz beobachten oder ihre Medienpräsenz dokumentieren lassen möchte, auch sehr teuer. Diese Arbeit ließe sich mit einem Spracherkenner automatisieren, sagten sich die Duisburger Forscher. Sie arbeiten nun zusammen mit Partnern aus Deutschland, Frankreich und Portugal in einem europaweiten Projekt an der Entwicklung einer entsprechenden Technologie (http://alert.uni-duisburg.de). An dem Projekt sind auch zwei Medienbeobachtungsuntemehmen beteiligt, die Oberserver Argus Media GmbH aus Baden-Baden und das französische Unternehmen Secodip. Unsere Arbeit würde schon dadurch erleichtert, wenn Informationen, die über unsere Kunden in den Medien erscheinen, vorselektiert würden", beschreibt Simone Holderbach, Leiterin der Produktentwicklung bei Oberserver, ihr Interesse an der Technik. Und wie funktioniert Alert? Das Spracherkennungssystem wird darauf getrimmt, Nachrichtensendungen in Radio und Fernsehen zu überwachen: Alles, was gesagt wird - sei es vom Nachrichtensprecher, Reporter oder Interviewten -, wird durch die automatische Spracherkennung in Text umgewandelt. Dabei werden Themen und Schlüsselwörter erkannt und gespeichert. Diese werden mit den Suchbegriffen des Nutzers verglichen. Gefundene Übereinstimmungen werden angezeigt und dem Benutzer automatisch mitgeteilt. Konventionelle Spracherkennungstechnik sei für die Medienbeobachtung nicht einsetzbar, da diese für einen anderen Zweck entwickelt worden sei, betont Prof. Gerhard Rigoll, Leiter des Fachgebiets Technische Informatik an der Duisburger Hochschule. Für die Umwandlung von Sprache in Text wurde die Alert-Software gründlich trainiert. Aus Zeitungstexten, Audio- und Video-Material wurden bislang rund 3 50 Millionen Wörter verarbeitet. Das System arbeitet in drei Sprachen. Doch so ganz fehlerfrei sei der automatisch gewonnene Text nicht, räumt Rigoll ein. Zurzeit liegt die Erkennungsrate bei 40 bis 70 Prozent. Und das wird sich in absehbarer Zeit auch nicht ändern." Musiküberlagerungen oder starke Hintergrundgeräusche bei Reportagen führen zu Ungenauigkeiten bei der Textumwandlung. Deshalb haben die, Duisburger Wissenschaftler Methoden entwickelt, die über die herkömmliche Suche nach Schlüsselwörtern hinausgehen und eine inhaltsorientierte Zuordnung ermöglichen. Dadurch erhält der Nutzer dann auch solche Nachrichten, die zwar zum Thema passen, in denen das Stichwort aber gar nicht auftaucht", bringt Rigoll den Vorteil der Technik auf den Punkt. Wird beispielsweise "Ölpreis" als Suchbegriff eingegeben, werden auch solche Nachrichten angezeigt, in denen Olkonzerne und Energieagenturen eine Rolle spielen. Rigoll: Das Alert-System liest sozusagen zwischen den Zeilen!' Das Forschungsprojekt wurde vor einem Jahr gestartet und läuft noch bis Mitte 2002. Wer sich über den Stand der Technik informieren möchte, kann dies in dieser Woche auf der Industriemesse in Hannover. Das Alert-System wird auf dem Gemeinschaftsstand "Forschungsland NRW" in Halle 18, Stand M12, präsentiert

Source

Handelsblatt. Nr.79 vom 24.4.2001, S.22

Volk, M.; Mittermaier, H.; Schurig, A.; Biedassek, T.: Halbautomatische Volltextanalyse, Datenbankaufbau und Document Retrieval (1992) 0.10

0.10460272 = product of:
  0.18305475 = sum of:
    0.094961956 = weight(_text_:methoden in 2571) [ClassicSimilarity], result of:
      0.094961956 = score(doc=2571,freq=2.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.40078837 = fieldWeight in 2571, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.0546875 = fieldNorm(doc=2571)
    0.045957662 = weight(_text_:und in 2571) [ClassicSimilarity], result of:
      0.045957662 = score(doc=2571,freq=14.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.4535172 = fieldWeight in 2571, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0546875 = fieldNorm(doc=2571)
    0.013085667 = weight(_text_:in in 2571) [ClassicSimilarity], result of:
      0.013085667 = score(doc=2571,freq=8.0), product of:
        0.062193166 = queryWeight, product of:
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.045721713 = queryNorm
        0.21040362 = fieldWeight in 2571, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.0546875 = fieldNorm(doc=2571)
    0.029049452 = weight(_text_:den in 2571) [ClassicSimilarity], result of:
      0.029049452 = score(doc=2571,freq=2.0), product of:
        0.13104749 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.045721713 = queryNorm
        0.2216712 = fieldWeight in 2571, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0546875 = fieldNorm(doc=2571)
  0.5714286 = coord(4/7)

Abstract: In diesem Aufsatz beschreiben wir ein System zur Analyse von Kurzartikeln. Das System arbeitet halbautomatisch. Das heißt, zunächst wird der Artikel vom System analysiert und dann dem benutzer zur Nachberarbeitung vorgelegt. Die so gewonnene Information wird in einem Datenbankeintrag abgelegt. Über die Datenbank - in dBase IV implementiert - sind dann Abfragen und Zugriffe auf die Originaltexte effizient möglich. Der Kern dieses Aufsatzes betrifft die halbautomatische Analyse. Wir beschreiben unser Verfahren für parametrisiertes Pattern Matching sowie linguistische Heuristiken zur Ermittlung von Nominalphrasen und Präpositionalphrasen. Das System wurde für den praktischen Einsatz im Bonner Büro des 'Forums InformatikerInnen Für Frieden und gesellschaftliche Verantwortung e.V. (FIFF)' entwickelt
Source: Datenanalyse, Klassifikation und Informationsverarbeitung: Methoden und Anwendungen in verschiedenen Fachgebieten. Hrsg.: H. Goebl u. M. Schader

Ruge, G.: Sprache und Computer : Wortbedeutung und Termassoziation. Methoden zur automatischen semantischen Klassifikation (1995) 0.10

0.10009631 = product of:
  0.17516853 = sum of:
    0.10852795 = weight(_text_:methoden in 1534) [ClassicSimilarity], result of:
      0.10852795 = score(doc=1534,freq=2.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.45804384 = fieldWeight in 1534, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.0625 = fieldNorm(doc=1534)
    0.034384403 = weight(_text_:und in 1534) [ClassicSimilarity], result of:
      0.034384403 = score(doc=1534,freq=6.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.33931053 = fieldWeight in 1534, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0625 = fieldNorm(doc=1534)
    0.0074775247 = weight(_text_:in in 1534) [ClassicSimilarity], result of:
      0.0074775247 = score(doc=1534,freq=2.0), product of:
        0.062193166 = queryWeight, product of:
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.045721713 = queryNorm
        0.120230645 = fieldWeight in 1534, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.0625 = fieldNorm(doc=1534)
    0.024778644 = product of:
      0.049557287 = sum of:
        0.049557287 = weight(_text_:22 in 1534) [ClassicSimilarity], result of:
          0.049557287 = score(doc=1534,freq=2.0), product of:
            0.16010965 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.045721713 = queryNorm
            0.30952093 = fieldWeight in 1534, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0625 = fieldNorm(doc=1534)
      0.5 = coord(1/2)
  0.5714286 = coord(4/7)

Footnote: Rez. in: Knowledge organization 22(1995) no.3/4, S.182-184 (M.T. Rolland)
Series: Sprache und Computer; Bd.14

Helbig, H.; Gnörlich, C.; Leveling, J.: Natürlichsprachlicher Zugang zu Informationsanbietern im Internet und zu lokalen Datenbanken (2000) 0.10

0.0987021 = product of:
  0.17272867 = sum of:
    0.09592607 = weight(_text_:methoden in 5558) [ClassicSimilarity], result of:
      0.09592607 = score(doc=5558,freq=4.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.4048574 = fieldWeight in 5558, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5558)
    0.035093434 = weight(_text_:und in 5558) [ClassicSimilarity], result of:
      0.035093434 = score(doc=5558,freq=16.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.34630734 = fieldWeight in 5558, product of:
          4.0 = tf(freq=16.0), with freq of:
            16.0 = termFreq=16.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5558)
    0.012364795 = weight(_text_:in in 5558) [ClassicSimilarity], result of:
      0.012364795 = score(doc=5558,freq=14.0), product of:
        0.062193166 = queryWeight, product of:
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.045721713 = queryNorm
        0.19881277 = fieldWeight in 5558, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5558)
    0.029344378 = weight(_text_:den in 5558) [ClassicSimilarity], result of:
      0.029344378 = score(doc=5558,freq=4.0), product of:
        0.13104749 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.045721713 = queryNorm
        0.22392172 = fieldWeight in 5558, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5558)
  0.5714286 = coord(4/7)

Abstract: Die Schaffung eines natürlichsprachlichen Interfaces (NLI), (das einem Nutzer die Formulierung von Anfragen an Informationsanbieter in seiner Muttersprache erlaubt, stellt eine der interessantesten Herausforderungen im Bereich des Information-Retrieval und der Verarbeitung natürlicher Sprache dar. Dieser Beitrag beschreibt Methoden zur Obersetzung natürlichsprachlicher Anfragen in Ausdrücke formaler Retrievalsprachen sowohl für Informationsressourcen im Internet als auch für lokale Datenbanken. Die vorgestellten Methoden sind Teil das Informationsrecherchesystems LINAS, das an der Fernuniversität Hagen entwickelt wurde, um Nutzern einen natürlichsprachlichen Zugang zu lokalen und zu im Internet verteilten wissenschaftlichen und technischen Informationen anzubieten. Das LINAS-System unterscheidet sich von anderen Systemen und natürlichsprachlichen Interfaces (vgl. OSIRIS) oder die früheren Systeme INTELLECT, Q&A durch die explizite Einbeziehung von Hintergrundwissen und speziellen Dialogmodellen in den Übersetzungsprozeß. Darüber hinaus ist das System auf ein vollständiges Verstehen des natürlichsprachlichen Textes ausgerichtet, während andere Systeme typischerweise nur nach Stichworten oder bestimmten grammatikalischen Mustern in der Eingabe suchen. Ein besonderer Schwerpunkt von LINAS liegt in der Repräsentation und Auswertung der semantischen Relationen zwischen den in der Nutzeranfrage gegebenen Konzepten
Source: Sprachtechnologie für eine dynamische Wirtschaft im Medienzeitalter - Language technologies for dynamic business in the age of the media - L'ingénierie linguistique au service de la dynamisation économique à l'ère du multimédia: Tagungsakten der XXVI. Jahrestagung der Internationalen Vereinigung Sprache und Wirtschaft e.V., 23.-25.11.2000, Fachhochschule Köln. Hrsg.: K.-D. Schmitz

Hahn, U.: Automatische Sprachverarbeitung (2023) 0.10

0.09600292 = product of:
  0.16800511 = sum of:
    0.094961956 = weight(_text_:methoden in 790) [ClassicSimilarity], result of:
      0.094961956 = score(doc=790,freq=2.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.40078837 = fieldWeight in 790, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.0546875 = fieldNorm(doc=790)
    0.034740727 = weight(_text_:und in 790) [ClassicSimilarity], result of:
      0.034740727 = score(doc=790,freq=8.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.34282678 = fieldWeight in 790, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0546875 = fieldNorm(doc=790)
    0.009252965 = weight(_text_:in in 790) [ClassicSimilarity], result of:
      0.009252965 = score(doc=790,freq=4.0), product of:
        0.062193166 = queryWeight, product of:
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.045721713 = queryNorm
        0.14877784 = fieldWeight in 790, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.0546875 = fieldNorm(doc=790)
    0.029049452 = weight(_text_:den in 790) [ClassicSimilarity], result of:
      0.029049452 = score(doc=790,freq=2.0), product of:
        0.13104749 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.045721713 = queryNorm
        0.2216712 = fieldWeight in 790, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0546875 = fieldNorm(doc=790)
  0.5714286 = coord(4/7)

Abstract: Dieses Kapitel gibt eine Übersicht über die maschinelle Verarbeitung natürlicher Sprachen (wie das Deutsche oder Englische; natural language - NL) durch Computer. Grundlegende Konzepte der automatischen Sprachverarbeitung (natural language processing - NLP) stammen aus der Sprachwissenschaft (s. Abschnitt 2) und sind in zunehmend selbstständiger Weise mit formalen Methoden und technischen Grundlagen der Informatik in einer eigenständigen Disziplin, der Computerlinguistik (CL; s. Abschnitte 3 und 4), verknüpft worden. Natürlichsprachliche Systeme (NatS) mit anwendungsbezogenen Funktionalitätsvorgaben bilden den Kern der informationswissenschaftlich geprägten NLP, die häufig als Sprachtechnologie oder im Deutschen auch (mittlerweile veraltet) als Informationslinguistik bezeichnet wird (s. Abschnitt 5).
Source: Grundlagen der Informationswissenschaft. Hrsg.: Rainer Kuhlen, Dirk Lewandowski, Wolfgang Semar und Christa Womser-Hacker. 7., völlig neu gefasste Ausg

Boleda, G.; Evert, S.: Multiword expressions : a pain in the neck of lexical semantics (2009) 0.09

0.09050408 = product of:
  0.21117619 = sum of:
    0.16279194 = weight(_text_:methoden in 4888) [ClassicSimilarity], result of:
      0.16279194 = score(doc=4888,freq=2.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.6870658 = fieldWeight in 4888, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.09375 = fieldNorm(doc=4888)
    0.011216287 = weight(_text_:in in 4888) [ClassicSimilarity], result of:
      0.011216287 = score(doc=4888,freq=2.0), product of:
        0.062193166 = queryWeight, product of:
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.045721713 = queryNorm
        0.18034597 = fieldWeight in 4888, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.09375 = fieldNorm(doc=4888)
    0.037167966 = product of:
      0.07433593 = sum of:
        0.07433593 = weight(_text_:22 in 4888) [ClassicSimilarity], result of:
          0.07433593 = score(doc=4888,freq=2.0), product of:
            0.16010965 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.045721713 = queryNorm
            0.46428138 = fieldWeight in 4888, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.09375 = fieldNorm(doc=4888)
      0.5 = coord(1/2)
  0.42857143 = coord(3/7)

Abstract: Mit einem Überblick über: Probleme, Methoden, Stand der Forschung u. Literatur.
Date: 1. 3.2013 14:56:22

Thiel, M.: Bedingt wahrscheinliche Syntaxbäume (2006) 0.09
```
0.08773986 = product of:
  0.15354475 = sum of:
    0.07674085 = weight(_text_:methoden in 6069) [ClassicSimilarity], result of:
      0.07674085 = score(doc=6069,freq=4.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.32388592 = fieldWeight in 6069, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.03125 = fieldNorm(doc=6069)
    0.042112123 = weight(_text_:und in 6069) [ClassicSimilarity], result of:
      0.042112123 = score(doc=6069,freq=36.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.41556883 = fieldWeight in 6069, product of:
          6.0 = tf(freq=36.0), with freq of:
            36.0 = termFreq=36.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=6069)
    0.011216287 = weight(_text_:in in 6069) [ClassicSimilarity], result of:
      0.011216287 = score(doc=6069,freq=18.0), product of:
        0.062193166 = queryWeight, product of:
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.045721713 = queryNorm
        0.18034597 = fieldWeight in 6069, product of:
          4.2426405 = tf(freq=18.0), with freq of:
            18.0 = termFreq=18.0
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.03125 = fieldNorm(doc=6069)
    0.023475504 = weight(_text_:den in 6069) [ClassicSimilarity], result of:
      0.023475504 = score(doc=6069,freq=4.0), product of:
        0.13104749 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.045721713 = queryNorm
        0.17913738 = fieldWeight in 6069, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.03125 = fieldNorm(doc=6069)
  0.5714286 = coord(4/7)
```
Abstract

Es wird argumentiert, dass die Ansätze der probabilistischen kontextfreien Grammatiken und anderer Modelle nicht ausreichend sind für die Lösung der im Parsing auftretenden Probleme. Zu deren Lösung wird folgende Hypothese aufgestellt: Die Wahrscheinlichkeiten einzelner Lesarten und verschiedener Knoten in einem Syntaxbaum sind voneinander abhängig. Vereindeutigt man eine Lesart bzw. einen Knoten, hat dies Auswirkungen auf die Wahrscheinlichkeit anderer Lesarten bzw. Knoten. Daher werden alle Lesarten und Syntaxbäume in einen Graphen integriert. Wenn die Wahrscheinlichkeiten also voneinander abhängig sind, wird angenommen, dass die Theorie der bedingten Wahrscheinlichkeiten von Bayes als Basis eine Lösung produzieren sollte. An einem Beispiel wird dies nachvollzogen und die Hypothese konnte bestätigt werden.
Die Tendenz ist eindeutig: wo immer es sinnvoll ist, werden hart' programmierte Lösungen durch Ansätze des Softcomputing ersetzt. Vor allem technische und kommerzielle Bereiche profitieren davon. So finden wir Kransteuerungen und viele andere Anwendungen mit Fuzzy Expertensystemen sowie Bilderkennungssysteme und Entscheidungen über die Kreditvergabe mit Neuronalen Netzen oder auch Methoden des Maschinellen Lernens (vgl. Jafar-Shaghaghi 1994). Ein Prinzip dieser Ansätze ist, dass die Software sich automatisch an die spezielle Situation und Datengrundlage der Anwendung anpasst. Flexibilität der Anpassung und die Fähigkeit zur Verallgemeinerung auf bislang ungesehene Fälle sind implizit in den Methoden vorhanden. Gerade dies ist auch ein typisches Problem, das bei der Beschreibung und vor allem beim Parsen natürlicher Sprache auftritt. Bei der Verarbeitung natürlicher Sprache kommt das leidige Problem der Ambiguität auf verschiedenen Ebenen hinzu. Alternative Regeln schließen sich in ihrer Anwendung in einem Satz meistens gegenseitig aus und sind nicht alle an der aktuellen Stelle gleich wahrscheinlich. Auf diese Problematik wurde schon früh hingewiesen (Thiel 1987, 137 ff.), wo versucht wurde, mit Gewichtungen die Wahrscheinlichkeit von Regeln, Syntaxbäumen, Kategorien und Wortsemantik in den Griff zu bekommen. Das Gewicht eines Syntaxbaumes kann z.B. einfach zugewiesen werden oder berechnet werden als Funktion des Baumes, aus dem er abgeleitet wird, und der angewandten Regel. Ein solches Verfahren wird (Thiel 1987, 152) am Beispiel einer Heuristik für die Inferenzmaschine eines Expertensystems gezeigt. Aber auch bereits in einer sehr frühen Veröffentlichung zur Analyse natürlicher Sprache, an der Zimmermann maßgeblich beteiligt war, wurde auf Vorkommenswahrscheinlichkeiten hingewiesen: "Statistische Auswertung von Typen des Satzbaus, Bau nominaler und verbaler Gruppen ..." (Eggers et al. 1969, 18). Derzeit konzentrieren sich die Ansätze von Vagheit in der Verarbeitung von natürlicher Sprache vor allem auf die Filterung von Texten z.B. in Spam-Filtern und auf probabilistische kontextfreie Grammatiken.

Source

Information und Sprache: Beiträge zu Informationswissenschaft, Computerlinguistik, Bibliothekswesen und verwandten Fächern. Festschrift für Harald H. Zimmermann. Herausgegeben von Ilse Harms, Heinz-Dirk Luckhardt und Hans W. Giessen

Stieler, W.: Anzeichen von Bewusstsein bei ChatGPT und Co.? (2023) 0.08

0.08254984 = product of:
  0.19261628 = sum of:
    0.030086353 = weight(_text_:und in 1047) [ClassicSimilarity], result of:
      0.030086353 = score(doc=1047,freq=6.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.2968967 = fieldWeight in 1047, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0546875 = fieldNorm(doc=1047)
    0.13348047 = weight(_text_:techniken in 1047) [ClassicSimilarity], result of:
      0.13348047 = score(doc=1047,freq=2.0), product of:
        0.2809109 = queryWeight, product of:
          6.1439276 = idf(docFreq=257, maxDocs=44218)
          0.045721713 = queryNorm
        0.47517014 = fieldWeight in 1047, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          6.1439276 = idf(docFreq=257, maxDocs=44218)
          0.0546875 = fieldNorm(doc=1047)
    0.029049452 = weight(_text_:den in 1047) [ClassicSimilarity], result of:
      0.029049452 = score(doc=1047,freq=2.0), product of:
        0.13104749 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.045721713 = queryNorm
        0.2216712 = fieldWeight in 1047, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0546875 = fieldNorm(doc=1047)
  0.42857143 = coord(3/7)

Abstract: Ein interdisziplinäres Forschungsteam hat eine Liste von Eigenschaften aufgestellt, die auf Bewusstsein deuten, und aktuelle KI-Systeme darauf abgeklopft. Ein interdisziplinäres Forscherteam hat ein Paper [https://arxiv.org/abs/2308.08708] veröffentlicht, das eine Liste von 14 "Indikatoren" für Bewusstsein enthält, die aus sechs aktuellen Theorien über das Bewusstsein stammen. Aktuelle KI-Modelle wie GPT-3, Palm-E oder AdA von Deepmind weisen demnach einzelne dieser Indikatoren auf. "Es spricht viel dafür, dass die meisten oder alle Bedingungen für das Bewusstsein, die von derzeitigen Theorien vorgeschlagenen Bedingungen für das Bewusstsein mit den bestehenden Techniken der KI erfüllt werden können", schreiben die Autoren. Zum Team gehörte auch der Deep-Learning-Pionier Yoshua Bengio von der Université de Montréal.
Source: https://www.heise.de/hintergrund/Anzeichen-von-Bewusstsein-bei-ChatGPT-und-Co-9295425.html?view=print

Giesselbach, S.; Estler-Ziegler, T.: Dokumente schneller analysieren mit Künstlicher Intelligenz (2021) 0.08

0.078953914 = product of:
  0.13816935 = sum of:
    0.067829974 = weight(_text_:methoden in 128) [ClassicSimilarity], result of:
      0.067829974 = score(doc=128,freq=2.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.2862774 = fieldWeight in 128, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.0390625 = fieldNorm(doc=128)
    0.042980507 = weight(_text_:und in 128) [ClassicSimilarity], result of:
      0.042980507 = score(doc=128,freq=24.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.42413816 = fieldWeight in 128, product of:
          4.8989797 = tf(freq=24.0), with freq of:
            24.0 = termFreq=24.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=128)
    0.0066092606 = weight(_text_:in in 128) [ClassicSimilarity], result of:
      0.0066092606 = score(doc=128,freq=4.0), product of:
        0.062193166 = queryWeight, product of:
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.045721713 = queryNorm
        0.10626988 = fieldWeight in 128, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.0390625 = fieldNorm(doc=128)
    0.020749612 = weight(_text_:den in 128) [ClassicSimilarity], result of:
      0.020749612 = score(doc=128,freq=2.0), product of:
        0.13104749 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.045721713 = queryNorm
        0.15833658 = fieldWeight in 128, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0390625 = fieldNorm(doc=128)
  0.5714286 = coord(4/7)

Abstract: Künstliche Intelligenz (KI) und natürliches Sprachverstehen (natural language understanding/NLU) verändern viele Aspekte unseres Alltags und unserer Arbeitsweise. Besondere Prominenz erlangte NLU durch Sprachassistenten wie Siri, Alexa und Google Now. NLU bietet Firmen und Einrichtungen das Potential, Prozesse effizienter zu gestalten und Mehrwert aus textuellen Inhalten zu schöpfen. So sind NLU-Lösungen in der Lage, komplexe, unstrukturierte Dokumente inhaltlich zu erschließen. Für die semantische Textanalyse hat das NLU-Team des IAIS Sprachmodelle entwickelt, die mit Deep-Learning-Verfahren trainiert werden. Die NLU-Suite analysiert Dokumente, extrahiert Eckdaten und erstellt bei Bedarf sogar eine strukturierte Zusammenfassung. Mit diesen Ergebnissen, aber auch über den Inhalt der Dokumente selbst, lassen sich Dokumente vergleichen oder Texte mit ähnlichen Informationen finden. KI-basierten Sprachmodelle sind der klassischen Verschlagwortung deutlich überlegen. Denn sie finden nicht nur Texte mit vordefinierten Schlagwörtern, sondern suchen intelligent nach Begriffen, die in ähnlichem Zusammenhang auftauchen oder als Synonym gebraucht werden. Der Vortrag liefert eine Einordnung der Begriffe "Künstliche Intelligenz" und "Natural Language Understanding" und zeigt Möglichkeiten, Grenzen, aktuelle Forschungsrichtungen und Methoden auf. Anhand von Praxisbeispielen wird anschließend demonstriert, wie NLU zur automatisierten Belegverarbeitung, zur Katalogisierung von großen Datenbeständen wie Nachrichten und Patenten und zur automatisierten thematischen Gruppierung von Social Media Beiträgen und Publikationen genutzt werden kann.

Terminologie : Epochen - Schwerpunkte - Umsetzungen : zum 25-jährigen Bestehen des Rats für Deutschsprachige Terminologie (2019) 0.08

0.07886647 = product of:
  0.13801631 = sum of:
    0.067829974 = weight(_text_:methoden in 5602) [ClassicSimilarity], result of:
      0.067829974 = score(doc=5602,freq=2.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.2862774 = fieldWeight in 5602, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5602)
    0.030391807 = weight(_text_:und in 5602) [ClassicSimilarity], result of:
      0.030391807 = score(doc=5602,freq=12.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.29991096 = fieldWeight in 5602, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5602)
    0.010450159 = weight(_text_:in in 5602) [ClassicSimilarity], result of:
      0.010450159 = score(doc=5602,freq=10.0), product of:
        0.062193166 = queryWeight, product of:
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.045721713 = queryNorm
        0.16802745 = fieldWeight in 5602, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5602)
    0.029344378 = weight(_text_:den in 5602) [ClassicSimilarity], result of:
      0.029344378 = score(doc=5602,freq=4.0), product of:
        0.13104749 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.045721713 = queryNorm
        0.22392172 = fieldWeight in 5602, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5602)
  0.5714286 = coord(4/7)

Abstract: Alle, die sich mit fachsprachlichen Texten beschäftigen, beschäftigen sich automatisch auch mit Terminologie: Beim Lesen von Fachtexten nehmen sie die darin enthaltene Terminologie auf, beim Verfassen von Fachtexten verwenden oder produzieren sie Terminologie, beim Fachübersetzen übertragen sie Terminologie in andere Sprachen. Im Laufe der Zeit haben sich Methoden und Verfahren entwickelt, wie man professionell und effizient mit Terminologie arbeitet. Die Auseinandersetzung mit den Grundsätzen der Terminologiearbeit hat sich zu einer wissenschaftlichen Disziplin entwickelt. Der Rat für Deutschsprachige Terminologie (RaDT) wurde 1994 als Initiative der UNESCO-Kommissionen Deutschlands, Österreichs und der Schweiz gegründet, um terminologische Aktivitäten zu fördern. Zu seinem 25-jährigen Bestehen erscheint nun dieser Sammelband, der einen Überblick über das vielfältige Schaffen und das gesamte Themenspektrum der RaDT-Mitglieder bietet. Um die verschiedenen Perspektiven innerhalb der RaDT-Gemeinschaft angemessen wiederzugeben, umfasst der Band vier Themenbereiche: 1. Vielfalt an Epochen 2. Vielfalt an Schwerpunkten 3. Vielfalt an Umsetzungen (in öffentlichen Institutionen) 4. Vielfalt an Umsetzungen (in der Privatwirtschaft) Dieser Sammelband richtet sich an alle, die sich mit Terminologie, Terminologiewissenschaft oder Terminologiearbeit befassen, insbesondere in Unternehmensbereichen wie Sprachmanagement, Terminologiemanagement, Corporate Language, Wissensmanagement, sowie an Studierende und Wissenschaftler in den entsprechenden Disziplinen.
Series: Kommunikation und Medienmanagement - Springer eBooks. Computer Science and Engineering

Bredack, J.: Automatische Extraktion fachterminologischer Mehrwortbegriffe : ein Verfahrensvergleich (2016) 0.08

0.07785826 = product of:
  0.13625196 = sum of:
    0.067829974 = weight(_text_:methoden in 3194) [ClassicSimilarity], result of:
      0.067829974 = score(doc=3194,freq=2.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.2862774 = fieldWeight in 3194, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.0390625 = fieldNorm(doc=3194)
    0.037222207 = weight(_text_:und in 3194) [ClassicSimilarity], result of:
      0.037222207 = score(doc=3194,freq=18.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.3673144 = fieldWeight in 3194, product of:
          4.2426405 = tf(freq=18.0), with freq of:
            18.0 = termFreq=18.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=3194)
    0.010450159 = weight(_text_:in in 3194) [ClassicSimilarity], result of:
      0.010450159 = score(doc=3194,freq=10.0), product of:
        0.062193166 = queryWeight, product of:
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.045721713 = queryNorm
        0.16802745 = fieldWeight in 3194, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.0390625 = fieldNorm(doc=3194)
    0.020749612 = weight(_text_:den in 3194) [ClassicSimilarity], result of:
      0.020749612 = score(doc=3194,freq=2.0), product of:
        0.13104749 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.045721713 = queryNorm
        0.15833658 = fieldWeight in 3194, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0390625 = fieldNorm(doc=3194)
  0.5714286 = coord(4/7)

Abstract: In dieser Untersuchung wurden zwei Systeme eingesetzt, um MWT aus einer Dokumentkollektion mit fachsprachlichem Bezug (Volltexte des ACL Anthology Reference Corpus) automatisch zu extrahieren. Das thematische Spektrum umfasste alle Bereiche der natürlichen Sprachverarbeitung, im Speziellen die CL als interdisziplinäre Wissenschaft. Ziel war es MWT zu extrahieren, die als potentielle Indexterme im IR Verwendung finden können. Diese sollten auf Konzepte, Methoden, Verfahren und Algorithmen in der CL und angrenzenden Teilgebieten, wie Linguistik und Informatik hinweisen bzw. benennen.
Als Extraktionssysteme wurden der TreeTagger und die Indexierungssoftware Lingo verwendet. Der TreeTagger basiert auf einem statistischen Tagging- und Chunking- Algorithmus, mit dessen Hilfe NPs automatisch identifiziert und extrahiert werden. Er kann für verschiedene Anwendungsszenarien der natürlichen Sprachverarbeitung eingesetzt werden, in erster Linie als POS-Tagger für unterschiedliche Sprachen. Das Indexierungssystem Lingo arbeitet im Gegensatz zum TreeTagger mit elektronischen Wörterbüchern und einem musterbasierten Abgleich. Lingo ist ein auf automatische Indexierung ausgerichtetes System, was eine Vielzahl von Modulen mitliefert, die individuell auf eine bestimmte Aufgabenstellung angepasst und aufeinander abgestimmt werden können. Die unterschiedlichen Verarbeitungsweisen haben sich in den Ergebnismengen beider Systeme deutlich gezeigt. Die gering ausfallenden Übereinstimmungen der Ergebnismengen verdeutlichen die abweichende Funktionsweise und konnte mit einer qualitativen Analyse beispielhaft beschrieben werden. In der vorliegenden Arbeit kann abschließend nicht geklärt werden, welches der beiden Systeme bevorzugt für die Generierung von Indextermen eingesetzt werden sollte.

Artemenko, O.; Shramko, M.: Entwicklung eines Werkzeugs zur Sprachidentifikation in mono- und multilingualen Texten (2005) 0.08
```
0.07629427 = product of:
  0.13351497 = sum of:
    0.047480978 = weight(_text_:methoden in 572) [ClassicSimilarity], result of:
      0.047480978 = score(doc=572,freq=2.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.20039418 = fieldWeight in 572, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.02734375 = fieldNorm(doc=572)
    0.03580992 = weight(_text_:und in 572) [ClassicSimilarity], result of:
      0.03580992 = score(doc=572,freq=34.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.35337773 = fieldWeight in 572, product of:
          5.8309517 = tf(freq=34.0), with freq of:
            34.0 = termFreq=34.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02734375 = fieldNorm(doc=572)
    0.011795262 = weight(_text_:in in 572) [ClassicSimilarity], result of:
      0.011795262 = score(doc=572,freq=26.0), product of:
        0.062193166 = queryWeight, product of:
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.045721713 = queryNorm
        0.18965527 = fieldWeight in 572, product of:
          5.0990195 = tf(freq=26.0), with freq of:
            26.0 = termFreq=26.0
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.02734375 = fieldNorm(doc=572)
    0.038428817 = weight(_text_:den in 572) [ClassicSimilarity], result of:
      0.038428817 = score(doc=572,freq=14.0), product of:
        0.13104749 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.045721713 = queryNorm
        0.29324344 = fieldWeight in 572, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.02734375 = fieldNorm(doc=572)
  0.5714286 = coord(4/7)
```
Abstract

Identifikation der Sprache bzw. Sprachen elektronischer Textdokumente ist einer der wichtigsten Schritte in vielen Prozessen maschineller Textverarbeitung. Die vorliegende Arbeit stellt LangIdent, ein System zur Sprachidentifikation von mono- und multilingualen elektronischen Textdokumenten vor. Das System bietet sowohl eine Auswahl von gängigen Algorithmen für die Sprachidentifikation monolingualer Textdokumente als auch einen neuen Algorithmus für die Sprachidentifikation multilingualer Textdokumente.
Mit der Verbreitung des Internets vermehrt sich die Menge der im World Wide Web verfügbaren Dokumente. Die Gewährleistung eines effizienten Zugangs zu gewünschten Informationen für die Internetbenutzer wird zu einer großen Herausforderung an die moderne Informationsgesellschaft. Eine Vielzahl von Werkzeugen wird bereits eingesetzt, um den Nutzern die Orientierung in der wachsenden Informationsflut zu erleichtern. Allerdings stellt die enorme Menge an unstrukturierten und verteilten Informationen nicht die einzige Schwierigkeit dar, die bei der Entwicklung von Werkzeugen dieser Art zu bewältigen ist. Die zunehmende Vielsprachigkeit von Web-Inhalten resultiert in dem Bedarf an Sprachidentifikations-Software, die Sprache/en von elektronischen Dokumenten zwecks gezielter Weiterverarbeitung identifiziert. Solche Sprachidentifizierer können beispielsweise effektiv im Bereich des Multilingualen Information Retrieval eingesetzt werden, da auf den Sprachidentifikationsergebnissen Prozesse der automatischen Indexbildung wie Stemming, Stoppwörterextraktion etc. aufbauen. In der vorliegenden Arbeit wird das neue System "LangIdent" zur Sprachidentifikation von elektronischen Textdokumenten vorgestellt, das in erster Linie für Lehre und Forschung an der Universität Hildesheim verwendet werden soll. "LangIdent" enthält eine Auswahl von gängigen Algorithmen zu der monolingualen Sprachidentifikation, die durch den Benutzer interaktiv ausgewählt und eingestellt werden können. Zusätzlich wurde im System ein neuer Algorithmus implementiert, der die Identifikation von Sprachen, in denen ein multilinguales Dokument verfasst ist, ermöglicht. Die Identifikation beschränkt sich nicht nur auf eine Aufzählung von gefundenen Sprachen, vielmehr wird der Text in monolinguale Abschnitte aufgeteilt, jeweils mit der Angabe der identifizierten Sprache.
Die Arbeit wird in zwei Hauptteile gegliedert. Der erste Teil besteht aus Kapiteln 1-5, in denen theoretische Grundlagen zum Thema Sprachidentifikation dargelegt werden. Das erste Kapitel beschreibt den Sprachidentifikationsprozess und definiert grundlegende Begriffe. Im zweiten und dritten Kapitel werden vorherrschende Ansätze zur Sprachidentifikation von monolingualen Dokumenten dargestellt und miteinander verglichen, indem deren Vor- und Nachteile diskutiert werden. Das vierte Kapitel stellt einige Arbeiten vor, die sich mit der Sprachidentifikation von multilingualen Texten befasst haben. Der erste Teil der Arbeit wird mit einem Überblick über die bereits entwickelten und im Internet verfügbaren Sprachidentifikationswerkzeuge abgeschlossen. Der zweite Teil der Arbeit stellt die Entwicklung des Sprachidentifikationssystems LangIdent dar. In den Kapiteln 6 und 7 werden die an das System gestellten Anforderungen zusammengefasst und die wichtigsten Phasen des Projekts definiert. In den weiterführenden Kapiteln 8 und 9 werden die Systemarchitektur und eine detaillierte Beschreibung ihrer Kernkomponenten gegeben. Das Kapitel 10 liefert ein statisches UML-Klassendiagramm mit einer ausführlichen Erklärung von Attributen und Methoden der im Diagramm vorgestellten Klassen. Das nächste Kapitel befasst sich mit den im Prozess der Systementwicklung aufgetretenen Problemen. Die Bedienung des Programms wird im Kapitel 12 beschrieben. Im letzten Kapitel der Arbeit wird die Systemevaluierung vorgestellt, in der der Aufbau und Umfang von Trainingskorpora sowie die wichtigsten Ergebnisse mit der anschließenden Diskussion präsentiert werden.

Imprint

Hildesheim : Universität Hildesheim / Fachbereich III; Informations- und Kommunikationswissenschaften

Witschel, H.F.: Terminologie-Extraktion : Möglichkeiten der Kombination statistischer uns musterbasierter Verfahren (2004) 0.07

0.07186239 = product of:
  0.12575918 = sum of:
    0.067829974 = weight(_text_:methoden in 123) [ClassicSimilarity], result of:
      0.067829974 = score(doc=123,freq=2.0), product of:
        0.23693791 = queryWeight, product of:
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.045721713 = queryNorm
        0.2862774 = fieldWeight in 123, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1821747 = idf(docFreq=674, maxDocs=44218)
          0.0390625 = fieldNorm(doc=123)
    0.024814807 = weight(_text_:und in 123) [ClassicSimilarity], result of:
      0.024814807 = score(doc=123,freq=8.0), product of:
        0.1013361 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.045721713 = queryNorm
        0.24487628 = fieldWeight in 123, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=123)
    0.012364795 = weight(_text_:in in 123) [ClassicSimilarity], result of:
      0.012364795 = score(doc=123,freq=14.0), product of:
        0.062193166 = queryWeight, product of:
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.045721713 = queryNorm
        0.19881277 = fieldWeight in 123, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          1.3602545 = idf(docFreq=30841, maxDocs=44218)
          0.0390625 = fieldNorm(doc=123)
    0.020749612 = weight(_text_:den in 123) [ClassicSimilarity], result of:
      0.020749612 = score(doc=123,freq=2.0), product of:
        0.13104749 = queryWeight, product of:
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.045721713 = queryNorm
        0.15833658 = fieldWeight in 123, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.866198 = idf(docFreq=6840, maxDocs=44218)
          0.0390625 = fieldNorm(doc=123)
  0.5714286 = coord(4/7)

Abstract: Die Suche nach Informationen in unstrukturierten natürlichsprachlichen Daten ist Gegenstand des sogenannten Text Mining. In dieser Arbeit wird ein Teilgebiet des Text Mining beleuchtet, nämlich die Extraktion domänenspezifischer Fachbegriffe aus Fachtexten der jeweiligen Domäne. Wofür überhaupt Terminologie-Extraktion? Die Antwort darauf ist einfach: der Schlüssel zum Verständnis vieler Fachgebiete liegt in der Kenntnis der zugehörigen Terminologie. Natürlich genügt es nicht, nur eine Liste der Fachtermini einer Domäne zu kennen, um diese zu durchdringen. Eine solche Liste ist aber eine wichtige Voraussetzung für die Erstellung von Fachwörterbüchern (man denke z.B. an Nachschlagewerke wie das klinische Wörterbuch "Pschyrembel"): zunächst muß geklärt werden, welche Begriffe in das Wörterbuch aufgenommen werden sollen, bevor man sich Gedanken um die genaue Definition der einzelnen Termini machen kann. Ein Fachwörterbuch sollte genau diejenigen Begriffe einer Domäne beinhalten, welche Gegenstand der Forschung in diesem Gebiet sind oder waren. Was liegt also näher, als entsprechende Fachliteratur zu betrachten und das darin enthaltene Wissen in Form von Fachtermini zu extrahieren? Darüberhinaus sind weitere Anwendungen der Terminologie-Extraktion denkbar, wie z.B. die automatische Beschlagwortung von Texten oder die Erstellung sogenannter Topic Maps, welche wichtige Begriffe zu einem Thema darstellt und in Beziehung setzt. Es muß also zunächst die Frage geklärt werden, was Terminologie eigentlich ist, vor allem aber werden verschiedene Methoden entwickelt, welche die Eigenschaften von Fachtermini ausnutzen, um diese aufzufinden. Die Verfahren werden aus den linguistischen und 'statistischen' Charakteristika von Fachbegriffen hergeleitet und auf geeignete Weise kombiniert.

Search (664 results, page 1 of 34)

Authors

Years

Languages

Types

Themes

Subjects

Classifications