Search (246 results, page 1 of 13)

Hotho, A.; Bloehdorn, S.: Data Mining 2004 : Text classification by boosting weak learners based on terms and concepts (2004) 0.18

0.18350396 = product of:
  0.30583993 = sum of:
    0.07186235 = product of:
      0.21558703 = sum of:
        0.21558703 = weight(_text_:3a in 562) [ClassicSimilarity], result of:
          0.21558703 = score(doc=562,freq=2.0), product of:
            0.3835945 = queryWeight, product of:
              8.478011 = idf(docFreq=24, maxDocs=44218)
              0.045245815 = queryNorm
            0.56201804 = fieldWeight in 562, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              8.478011 = idf(docFreq=24, maxDocs=44218)
              0.046875 = fieldNorm(doc=562)
      0.33333334 = coord(1/3)
    0.21558703 = weight(_text_:2f in 562) [ClassicSimilarity], result of:
      0.21558703 = score(doc=562,freq=2.0), product of:
        0.3835945 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.045245815 = queryNorm
        0.56201804 = fieldWeight in 562, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.046875 = fieldNorm(doc=562)
    0.01839055 = product of:
      0.0367811 = sum of:
        0.0367811 = weight(_text_:22 in 562) [ClassicSimilarity], result of:
          0.0367811 = score(doc=562,freq=2.0), product of:
            0.15844314 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.045245815 = queryNorm
            0.23214069 = fieldWeight in 562, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.046875 = fieldNorm(doc=562)
      0.5 = coord(1/2)
  0.6 = coord(3/5)

Content: Vgl.: http://www.google.de/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&ved=0CEAQFjAA&url=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Fdoi%3D10.1.1.91.4940%26rep%3Drep1%26type%3Dpdf&ei=dOXrUMeIDYHDtQahsIGACg&usg=AFQjCNHFWVh6gNPvnOrOS9R3rkrXCNVD-A&sig2=5I2F5evRfMnsttSgFF9g7Q&bvm=bv.1357316858,d.Yms.
Date: 8. 1.2013 10:22:32

Noever, D.; Ciolino, M.: ¬The Turing deception (2022) 0.11

0.11497976 = product of:
  0.2874494 = sum of:
    0.07186235 = product of:
      0.21558703 = sum of:
        0.21558703 = weight(_text_:3a in 862) [ClassicSimilarity], result of:
          0.21558703 = score(doc=862,freq=2.0), product of:
            0.3835945 = queryWeight, product of:
              8.478011 = idf(docFreq=24, maxDocs=44218)
              0.045245815 = queryNorm
            0.56201804 = fieldWeight in 862, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              8.478011 = idf(docFreq=24, maxDocs=44218)
              0.046875 = fieldNorm(doc=862)
      0.33333334 = coord(1/3)
    0.21558703 = weight(_text_:2f in 862) [ClassicSimilarity], result of:
      0.21558703 = score(doc=862,freq=2.0), product of:
        0.3835945 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.045245815 = queryNorm
        0.56201804 = fieldWeight in 862, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.046875 = fieldNorm(doc=862)
  0.4 = coord(2/5)

Source: https%3A%2F%2Farxiv.org%2Fabs%2F2212.06721&usg=AOvVaw3i_9pZm9y_dQWoHi6uv0EN

Huo, W.: Automatic multi-word term extraction and its application to Web-page summarization (2012) 0.09

0.093591034 = product of:
  0.23397759 = sum of:
    0.21558703 = weight(_text_:2f in 563) [ClassicSimilarity], result of:
      0.21558703 = score(doc=563,freq=2.0), product of:
        0.3835945 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.045245815 = queryNorm
        0.56201804 = fieldWeight in 563, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.046875 = fieldNorm(doc=563)
    0.01839055 = product of:
      0.0367811 = sum of:
        0.0367811 = weight(_text_:22 in 563) [ClassicSimilarity], result of:
          0.0367811 = score(doc=563,freq=2.0), product of:
            0.15844314 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.045245815 = queryNorm
            0.23214069 = fieldWeight in 563, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.046875 = fieldNorm(doc=563)
      0.5 = coord(1/2)
  0.4 = coord(2/5)

Content: A Thesis presented to The University of Guelph In partial fulfilment of requirements for the degree of Master of Science in Computer Science. Vgl. Unter: http://www.inf.ufrgs.br%2F~ceramisch%2Fdownload_files%2Fpublications%2F2009%2Fp01.pdf.
Date: 10. 1.2013 19:22:47

Lutz-Westphal, B.: ChatGPT und der "Faktor Mensch" im schulischen Mathematikunterricht (2023) 0.05

0.04535058 = product of:
  0.11337645 = sum of:
    0.035275575 = weight(_text_:der in 930) [ClassicSimilarity], result of:
      0.035275575 = score(doc=930,freq=4.0), product of:
        0.1010686 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.045245815 = queryNorm
        0.34902605 = fieldWeight in 930, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.078125 = fieldNorm(doc=930)
    0.07810088 = product of:
      0.15620176 = sum of:
        0.15620176 = weight(_text_:mathematik in 930) [ClassicSimilarity], result of:
          0.15620176 = score(doc=930,freq=2.0), product of:
            0.25291798 = queryWeight, product of:
              5.5898643 = idf(docFreq=448, maxDocs=44218)
              0.045245815 = queryNorm
            0.61759853 = fieldWeight in 930, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.5898643 = idf(docFreq=448, maxDocs=44218)
              0.078125 = fieldNorm(doc=930)
      0.5 = coord(1/2)
  0.4 = coord(2/5)

Field: Mathematik
Source: Mitteilungen der Deutschen Mathematiker-Vereinigung. 2023, H.1, S.19-21

Hartnett, K.: Sind Sprachmodelle bald die besseren Mathematiker? (2023) 0.04

0.041217793 = product of:
  0.10304448 = sum of:
    0.0249436 = weight(_text_:der in 988) [ClassicSimilarity], result of:
      0.0249436 = score(doc=988,freq=2.0), product of:
        0.1010686 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.045245815 = queryNorm
        0.2467987 = fieldWeight in 988, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.078125 = fieldNorm(doc=988)
    0.07810088 = product of:
      0.15620176 = sum of:
        0.15620176 = weight(_text_:mathematik in 988) [ClassicSimilarity], result of:
          0.15620176 = score(doc=988,freq=2.0), product of:
            0.25291798 = queryWeight, product of:
              5.5898643 = idf(docFreq=448, maxDocs=44218)
              0.045245815 = queryNorm
            0.61759853 = fieldWeight in 988, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.5898643 = idf(docFreq=448, maxDocs=44218)
              0.078125 = fieldNorm(doc=988)
      0.5 = coord(1/2)
  0.4 = coord(2/5)

Field: Mathematik
Source: Spektrum der Wissenschaft. 2023, H.7, S.28-31

Strube, M.: Kreativ durch Analogien (2011) 0.04

0.038975995 = product of:
  0.09743998 = sum of:
    0.04276936 = weight(_text_:der in 4805) [ClassicSimilarity], result of:
      0.04276936 = score(doc=4805,freq=12.0), product of:
        0.1010686 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.045245815 = queryNorm
        0.4231716 = fieldWeight in 4805, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.0546875 = fieldNorm(doc=4805)
    0.05467062 = product of:
      0.10934124 = sum of:
        0.10934124 = weight(_text_:mathematik in 4805) [ClassicSimilarity], result of:
          0.10934124 = score(doc=4805,freq=2.0), product of:
            0.25291798 = queryWeight, product of:
              5.5898643 = idf(docFreq=448, maxDocs=44218)
              0.045245815 = queryNorm
            0.432319 = fieldWeight in 4805, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.5898643 = idf(docFreq=448, maxDocs=44218)
              0.0546875 = fieldNorm(doc=4805)
      0.5 = coord(1/2)
  0.4 = coord(2/5)

Content: "Die Computerlinguistik vereinigt Elemente von Informatik und Linguistik; sie verwendet darüber hinaus Methoden aus weiteren Gebieten wie Mathematik, Psychologie, Statistik und künstliche Intelligenz. Der Reiz und die Herausforderung einer solchen interdisziplinären Wissenschaft liegen darin, Analogien zwischen Konzepten aus weit entfernten Teilgebieten zu erkennen und zu nutzen. Paradebeispiel dafür ist einer der entscheidenden Durchbrüche, welche die Computerlinguistik prägten. Es geht um das »Parsing«: Ein Computerprogramm, genauer gesagt ein Compiler, nimmt Zeichen für Zeichen den Input des Benutzers entgegen, der in diesem Fall seinerseits aus dem Text eines Computerprogramms besteht, und ermittelt dessen Struktur. Im Prinzip dasselbe tut ein Mensch, der einen gesprochenen Satz hört und versteht."
Series: Spektrum der Wissenschaft - Extra: Datengetriebene Wissenschaft
Source: Spektrum der Wissenschaft. 2011, H.12, S.30-33

Engerer, V.: Exploring interdisciplinary relationships between linguistics and information retrieval from the 1960s to today (2017) 0.03

0.03308799 = product of:
  0.082719974 = sum of:
    0.067753814 = weight(_text_:geschichte in 3434) [ClassicSimilarity], result of:
      0.067753814 = score(doc=3434,freq=2.0), product of:
        0.2150443 = queryWeight, product of:
          4.7528 = idf(docFreq=1036, maxDocs=44218)
          0.045245815 = queryNorm
        0.3150691 = fieldWeight in 3434, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.7528 = idf(docFreq=1036, maxDocs=44218)
          0.046875 = fieldNorm(doc=3434)
    0.014966159 = weight(_text_:der in 3434) [ClassicSimilarity], result of:
      0.014966159 = score(doc=3434,freq=2.0), product of:
        0.1010686 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.045245815 = queryNorm
        0.14807922 = fieldWeight in 3434, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.046875 = fieldNorm(doc=3434)
  0.4 = coord(2/5)

Theme: Geschichte der Sacherschließung

¬Der Student aus dem Computer (2023) 0.03

0.03113293 = product of:
  0.07783233 = sum of:
    0.03492104 = weight(_text_:der in 1079) [ClassicSimilarity], result of:
      0.03492104 = score(doc=1079,freq=2.0), product of:
        0.1010686 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.045245815 = queryNorm
        0.34551817 = fieldWeight in 1079, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.109375 = fieldNorm(doc=1079)
    0.042911284 = product of:
      0.08582257 = sum of:
        0.08582257 = weight(_text_:22 in 1079) [ClassicSimilarity], result of:
          0.08582257 = score(doc=1079,freq=2.0), product of:
            0.15844314 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.045245815 = queryNorm
            0.5416616 = fieldWeight in 1079, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.109375 = fieldNorm(doc=1079)
      0.5 = coord(1/2)
  0.4 = coord(2/5)

Date: 27. 1.2023 16:22:55

Witschel, H.F.: Text, Wörter, Morpheme : Möglichkeiten einer automatischen Terminologie-Extraktion (2004) 0.03
```
0.030586336 = product of:
  0.07646584 = sum of:
    0.037415396 = weight(_text_:der in 126) [ClassicSimilarity], result of:
      0.037415396 = score(doc=126,freq=18.0), product of:
        0.1010686 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.045245815 = queryNorm
        0.37019804 = fieldWeight in 126, product of:
          4.2426405 = tf(freq=18.0), with freq of:
            18.0 = termFreq=18.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.0390625 = fieldNorm(doc=126)
    0.03905044 = product of:
      0.07810088 = sum of:
        0.07810088 = weight(_text_:mathematik in 126) [ClassicSimilarity], result of:
          0.07810088 = score(doc=126,freq=2.0), product of:
            0.25291798 = queryWeight, product of:
              5.5898643 = idf(docFreq=448, maxDocs=44218)
              0.045245815 = queryNorm
            0.30879927 = fieldWeight in 126, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.5898643 = idf(docFreq=448, maxDocs=44218)
              0.0390625 = fieldNorm(doc=126)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Abstract

Die vorliegende Arbeit beschäftigt sich mit einem Teilgebiet des TextMining, versucht also Information (in diesem Fall Fachterminologie) aus natürlichsprachlichem Text zu extrahieren. Die der Arbeit zugrundeliegende These besagt, daß in vielen Gebieten des Text Mining die Kombination verschiedener Methoden sinnvoll sein kann, um dem Facettenreichtum natürlicher Sprache gerecht zu werden. Die bei der Terminologie-Extraktion angewandten Methoden sind statistischer und linguistischer (bzw. musterbasierter) Natur. Um sie herzuleiten, wurden einige Eigenschaften von Fachtermini herausgearbeitet, die für deren Extraktion relevant sind. So läßt sich z.B. die Tatsache, daß viele Fachbegriffe Nominalphrasen einer bestimmten Form sind, direkt für eine Suche nach gewissen POS-Mustern ausnützen, die Verteilung von Termen in Fachtexten führte zu einem statistischen Ansatz - der Differenzanalyse. Zusammen mit einigen weiteren wurden diese Ansätze in ein Verfahren integriert, welches in der Lage ist, aus dem Feedback eines Anwenders zu lernen und in mehreren Schritten die Suche nach Terminologie zu verfeinern. Dabei wurden mehrere Parameter des Verfahrens veränderlich belassen, d.h. der Anwender kann sie beliebig anpassen. Bei der Untersuchung der Ergebnisse anhand von zwei Fachtexten aus unterschiedlichen Domänen wurde deutlich, daß sich zwar die verschiedenen Verfahren gut ergänzen, daß aber die optimalen Werte der veränderbaren Parameter, ja selbst die Auswahl der angewendeten Verfahren text- und domänenabhängig sind.

Imprint

Leipzig : Universität / Fakultät für Mathematik und Informatik Institut für Informatik

Boleda, G.; Evert, S.: Multiword expressions : a pain in the neck of lexical semantics (2009) 0.03

0.026685366 = product of:
  0.066713415 = sum of:
    0.029932318 = weight(_text_:der in 4888) [ClassicSimilarity], result of:
      0.029932318 = score(doc=4888,freq=2.0), product of:
        0.1010686 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.045245815 = queryNorm
        0.29615843 = fieldWeight in 4888, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.09375 = fieldNorm(doc=4888)
    0.0367811 = product of:
      0.0735622 = sum of:
        0.0735622 = weight(_text_:22 in 4888) [ClassicSimilarity], result of:
          0.0735622 = score(doc=4888,freq=2.0), product of:
            0.15844314 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.045245815 = queryNorm
            0.46428138 = fieldWeight in 4888, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.09375 = fieldNorm(doc=4888)
      0.5 = coord(1/2)
  0.4 = coord(2/5)

Abstract: Mit einem Überblick über: Probleme, Methoden, Stand der Forschung u. Literatur.
Date: 1. 3.2013 14:56:22

Monnerjahn, P.: Vorsprung ohne Technik : Übersetzen: Computer und Qualität (2000) 0.03

0.026685366 = product of:
  0.066713415 = sum of:
    0.029932318 = weight(_text_:der in 5429) [ClassicSimilarity], result of:
      0.029932318 = score(doc=5429,freq=2.0), product of:
        0.1010686 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.045245815 = queryNorm
        0.29615843 = fieldWeight in 5429, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.09375 = fieldNorm(doc=5429)
    0.0367811 = product of:
      0.0735622 = sum of:
        0.0735622 = weight(_text_:22 in 5429) [ClassicSimilarity], result of:
          0.0735622 = score(doc=5429,freq=2.0), product of:
            0.15844314 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.045245815 = queryNorm
            0.46428138 = fieldWeight in 5429, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.09375 = fieldNorm(doc=5429)
      0.5 = coord(1/2)
  0.4 = coord(2/5)

Abstract: Noch immer ist der menschliche Übersetzer dem Computer in sprachlicher Hinsicht überlegen. Zwar ist die Übersetzungssoftware besser geworden, aber die systembedingten Probleme bleiben
Source: c't. 2000, H.22, S.230-231

Lorenz, S.: Konzeption und prototypische Realisierung einer begriffsbasierten Texterschließung (2006) 0.03
```
0.02531561 = product of:
  0.063289024 = sum of:
    0.044898476 = weight(_text_:der in 1746) [ClassicSimilarity], result of:
      0.044898476 = score(doc=1746,freq=18.0), product of:
        0.1010686 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.045245815 = queryNorm
        0.44423765 = fieldWeight in 1746, product of:
          4.2426405 = tf(freq=18.0), with freq of:
            18.0 = termFreq=18.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.046875 = fieldNorm(doc=1746)
    0.01839055 = product of:
      0.0367811 = sum of:
        0.0367811 = weight(_text_:22 in 1746) [ClassicSimilarity], result of:
          0.0367811 = score(doc=1746,freq=2.0), product of:
            0.15844314 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.045245815 = queryNorm
            0.23214069 = fieldWeight in 1746, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.046875 = fieldNorm(doc=1746)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Abstract

Im Rahmen dieser Arbeit wird eine Vorgehensweise entwickelt, die die Fixierung auf das Wort und die damit verbundenen Schwächen überwindet. Sie gestattet die Extraktion von Informationen anhand der repräsentierten Begriffe und bildet damit die Basis einer inhaltlichen Texterschließung. Die anschließende prototypische Realisierung dient dazu, die Konzeption zu überprüfen sowie ihre Möglichkeiten und Grenzen abzuschätzen und zu bewerten. Arbeiten zum Information Extraction widmen sich fast ausschließlich dem Englischen, wobei insbesondere im Bereich der Named Entities sehr gute Ergebnisse erzielt werden. Deutlich schlechter sehen die Resultate für weniger regelmäßige Sprachen wie beispielsweise das Deutsche aus. Aus diesem Grund sowie praktischen Erwägungen wie insbesondere der Vertrautheit des Autors damit, soll diese Sprache primär Gegenstand der Untersuchungen sein. Die Lösung von einer engen Termorientierung bei gleichzeitiger Betonung der repräsentierten Begriffe legt nahe, dass nicht nur die verwendeten Worte sekundär werden sondern auch die verwendete Sprache. Um den Rahmen dieser Arbeit nicht zu sprengen wird bei der Untersuchung dieses Punktes das Augenmerk vor allem auf die mit unterschiedlichen Sprachen verbundenen Schwierigkeiten und Besonderheiten gelegt.

Content

Dissertation an der Universität Trier - Fachbereich IV - zur Erlangung der Würde eines Doktors der Wirtschafts- und Sozialwissenschaften. Vgl.: http://ubt.opus.hbz-nrw.de/volltexte/2006/377/pdf/LorenzSaschaDiss.pdf.

Date

22. 3.2015 9:17:30
Kiss, T.: Anmerkungen zur scheinbaren Konkurrenz von numerischen und symbolischen Verfahren in der Computerlinguistik (2002) 0.02
```
0.023784326 = product of:
  0.059460815 = sum of:
    0.02822046 = weight(_text_:der in 1752) [ClassicSimilarity], result of:
      0.02822046 = score(doc=1752,freq=16.0), product of:
        0.1010686 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.045245815 = queryNorm
        0.27922085 = fieldWeight in 1752, product of:
          4.0 = tf(freq=16.0), with freq of:
            16.0 = termFreq=16.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.03125 = fieldNorm(doc=1752)
    0.031240355 = product of:
      0.06248071 = sum of:
        0.06248071 = weight(_text_:mathematik in 1752) [ClassicSimilarity], result of:
          0.06248071 = score(doc=1752,freq=2.0), product of:
            0.25291798 = queryWeight, product of:
              5.5898643 = idf(docFreq=448, maxDocs=44218)
              0.045245815 = queryNorm
            0.24703942 = fieldWeight in 1752, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.5898643 = idf(docFreq=448, maxDocs=44218)
              0.03125 = fieldNorm(doc=1752)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Abstract

Veränderungen in der Mode vollziehen sich schrittweise, allmählich, oftmals unmerklich. Manchmal kommt es dann doch zu einem plötzlichen Bruch, zu einer eindeutig bestimmten Opposition zwischen dem modischen Jetzt und seinem Vorgänger. Deutlich erkennbar etwa, als um die Wende von den 70er zu den 80er Jahren die weite Karotte die enge Schlaghose verdrängte und im Gefolge dieses Wechsels taillierte Sakkos und Hemden big suits und Polohemden weichen mussten. Etwas Ähnliches hat sich vor einigen Jahren in der Computerlinguistik ereignet: Wurde diese seit Beginn der 80er Jahre durch deduktive, regelbasierte Verfahren beherrscht, so gab es seit Beginn der 90er Jahre zunächst eine Hinwendung, schließlich Mitte der 90er Jahre eine Flucht zu induktiven, numerisch basierten Verfahren, die mittlerweile die Computerlinguistik nahezu vollständig zu beherrschen scheinen.
Man kann wohl abschließend festhalten, dass von einer Überlegenheit statistischer Verfahren zumindest im Bereich des Tagging eigentlich nicht gesprochen werden sollte. Darüber hinaus muss die Opposition zwischen regelbasierten und numerischen Verfahren hier aufgeweicht werden, denn auch die statistischen Verfahren verwenden Regelsysteme. Selbst beim Lernen ohne Referenzkorpus ist ja zumindest eine Zuordnung der Wörter zu einem Lexikon bzw. auch eine heuristische Erkennung unbekannter Wörter nach Regeln notwendig. Statistische Verfahren haben - und dies wurde hier wahrscheinlich nicht ausreichend betont - durchaus ihre Berechtigung, sie sind nützlich; sie gestatten, insbesondere im Vergleich zur Introspektion, eine unmittelbarere und breitere Heranführung an das Phänomen Sprache. Die vorhandenen umfangreichen elektronischen Korpora verlangen nahezu danach, Sprache auch mit statistischen Mitteln zu untersuchen. Allerdings können die statistischen Verfahren die regelbasierten Verfahren nicht ersetzen. Somit muss dem Diktum vom "Es geht nicht anders" deutlich widersprochen werden. Dass die statistischen Verfahren zur Zeit so en vogue sind und die regelbasierten Verfahren aussehen lassen wie eine alte Dallas-Folge, mag wohl auch daran liegen, dass zu viele Vertreter des alten Paradigmas nicht die Energie aufbringen, sich dem neuen Paradigma so weit zu öffnen, dass eine kritische Auseinandersetzung mit dem neuen auf der Basis des alten möglich wird. Die Mathematik ist eine geachtete, weil schwierige Wissenschaft, die statistische Sprachverarbeitung ist eine gefürchtete, weil in ihren Eigenschaften oftmals nicht gründlich genug betrachtete Disziplin.

Engerer, V.: Informationswissenschaft und Linguistik. : kurze Geschichte eines fruchtbaren interdisziplinäaren Verhäaltnisses in drei Akten (2012) 0.02

0.022584608 = product of:
  0.11292303 = sum of:
    0.11292303 = weight(_text_:geschichte in 3376) [ClassicSimilarity], result of:
      0.11292303 = score(doc=3376,freq=2.0), product of:
        0.2150443 = queryWeight, product of:
          4.7528 = idf(docFreq=1036, maxDocs=44218)
          0.045245815 = queryNorm
        0.5251152 = fieldWeight in 3376, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.7528 = idf(docFreq=1036, maxDocs=44218)
          0.078125 = fieldNorm(doc=3376)
  0.2 = coord(1/5)

RWI/PH: Auf der Suche nach dem entscheidenden Wort : die Häufung bestimmter Wörter innerhalb eines Textes macht diese zu Schlüsselwörtern (2012) 0.02
```
0.022016902 = product of:
  0.055042252 = sum of:
    0.033876907 = weight(_text_:geschichte in 331) [ClassicSimilarity], result of:
      0.033876907 = score(doc=331,freq=2.0), product of:
        0.2150443 = queryWeight, product of:
          4.7528 = idf(docFreq=1036, maxDocs=44218)
          0.045245815 = queryNorm
        0.15753455 = fieldWeight in 331, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.7528 = idf(docFreq=1036, maxDocs=44218)
          0.0234375 = fieldNorm(doc=331)
    0.021165347 = weight(_text_:der in 331) [ClassicSimilarity], result of:
      0.021165347 = score(doc=331,freq=16.0), product of:
        0.1010686 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.045245815 = queryNorm
        0.20941564 = fieldWeight in 331, product of:
          4.0 = tf(freq=16.0), with freq of:
            16.0 = termFreq=16.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.0234375 = fieldNorm(doc=331)
  0.4 = coord(2/5)
```
Abstract

Der Mensch kann komplexe Sachverhalte in eine eindimensionale Abfolge von Buchstaben umwandeln und niederschreiben. Dabei dienen Schlüsselwörter dazu, den Inhalt des Textes zu vermitteln. Wie Buchstaben und Wörtern mit dem Thema eines Textes zusammenhängen, haben Eduardo Altmann und seine Kollegen vom Max-Planck-Institut für die Physik komplexer Systeme und der Universität Bologna mit Hilfe von statistischen Methoden untersucht. Dabei haben sie herausgefunden, dass Schlüsselwörter nicht dadurch gekennzeichnet sind, dass sie im ganzen Text besonders häufig vorkommen, sondern nur an bestimmten Stellen vermehrt zu finden sind. Außerdem gibt es Beziehungen zwischen weit entfernten Textabschnitten, in der Form, dass dieselben Wörter und Buchstaben bevorzugt verwendet werden.

Content

"Die Dresdner Wissenschaftler haben die semantischen Eigenschaften von Texten mathematisch untersucht, indem sie zehn verschiedene englische Texte in unterschiedlichen Formen kodierten. Dazu zählt unter anderem die englische Ausgabe von Leo Tolstois "Krieg und Frieden". Beispielsweise übersetzten die Forscher Buchstaben innerhalb eines Textes in eine Binär-Sequenz. Dazu ersetzten sie alle Vokale durch eine Eins und alle Konsonanten durch eine Null. Mit Hilfe weiterer mathematischer Funktionen beleuchteten die Wissenschaftler dabei verschiedene Ebenen des Textes, also sowohl einzelne Vokale, Buchstaben als auch ganze Wörter, die in verschiedenen Formen kodiert wurden. Innerhalb des ganzen Textes lassen sich so wiederkehrende Muster finden. Diesen Zusammenhang innerhalb des Textes bezeichnet man als Langzeitkorrelation. Diese gibt an, ob zwei Buchstaben an beliebig weit voneinander entfernten Textstellen miteinander in Verbindung stehen - beispielsweise gibt es wenn wir an einer Stelle einen Buchstaben "K" finden, eine messbare höhere Wahrscheinlichkeit den Buchstaben "K" einige Seiten später nochmal zu finden. "Es ist zu erwarten, dass wenn es in einem Buch an einer Stelle um Krieg geht, die Wahrscheinlichkeit hoch ist das Wort Krieg auch einige Seiten später zu finden. Überraschend ist es, dass wir die hohe Wahrscheinlichkeit auch auf der Buchstabenebene finden", so Altmann.
Die statistische Textanalyse funktioniert unabhängig von der Sprache Während sowohl Buchstaben als auch Wörter Langzeit-korreliert sind, kommen Buchstaben nur selten an bestimmten Stellen eines Textes gehäuft vor. "Ein Buchstabe ist eben nur sehr selten so eng mit einem Thema verknüpft wie das Wort zu dem er einen Teil beiträgt. Buchstaben sind sozusagen flexibler einsetzbar", sagt Altmann. Ein "a" beispielsweise kann zu einer ganzen Reihe von Wörtern beitragen, die nicht mit demselben Thema in Verbindung stehen. Mit Hilfe der statistischen Analyse von Texten ist es den Forschern gelungen, die prägenden Wörter eines Textes auf einfache Weise zu ermitteln. "Dabei ist es vollkommen egal, in welcher Sprache ein Text geschrieben ist. Es geht nur noch um die Geschichte und nicht um sprachspezifische Regeln", sagt Altmann. Die Ergebnisse könnten zukünftig zur Verbesserung von Internetsuchmaschinen beitragen, aber auch bei Textanalysen und der Suche nach Plagiaten helfen."
Pinker, S.: Wörter und Regeln : Die Natur der Sprache (2000) 0.02
```
0.021905899 = product of:
  0.054764748 = sum of:
    0.03943929 = weight(_text_:der in 734) [ClassicSimilarity], result of:
      0.03943929 = score(doc=734,freq=20.0), product of:
        0.1010686 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.045245815 = queryNorm
        0.390223 = fieldWeight in 734, product of:
          4.472136 = tf(freq=20.0), with freq of:
            20.0 = termFreq=20.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.0390625 = fieldNorm(doc=734)
    0.015325459 = product of:
      0.030650917 = sum of:
        0.030650917 = weight(_text_:22 in 734) [ClassicSimilarity], result of:
          0.030650917 = score(doc=734,freq=2.0), product of:
            0.15844314 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.045245815 = queryNorm
            0.19345059 = fieldWeight in 734, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0390625 = fieldNorm(doc=734)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Abstract

Wie lernen Kinder sprechen? Welche Hinweise geben gerade ihre Fehler beim Spracherwerb auf den Ablauf des Lernprozesses - getreu dem Motto: "Kinder sagen die töllsten Sachen«? Und wie helfen beziehungsweise warum scheitern bislang Computer bei der Simulation neuronaler Netzwerke, die am komplizierten Gewebe der menschlichen Sprache mitwirken? In seinem neuen Buch Wörter und Regeln hat der bekannte US-amerikanische Kognitionswissenschaftler Steven Pinker (Der Sprachinstinkt) wieder einmal eine ebenso informative wie kurzweifige Erkundungstour ins Reich der Sprache unternommen. Was die Sache besonders spannend und lesenswert macht: Souverän beleuchtet der Professor am Massachusetts Institute of Technology sowohl natur- als auch geisteswissenschaftliche Aspekte. So vermittelt er einerseits linguistische Grundlagen in den Fußspuren Ferdinand de Saussures, etwa die einer generativen Grammatik, liefert einen Exkurs durch die Sprachgeschichte und widmet ein eigenes Kapitel den Schrecken der deutschen Sprache". Andererseits lässt er aber auch die neuesten bildgebenden Verfahren nicht außen vor, die zeigen, was im Gehirn bei der Sprachverarbeitung abläuft. Pinkers Theorie, die sich in diesem Puzzle verschiedenster Aspekte wiederfindet: Sprache besteht im Kein aus zwei Bestandteilen - einem mentalen Lexikon aus erinnerten Wörtern und einer mentalen Grammatik aus verschiedenen kombinatorischen Regeln. Konkret heißt das: Wir prägen uns bekannte Größen und ihre abgestuften, sich kreuzenden Merkmale ein, aber wir erzeugen auch neue geistige Produkte, in dem wir Regeln anwenden. Gerade daraus, so schließt Pinker, erschließt sich der Reichtum und die ungeheure Ausdruckskraft unserer Sprache

Date

19. 7.2002 14:22:31
Semantik, Lexikographie und Computeranwendungen : Workshop ... (Bonn) : 1995.01.27-28 (1996) 0.02
```
0.020240415 = product of:
  0.050601035 = sum of:
    0.035275575 = weight(_text_:der in 190) [ClassicSimilarity], result of:
      0.035275575 = score(doc=190,freq=16.0), product of:
        0.1010686 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.045245815 = queryNorm
        0.34902605 = fieldWeight in 190, product of:
          4.0 = tf(freq=16.0), with freq of:
            16.0 = termFreq=16.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.0390625 = fieldNorm(doc=190)
    0.015325459 = product of:
      0.030650917 = sum of:
        0.030650917 = weight(_text_:22 in 190) [ClassicSimilarity], result of:
          0.030650917 = score(doc=190,freq=2.0), product of:
            0.15844314 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.045245815 = queryNorm
            0.19345059 = fieldWeight in 190, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0390625 = fieldNorm(doc=190)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Classification

ES 940 Allgemeine und vergleichende Sprach- und Literaturwissenschaft. Indogermanistik. Außereuropäische Sprachen und Literaturen / Spezialbereiche der allgemeinen Sprachwissenschaft / Datenverarbeitung und Sprachwissenschaft. Computerlinguistik / Maschinelle Sprachanalyse
ET 400 Allgemeine und vergleichende Sprach- und Literaturwissenschaft. Indogermanistik. Außereuropäische Sprachen und Literaturen / Einzelgebiete der Sprachwissenschaft, Sprachbeschreibung / Semantik und Lexikologie / Allgemeines
ES 945 Allgemeine und vergleichende Sprach- und Literaturwissenschaft. Indogermanistik. Außereuropäische Sprachen und Literaturen / Spezialbereiche der allgemeinen Sprachwissenschaft / Datenverarbeitung und Sprachwissenschaft. Computerlinguistik / Spracherkennung
ET 580 Allgemeine und vergleichende Sprach- und Literaturwissenschaft. Indogermanistik. Außereuropäische Sprachen und Literaturen / Einzelgebiete der Sprachwissenschaft, Sprachbeschreibung / Semantik und Lexikologie / Lexikologie (diachrone und synchrone) / Lexikographie

Date

14. 4.2007 10:04:22

RVK

ES 940 Allgemeine und vergleichende Sprach- und Literaturwissenschaft. Indogermanistik. Außereuropäische Sprachen und Literaturen / Spezialbereiche der allgemeinen Sprachwissenschaft / Datenverarbeitung und Sprachwissenschaft. Computerlinguistik / Maschinelle Sprachanalyse
ET 400 Allgemeine und vergleichende Sprach- und Literaturwissenschaft. Indogermanistik. Außereuropäische Sprachen und Literaturen / Einzelgebiete der Sprachwissenschaft, Sprachbeschreibung / Semantik und Lexikologie / Allgemeines
ES 945 Allgemeine und vergleichende Sprach- und Literaturwissenschaft. Indogermanistik. Außereuropäische Sprachen und Literaturen / Spezialbereiche der allgemeinen Sprachwissenschaft / Datenverarbeitung und Sprachwissenschaft. Computerlinguistik / Spracherkennung
ET 580 Allgemeine und vergleichende Sprach- und Literaturwissenschaft. Indogermanistik. Außereuropäische Sprachen und Literaturen / Einzelgebiete der Sprachwissenschaft, Sprachbeschreibung / Semantik und Lexikologie / Lexikologie (diachrone und synchrone) / Lexikographie
Rötzer, F.: Computer ergooglen die Bedeutung von Worten (2005) 0.02
```
0.020164356 = product of:
  0.05041089 = sum of:
    0.026980625 = weight(_text_:der in 3385) [ClassicSimilarity], result of:
      0.026980625 = score(doc=3385,freq=26.0), product of:
        0.1010686 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.045245815 = queryNorm
        0.2669536 = fieldWeight in 3385, product of:
          5.0990195 = tf(freq=26.0), with freq of:
            26.0 = termFreq=26.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.0234375 = fieldNorm(doc=3385)
    0.023430265 = product of:
      0.04686053 = sum of:
        0.04686053 = weight(_text_:mathematik in 3385) [ClassicSimilarity], result of:
          0.04686053 = score(doc=3385,freq=2.0), product of:
            0.25291798 = queryWeight, product of:
              5.5898643 = idf(docFreq=448, maxDocs=44218)
              0.045245815 = queryNorm
            0.18527956 = fieldWeight in 3385, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.5898643 = idf(docFreq=448, maxDocs=44218)
              0.0234375 = fieldNorm(doc=3385)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Abstract

Holländische Wissenschaftler glauben, mit der "normalisierten Google-Distanz" von Begriffen einer Künstlichen Intelligenz die Bedeutung von Worten automatisch lehren zu können

Content

"Wie könnten Computer Sprache lernen und dabei auch die Bedeutung von Worten sowie die Beziehungen zwischen ihnen verstehen? Dieses Problem der Semantik stellt eine gewaltige, bislang nur ansatzweise bewältigte Aufgabe dar, da Worte und Wortverbindungen oft mehrere oder auch viele Bedeutungen haben, die zudem vom außersprachlichen Kontext abhängen. Die beiden holländischen (Ein künstliches Bewusstsein aus einfachen Aussagen (1)). Paul Vitanyi (2) und Rudi Cilibrasi vom Nationalen Institut für Mathematik und Informatik (3) in Amsterdam schlagen eine elegante Lösung vor: zum Nachschlagen im Internet, der größten Datenbank, die es gibt, wird einfach Google benutzt. Objekte wie eine Maus können mit ihren Namen "Maus" benannt werden, die Bedeutung allgemeiner Begriffe muss aus ihrem Kontext gelernt werden. Ein semantisches Web zur Repräsentation von Wissen besteht aus den möglichen Verbindungen, die Objekte und ihre Namen eingehen können. Natürlich können in der Wirklichkeit neue Namen, aber auch neue Bedeutungen und damit neue Verknüpfungen geschaffen werden. Sprache ist lebendig und flexibel. Um einer Künstlichen Intelligenz alle Wortbedeutungen beizubringen, müsste mit der Hilfe von menschlichen Experten oder auch vielen Mitarbeitern eine riesige Datenbank mit den möglichen semantischen Netzen aufgebaut und dazu noch ständig aktualisiert werden. Das aber müsste gar nicht notwendig sein, denn mit dem Web gibt es nicht nur die größte und weitgehend kostenlos benutzbare semantische Datenbank, sie wird auch ständig von zahllosen Internetnutzern aktualisiert. Zudem gibt es Suchmaschinen wie Google, die Verbindungen zwischen Worten und damit deren Bedeutungskontext in der Praxis in ihrer Wahrscheinlichkeit quantitativ mit der Angabe der Webseiten, auf denen sie gefunden wurden, messen.
Mit einem bereits zuvor von Paul Vitanyi und anderen entwickeltem Verfahren, das den Zusammenhang von Objekten misst (normalized information distance - NID ), kann die Nähe zwischen bestimmten Objekten (Bilder, Worte, Muster, Intervalle, Genome, Programme etc.) anhand aller Eigenschaften analysiert und aufgrund der dominanten gemeinsamen Eigenschaft bestimmt werden. Ähnlich können auch die allgemein verwendeten, nicht unbedingt "wahren" Bedeutungen von Namen mit der Google-Suche erschlossen werden. 'At this moment one database stands out as the pinnacle of computer-accessible human knowledge and the most inclusive summary of statistical information: the Google search engine. There can be no doubt that Google has already enabled science to accelerate tremendously and revolutionized the research process. It has dominated the attention of internet users for years, and has recently attracted substantial attention of many Wall Street investors, even reshaping their ideas of company financing.' (Paul Vitanyi und Rudi Cilibrasi) Gibt man ein Wort ein wie beispielsweise "Pferd", erhält man bei Google 4.310.000 indexierte Seiten. Für "Reiter" sind es 3.400.000 Seiten. Kombiniert man beide Begriffe, werden noch 315.000 Seiten erfasst. Für das gemeinsame Auftreten beispielsweise von "Pferd" und "Bart" werden zwar noch immer erstaunliche 67.100 Seiten aufgeführt, aber man sieht schon, dass "Pferd" und "Reiter" enger zusammen hängen. Daraus ergibt sich eine bestimmte Wahrscheinlichkeit für das gemeinsame Auftreten von Begriffen. Aus dieser Häufigkeit, die sich im Vergleich mit der maximalen Menge (5.000.000.000) an indexierten Seiten ergibt, haben die beiden Wissenschaftler eine statistische Größe entwickelt, die sie "normalised Google distance" (NGD) nennen und die normalerweise zwischen 0 und 1 liegt. Je geringer NGD ist, desto enger hängen zwei Begriffe zusammen. "Das ist eine automatische Bedeutungsgenerierung", sagt Vitanyi gegenüber dern New Scientist (4). "Das könnte gut eine Möglichkeit darstellen, einen Computer Dinge verstehen und halbintelligent handeln zu lassen." Werden solche Suchen immer wieder durchgeführt, lässt sich eine Karte für die Verbindungen von Worten erstellen. Und aus dieser Karte wiederum kann ein Computer, so die Hoffnung, auch die Bedeutung der einzelnen Worte in unterschiedlichen natürlichen Sprachen und Kontexten erfassen. So habe man über einige Suchen realisiert, dass ein Computer zwischen Farben und Zahlen unterscheiden, holländische Maler aus dem 17. Jahrhundert und Notfälle sowie Fast-Notfälle auseinander halten oder elektrische oder religiöse Begriffe verstehen könne. Überdies habe eine einfache automatische Übersetzung Englisch-Spanisch bewerkstelligt werden können. Auf diese Weise ließe sich auch, so hoffen die Wissenschaftler, die Bedeutung von Worten erlernen, könne man Spracherkennung verbessern oder ein semantisches Web erstellen und natürlich endlich eine bessere automatische Übersetzung von einer Sprache in die andere realisieren.

Footnote

Artikel in der ListeTelepolis vom 27.01.2005
Melzer, C.: ¬Der Maschine anpassen : PC-Spracherkennung - Programme sind mittlerweile alltagsreif (2005) 0.02
```
0.019512856 = product of:
  0.04878214 = sum of:
    0.038054317 = weight(_text_:der in 4044) [ClassicSimilarity], result of:
      0.038054317 = score(doc=4044,freq=38.0), product of:
        0.1010686 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.045245815 = queryNorm
        0.37651968 = fieldWeight in 4044, product of:
          6.164414 = tf(freq=38.0), with freq of:
            38.0 = termFreq=38.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.02734375 = fieldNorm(doc=4044)
    0.010727821 = product of:
      0.021455642 = sum of:
        0.021455642 = weight(_text_:22 in 4044) [ClassicSimilarity], result of:
          0.021455642 = score(doc=4044,freq=2.0), product of:
            0.15844314 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.045245815 = queryNorm
            0.1354154 = fieldWeight in 4044, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.02734375 = fieldNorm(doc=4044)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Content

"Der Spracherkennung am Computer schien vor wenigen Jahren die Zukunft zu gehören. Geradezu euphorisch waren viele Computernutzer, als sich auf den Bildschirmen die ersten gesprochenen Sätze als Text darstellten. Doch die Spracherkennung erwies sich als anfällig, die Nachbearbeitung nahm manchmal mehr Zeit in Anspruch als gespart wurde. Dabei ist die Kommunikation des Menschen mit der Maschine über die Tastatur eigentlich höchst kompliziert - selbst geübte Schreiber sprechen schneller als sie tippen. Deshalb hat sich inzwischen viel getan: Im Preis und in der Genauigkeit sind viele Spracherkennungsprogramme heute alltagsreif. Die besten Systeme kosten aber noch immer mehrere hundert Euro, die günstigsten weisen Lücken auf. Letztlich gilt: Respektable Ergebnisse sind erreichbar, wenn sich der Mensch der Maschine anpasst. Die Stiftung Warentest in Berlin hat die sechs gängigsten Systeme auf den Prüfstand gestellt. Die ersten Ergebnisse waren ernüchternd: Das deutlich gesprochene "Johann Wolfgang von Goethe" wurde als "Juan Wolf kann Mohnblüte", "Jaun Wolfgang von Göbel" oder "Johann-Wolfgang Wohngüte" geschrieben. Grundsätzlich gilt: Bei einem einfachen Basiswortschatz sind die Ergebnisse genau, sobald es etwas spezieller wird, wird die Software erfinderisch. "Zweiter Weltkrieg" kann dann zu "Zeit für Geld kriegt" werden. Doch ebenso wie der Nutzer lernt auch das System. Bei der Software ist Lernfähigkeit Standard. Ohnehin muss der Benutzer das System einrichten, indem er vorgegebene Texte liest. Dabei wird das Programm der Stimme und der Sprechgeschwindigkeit angepasst. Hier gilt, dass der Anwender deutlich, aber ganz normal vorlesen sollte. Wer akzentuiert und übertrieben betont, wird später mit ungenauen Ausgaben bestraft. Erkennt das System auch nach dem Training einzelne Wörter nicht, können sie nachträglich eingefügt werden. Gleiches gilt für kompliziertere Orts- oder Eigennamen. Wie gut das funktioniert, beweist ein Gegentest: Liest ein anderer den selben Text vor, sinkt das Erkennungsniveau rapide. Die beste Lernfähigkeit attestierten die Warentester dem System "Voice Pro 10" von linguatec. Das war das mit Abstand vielseitigste, mit fast 200 Euro jedoch auch das teuerste Programm.
Billiger geht es mit "Via Voice Standard" von IBM. Die Software kostet etwa 50 Euro, hat aber erhebliche Schwächen in der Lernfähigkeit: Sie schneidet jedoch immer noch besser ab als das gut drei Mal so teure "Voice Office Premium 10"; das im Test der sechs Programme als einziges nur ein "Befriedigend" bekam. "Man liest über Spracherkennung nicht mehr so viel" weil es funktioniert", glaubt Dorothee Wiegand von der in Hannover erscheinenden Computerzeitschrift "c't". Die Technik" etwa "Dragon Naturally Speaking" von ScanSoft, sei ausgereift, "Spracherkennung ist vor allem Statistik, die Auswertung unendlicher Wortmöglichkeiten. Eigentlich war eher die Hardware das Problem", sagt Wiegand. Da jetzt selbst einfache Heimcomputer schnell und leistungsfähig seien, hätten die Entwickler viel mehr Möglichkeiten."Aber selbst ältere Computer kommen mit den Systemen klar. Sie brauchen nur etwas länger! "Jedes Byte macht die Spracherkennung etwas schneller, ungenauer ist sie sonst aber nicht", bestätigt Kristina Henry von linguatec in München. Auch für die Produkte des Herstellers gelte jedoch, dass "üben und deutlich sprechen wichtiger sind als jede Hardware". Selbst Stimmen von Diktiergeräten würden klar, erkannt, versichert Henry: "Wir wollen einen Schritt weiter gehen und das Diktieren von unterwegs möglich machen." Der Benutzer könnte dann eine Nummer anwählen, etwa im Auto einen Text aufsprechen und ihn zu Hause "getippt" vorfinden. Grundsätzlich passt die Spracherkennungssoftware inzwischen auch auf den privaten Computer. Klar ist aber, dass selbst der bestgesprochene Text nachbearbeitet werden muss. Zudem ist vom Nutzer Geduld gefragt: Ebenso wie sein System lernt, muss der Mensch sich in Aussprache und Geschwindigkeit dem System anpassen. Dann sind die Ergebnisse allerdings beachtlich - und "Sexterminvereinbarung" statt "zwecks Terminvereinbarung" gehört der Vergangenheit an."

Date

3. 5.1997 8:44:22

Schneider, R.: Web 3.0 ante portas? : Integration von Social Web und Semantic Web (2008) 0.02

0.018459419 = product of:
  0.046148546 = sum of:
    0.024692904 = weight(_text_:der in 4184) [ClassicSimilarity], result of:
      0.024692904 = score(doc=4184,freq=4.0), product of:
        0.1010686 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.045245815 = queryNorm
        0.24431825 = fieldWeight in 4184, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.0546875 = fieldNorm(doc=4184)
    0.021455642 = product of:
      0.042911284 = sum of:
        0.042911284 = weight(_text_:22 in 4184) [ClassicSimilarity], result of:
          0.042911284 = score(doc=4184,freq=2.0), product of:
            0.15844314 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.045245815 = queryNorm
            0.2708308 = fieldWeight in 4184, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0546875 = fieldNorm(doc=4184)
      0.5 = coord(1/2)
  0.4 = coord(2/5)

Abstract: Das Medium Internet ist im Wandel, und mit ihm ändern sich seine Publikations- und Rezeptionsbedingungen. Welche Chancen bieten die momentan parallel diskutierten Zukunftsentwürfe von Social Web und Semantic Web? Zur Beantwortung dieser Frage beschäftigt sich der Beitrag mit den Grundlagen beider Modelle unter den Aspekten Anwendungsbezug und Technologie, beleuchtet darüber hinaus jedoch auch deren Unzulänglichkeiten sowie den Mehrwert einer mediengerechten Kombination. Am Beispiel des grammatischen Online-Informationssystems grammis wird eine Strategie zur integrativen Nutzung der jeweiligen Stärken skizziert.
Date: 22. 1.2011 10:38:28

Search (246 results, page 1 of 13)

Authors

Years

Languages

Types

Themes

Subjects

Classifications