Document (#39942)

Author
Menge-Sonnentag, R.
Title
Google veröffentlicht einen Parser für natürliche Sprache
Source
heise Developer (13.05.2016), [http://www.heise.de/developer/meldung/Google-veroeffentlicht-einen-Parser-fuer-natuerliche-Sprache-3207846.html]
Year
2016
Abstract
SyntaxNet zerlegt Sätze in ihre grammatikalischen Bestandteile und bestimmt die syntaktischen Beziehungen der Wörter untereinander. Das Framework ist Open Source und als TensorFlow Model implementiert. Ein Parser für natürliche Sprache ist eine Software, die Sätze in ihre grammatikalischen Bestandteile zerlegt. Diese Zerlegung ist notwendig, damit Computer Befehle verstehen oder Texte übersetzen können. Die digitalen Helfer wie Microsofts Cortana, Apples Siri und Google Now verwenden Parser, um Sätze wie "Stell den Wecker auf 5 Uhr!" richtig umzusetzen. SyntaxNet ist ein solcher Parser, den Google als TensorFlow Model veröffentlicht hat. Entwickler können eigene Modelle erstellen, und SnytaxNet bringt einen vortrainierten Parser für die englische Sprache mit, den seine Macher Parsey McParseface genannt haben.
Content
"Syntaktische Beziehungen Der Parser teilt den Wörtern eine syntaktische Funktion zu und untersucht die syntaktischen Beziehungen zwischen den Einzelteilen. Den englischen Beispielsatz aus dem Blog-Beitrag "Alice saw Bob" analysiert er folgendermaßen: "Alice" und "Bob" sind Substantive, und "saw" ist ein Verb. Letzteres ist gleichzeitig die Wurzel (ROOT), von der die restlichen Beziehungen ausgehen. Alice ist das zugehörige Subjekt (nsubj) und Bob das Objekt (dobj). Längere Sätze werden leicht mehrdeutig. Beispielsweise ist im Satz "Alice sah Bob mit dem Fernglas" nicht erkennbar, wer von den beiden das Fernglas in der Hand hält. Rein syntaktisch ist auch der Satz "Peter schneidet das Brot mit Sonnenblumenkernen" mehrdeutig. Das menschliche Gehirn erkennt die richtige Bedeutung recht zuverlässig, aber für maschinelle Parser stellen sie eine Herausforderung dar.
SyntaxNet nutzt zur Entscheidung neuronale Netze und versucht die Abhängigkeiten richtig zuzuordnen. Damit "lernt" der Parser, dass es schwierig ist, Sonnenblumenkerne zum Schneiden einzusetzen, und sie somit wohl eher Bestandteil des Brots als ein Werkzeug sind. Die Analyse beschränkt sich jedoch auf den Satz selbst. Semantische Zusammenhänge berücksichtigt das Modell nicht. So lösen sich manche Mehrdeutigkeiten durch den Kontext auf: Wenn Alice im obigen Beispiel das Fernglas beim Verlassen des Hauses eingepackt hat, wird sie es vermutlich benutzen. Trefferquote Mensch vs. Maschine Laut dem Blog-Beitrag kommt Parsey McParseface auf eine Genauigkeit von gut 94 Prozent für Sätze aus dem Penn Treebank Project. Die menschliche Quote soll laut Linguisten bei 96 bis 97 Prozent liegen. Allerdings weist der Beitrag auch darauf hin, dass es sich bei den Testsätzen um wohlgeformte Texte handelt. Im Test mit Googles WebTreebank erreicht der Parser eine Genauigkeit von knapp 90 Prozent."
Footnote
Download unter: https://github.com/tensorflow/models/tree/master/syntaxnet. Dort befinden sich auch weitere Information zu dem Modell sowie Vergleichszahlen zur Erkennungsrate.
Theme
Computerlinguistik
Object
SyntaxNet

Similar documents (content)

  1. Manhart, K.: Digitales Kauderwelsch : Online-Übersetzungsdienste (2004) 0.10
    0.097220995 = sum of:
      0.097220995 = product of:
        0.40508747 = sum of:
          0.08496338 = weight(abstract_txt:englische in 2077) [ClassicSimilarity], result of:
            0.08496338 = score(doc=2077,freq=3.0), product of:
              0.10855519 = queryWeight, product of:
                1.0770856 = boost
                8.2629 = idf(docFreq=30, maxDocs=44218)
                0.012197417 = queryNorm
              0.78267455 = fieldWeight in 2077, product of:
                1.7320508 = tf(freq=3.0), with freq of:
                  3.0 = termFreq=3.0
                8.2629 = idf(docFreq=30, maxDocs=44218)
                0.0546875 = fieldNorm(doc=2077)
          0.01349709 = weight(abstract_txt:einen in 2077) [ClassicSimilarity], result of:
            0.01349709 = score(doc=2077,freq=1.0), product of:
              0.057859305 = queryWeight, product of:
                1.1120557 = boost
                4.2655873 = idf(docFreq=1687, maxDocs=44218)
                0.012197417 = queryNorm
              0.23327431 = fieldWeight in 2077, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                4.2655873 = idf(docFreq=1687, maxDocs=44218)
                0.0546875 = fieldNorm(doc=2077)
          0.060550116 = weight(abstract_txt:übersetzen in 2077) [ClassicSimilarity], result of:
            0.060550116 = score(doc=2077,freq=1.0), product of:
              0.12491458 = queryWeight, product of:
                1.1553977 = boost
                8.863674 = idf(docFreq=16, maxDocs=44218)
                0.012197417 = queryNorm
              0.48473218 = fieldWeight in 2077, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                8.863674 = idf(docFreq=16, maxDocs=44218)
                0.0546875 = fieldNorm(doc=2077)
          0.026513735 = weight(abstract_txt:können in 2077) [ClassicSimilarity], result of:
            0.026513735 = score(doc=2077,freq=3.0), product of:
              0.062924534 = queryWeight, product of:
                1.1597114 = boost
                4.4483833 = idf(docFreq=1405, maxDocs=44218)
                0.012197417 = queryNorm
              0.42135766 = fieldWeight in 2077, product of:
                1.7320508 = tf(freq=3.0), with freq of:
                  3.0 = termFreq=3.0
                4.4483833 = idf(docFreq=1405, maxDocs=44218)
                0.0546875 = fieldNorm(doc=2077)
          0.055870883 = weight(abstract_txt:sprache in 2077) [ClassicSimilarity], result of:
            0.055870883 = score(doc=2077,freq=1.0), product of:
              0.17075257 = queryWeight, product of:
                2.3397484 = boost
                5.9831543 = idf(docFreq=302, maxDocs=44218)
                0.012197417 = queryNorm
              0.32720375 = fieldWeight in 2077, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                5.9831543 = idf(docFreq=302, maxDocs=44218)
                0.0546875 = fieldNorm(doc=2077)
          0.16369227 = weight(abstract_txt:sätze in 2077) [ClassicSimilarity], result of:
            0.16369227 = score(doc=2077,freq=1.0), product of:
              0.3496195 = queryWeight, product of:
                3.3479838 = boost
                8.561393 = idf(docFreq=22, maxDocs=44218)
                0.012197417 = queryNorm
              0.46820116 = fieldWeight in 2077, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                8.561393 = idf(docFreq=22, maxDocs=44218)
                0.0546875 = fieldNorm(doc=2077)
        0.24 = coord(6/25)
    
  2. Schmidt, G.: Informationsmanagement : Modelle, Methoden, Techniken (1996) 0.09
    0.09077168 = sum of:
      0.09077168 = product of:
        0.7564307 = sum of:
          0.17679699 = weight(abstract_txt:zerlegung in 731) [ClassicSimilarity], result of:
            0.17679699 = score(doc=731,freq=1.0), product of:
              0.14706357 = queryWeight, product of:
                1.2536533 = boost
                9.617446 = idf(docFreq=7, maxDocs=44218)
                0.012197417 = queryNorm
              1.2021807 = fieldWeight in 731, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                9.617446 = idf(docFreq=7, maxDocs=44218)
                0.125 = fieldNorm(doc=731)
          0.23887253 = weight(abstract_txt:bestandteile in 731) [ClassicSimilarity], result of:
            0.23887253 = score(doc=731,freq=1.0), product of:
              0.22645192 = queryWeight, product of:
                2.2000265 = boost
                8.43879 = idf(docFreq=25, maxDocs=44218)
                0.012197417 = queryNorm
              1.0548488 = fieldWeight in 731, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                8.43879 = idf(docFreq=25, maxDocs=44218)
                0.125 = fieldNorm(doc=731)
          0.34076118 = weight(abstract_txt:zerlegt in 731) [ClassicSimilarity], result of:
            0.34076118 = score(doc=731,freq=1.0), product of:
              0.28696698 = queryWeight, product of:
                2.4766 = boost
                9.499662 = idf(docFreq=8, maxDocs=44218)
                0.012197417 = queryNorm
              1.1874578 = fieldWeight in 731, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                9.499662 = idf(docFreq=8, maxDocs=44218)
                0.125 = fieldNorm(doc=731)
        0.12 = coord(3/25)
    
  3. Schmidt, G.: Informationsmanagement : Modelle, Methoden, Techniken (1999) 0.09
    0.09077168 = sum of:
      0.09077168 = product of:
        0.7564307 = sum of:
          0.17679699 = weight(abstract_txt:zerlegung in 4044) [ClassicSimilarity], result of:
            0.17679699 = score(doc=4044,freq=1.0), product of:
              0.14706357 = queryWeight, product of:
                1.2536533 = boost
                9.617446 = idf(docFreq=7, maxDocs=44218)
                0.012197417 = queryNorm
              1.2021807 = fieldWeight in 4044, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                9.617446 = idf(docFreq=7, maxDocs=44218)
                0.125 = fieldNorm(doc=4044)
          0.23887253 = weight(abstract_txt:bestandteile in 4044) [ClassicSimilarity], result of:
            0.23887253 = score(doc=4044,freq=1.0), product of:
              0.22645192 = queryWeight, product of:
                2.2000265 = boost
                8.43879 = idf(docFreq=25, maxDocs=44218)
                0.012197417 = queryNorm
              1.0548488 = fieldWeight in 4044, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                8.43879 = idf(docFreq=25, maxDocs=44218)
                0.125 = fieldNorm(doc=4044)
          0.34076118 = weight(abstract_txt:zerlegt in 4044) [ClassicSimilarity], result of:
            0.34076118 = score(doc=4044,freq=1.0), product of:
              0.28696698 = queryWeight, product of:
                2.4766 = boost
                9.499662 = idf(docFreq=8, maxDocs=44218)
                0.012197417 = queryNorm
              1.1874578 = fieldWeight in 4044, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                9.499662 = idf(docFreq=8, maxDocs=44218)
                0.125 = fieldNorm(doc=4044)
        0.12 = coord(3/25)
    
  4. Schmidt, G.: Informationsmanagement : Modelle, Methoden, Techniken (1999) 0.09
    0.09077168 = sum of:
      0.09077168 = product of:
        0.7564307 = sum of:
          0.17679699 = weight(abstract_txt:zerlegung in 210) [ClassicSimilarity], result of:
            0.17679699 = score(doc=210,freq=1.0), product of:
              0.14706357 = queryWeight, product of:
                1.2536533 = boost
                9.617446 = idf(docFreq=7, maxDocs=44218)
                0.012197417 = queryNorm
              1.2021807 = fieldWeight in 210, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                9.617446 = idf(docFreq=7, maxDocs=44218)
                0.125 = fieldNorm(doc=210)
          0.23887253 = weight(abstract_txt:bestandteile in 210) [ClassicSimilarity], result of:
            0.23887253 = score(doc=210,freq=1.0), product of:
              0.22645192 = queryWeight, product of:
                2.2000265 = boost
                8.43879 = idf(docFreq=25, maxDocs=44218)
                0.012197417 = queryNorm
              1.0548488 = fieldWeight in 210, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                8.43879 = idf(docFreq=25, maxDocs=44218)
                0.125 = fieldNorm(doc=210)
          0.34076118 = weight(abstract_txt:zerlegt in 210) [ClassicSimilarity], result of:
            0.34076118 = score(doc=210,freq=1.0), product of:
              0.28696698 = queryWeight, product of:
                2.4766 = boost
                9.499662 = idf(docFreq=8, maxDocs=44218)
                0.012197417 = queryNorm
              1.1874578 = fieldWeight in 210, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                9.499662 = idf(docFreq=8, maxDocs=44218)
                0.125 = fieldNorm(doc=210)
        0.12 = coord(3/25)
    
  5. Rolland, M.T.: Sprachverarbeitung ohne Parsing? (1997) 0.08
    0.08220497 = sum of:
      0.08220497 = product of:
        0.6850414 = sum of:
          0.030615425 = weight(abstract_txt:können in 467) [ClassicSimilarity], result of:
            0.030615425 = score(doc=467,freq=1.0), product of:
              0.062924534 = queryWeight, product of:
                1.1597114 = boost
                4.4483833 = idf(docFreq=1405, maxDocs=44218)
                0.012197417 = queryNorm
              0.48654193 = fieldWeight in 467, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                4.4483833 = idf(docFreq=1405, maxDocs=44218)
                0.109375 = fieldNorm(doc=467)
          0.15802673 = weight(abstract_txt:sprache in 467) [ClassicSimilarity], result of:
            0.15802673 = score(doc=467,freq=2.0), product of:
              0.17075257 = queryWeight, product of:
                2.3397484 = boost
                5.9831543 = idf(docFreq=302, maxDocs=44218)
                0.012197417 = queryNorm
              0.925472 = fieldWeight in 467, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                5.9831543 = idf(docFreq=302, maxDocs=44218)
                0.109375 = fieldNorm(doc=467)
          0.49639928 = weight(abstract_txt:parser in 467) [ClassicSimilarity], result of:
            0.49639928 = score(doc=467,freq=1.0), product of:
              0.54709226 = queryWeight, product of:
                5.4067984 = boost
                8.29569 = idf(docFreq=29, maxDocs=44218)
                0.012197417 = queryNorm
              0.90734106 = fieldWeight in 467, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                8.29569 = idf(docFreq=29, maxDocs=44218)
                0.109375 = fieldNorm(doc=467)
        0.12 = coord(3/25)