Document (#37333)

Author
RWI/PH
Title
Auf der Suche nach dem entscheidenden Wort : die Häufung bestimmter Wörter innerhalb eines Textes macht diese zu Schlüsselwörtern
Issue
[11. Juli 2012].
Source
http://www.mpg.de/5894319/statistische_Textanalyse?filter_order=L
Year
2012
Abstract
Der Mensch kann komplexe Sachverhalte in eine eindimensionale Abfolge von Buchstaben umwandeln und niederschreiben. Dabei dienen Schlüsselwörter dazu, den Inhalt des Textes zu vermitteln. Wie Buchstaben und Wörtern mit dem Thema eines Textes zusammenhängen, haben Eduardo Altmann und seine Kollegen vom Max-Planck-Institut für die Physik komplexer Systeme und der Universität Bologna mit Hilfe von statistischen Methoden untersucht. Dabei haben sie herausgefunden, dass Schlüsselwörter nicht dadurch gekennzeichnet sind, dass sie im ganzen Text besonders häufig vorkommen, sondern nur an bestimmten Stellen vermehrt zu finden sind. Außerdem gibt es Beziehungen zwischen weit entfernten Textabschnitten, in der Form, dass dieselben Wörter und Buchstaben bevorzugt verwendet werden.
Content
"Die Dresdner Wissenschaftler haben die semantischen Eigenschaften von Texten mathematisch untersucht, indem sie zehn verschiedene englische Texte in unterschiedlichen Formen kodierten. Dazu zählt unter anderem die englische Ausgabe von Leo Tolstois "Krieg und Frieden". Beispielsweise übersetzten die Forscher Buchstaben innerhalb eines Textes in eine Binär-Sequenz. Dazu ersetzten sie alle Vokale durch eine Eins und alle Konsonanten durch eine Null. Mit Hilfe weiterer mathematischer Funktionen beleuchteten die Wissenschaftler dabei verschiedene Ebenen des Textes, also sowohl einzelne Vokale, Buchstaben als auch ganze Wörter, die in verschiedenen Formen kodiert wurden. Innerhalb des ganzen Textes lassen sich so wiederkehrende Muster finden. Diesen Zusammenhang innerhalb des Textes bezeichnet man als Langzeitkorrelation. Diese gibt an, ob zwei Buchstaben an beliebig weit voneinander entfernten Textstellen miteinander in Verbindung stehen - beispielsweise gibt es wenn wir an einer Stelle einen Buchstaben "K" finden, eine messbare höhere Wahrscheinlichkeit den Buchstaben "K" einige Seiten später nochmal zu finden. "Es ist zu erwarten, dass wenn es in einem Buch an einer Stelle um Krieg geht, die Wahrscheinlichkeit hoch ist das Wort Krieg auch einige Seiten später zu finden. Überraschend ist es, dass wir die hohe Wahrscheinlichkeit auch auf der Buchstabenebene finden", so Altmann.
Schlüsselwörter häufen sich in einzelnen Textpassagen Dabei haben sie die Langzeitkorrelation sowohl zwischen einzelnen Buchstaben, als auch innerhalb höherer sprachlicher Ebenen wie Wörtern gefunden. Innerhalb einzelner Ebenen bleibt die Korrelation dabei erhalten, wenn man verschiedene Texte betrachtet. "Viel interessanter ist es für uns zu überprüfen, wie die Korrelation sich zwischen den Ebenen ändert", sagt Altmann. Die Langzeitkorrelation erlaubt Rückschlüsse, inwieweit einzelne Wörter mit einem Thema in Verbindungen stehen. "Auch die Verbindung zwischen einem Wort und den Buchstaben, aus denen es sich zusammensetzt, lässt sich so analysieren", so Altmann. Darüber hinaus untersuchten die Wissenschaftler auch die sogenannte "Burstiness", die beschreibt, ob ein Zeichenmuster in einer Textpassage vermehrt zu finden ist. Sie zeigt also beispielsweise an, ob ein Wort in einem bestimmten Abschnitt gehäuft vorkommt. Je häufiger ein bestimmtes Wort in einer Passage verwendet wird, desto wahrscheinlicher ist es, dass diese repräsentativ für ein bestimmtes Thema ist. Die Wissenschaftler zeigten, dass bestimmte Wörter zwar im ganzen Text immer wieder vorkommen, aber nicht in einem bestimmten Abschnitt verstärkt zu finden sind. Diese Wörter weisen zwar eine Langzeitkorrelation auf, stehen aber nicht in einer engen Verbindung mit dem Thema. "Das beste Beispiel dafür sind Artikel. Sie kommen in jedem Text sehr oft vor, sind aber nicht entscheidend um ein bestimmtes Thema zu vermitteln", so Altmann.
Die statistische Textanalyse funktioniert unabhängig von der Sprache Während sowohl Buchstaben als auch Wörter Langzeit-korreliert sind, kommen Buchstaben nur selten an bestimmten Stellen eines Textes gehäuft vor. "Ein Buchstabe ist eben nur sehr selten so eng mit einem Thema verknüpft wie das Wort zu dem er einen Teil beiträgt. Buchstaben sind sozusagen flexibler einsetzbar", sagt Altmann. Ein "a" beispielsweise kann zu einer ganzen Reihe von Wörtern beitragen, die nicht mit demselben Thema in Verbindung stehen. Mit Hilfe der statistischen Analyse von Texten ist es den Forschern gelungen, die prägenden Wörter eines Textes auf einfache Weise zu ermitteln. "Dabei ist es vollkommen egal, in welcher Sprache ein Text geschrieben ist. Es geht nur noch um die Geschichte und nicht um sprachspezifische Regeln", sagt Altmann. Die Ergebnisse könnten zukünftig zur Verbesserung von Internetsuchmaschinen beitragen, aber auch bei Textanalysen und der Suche nach Plagiaten helfen."
Footnote
Pressemitteilung zum Artikel: Eduardo G. Altmann, Giampaolo Cristadoro and Mirko Degli Esposti: On the origin of long-range correlations in texts. In: Proceedings of the National Academy of Sciences, 2. Juli 2012. DOI: 10.1073/pnas.1117723109.
Theme
Computerlinguistik

Similar documents (content)

  1. Albrecht, C.: ¬Die Entdeckung der Weitschweifigkeit : Über das Glück, mit Markow-Ketten zu rasseln: Die Schriften Claude E. Shannons (2001) 0.14
    0.1383963 = sum of:
      0.1383963 = product of:
        0.4324884 = sum of:
          0.013267516 = weight(abstract_txt:sind in 644) [ClassicSimilarity], result of:
            0.013267516 = score(doc=644,freq=3.0), product of:
              0.062243227 = queryWeight, product of:
                3.9381013 = idf(docFreq=2290, maxDocs=43254)
                0.01580539 = queryNorm
              0.21315598 = fieldWeight in 644, product of:
                1.7320508 = tf(freq=3.0), with freq of:
                  3.0 = termFreq=3.0
                3.9381013 = idf(docFreq=2290, maxDocs=43254)
                0.03125 = fieldNorm(doc=644)
          0.032243676 = weight(abstract_txt:statistischen in 644) [ClassicSimilarity], result of:
            0.032243676 = score(doc=644,freq=1.0), product of:
              0.12879306 = queryWeight, product of:
                1.0171504 = boost
                8.011283 = idf(docFreq=38, maxDocs=43254)
                0.01580539 = queryNorm
              0.2503526 = fieldWeight in 644, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                8.011283 = idf(docFreq=38, maxDocs=43254)
                0.03125 = fieldNorm(doc=644)
          0.03595482 = weight(abstract_txt:wörtern in 644) [ClassicSimilarity], result of:
            0.03595482 = score(doc=644,freq=1.0), product of:
              0.13849503 = queryWeight, product of:
                1.0547658 = boost
                8.307549 = idf(docFreq=28, maxDocs=43254)
                0.01580539 = queryNorm
              0.25961092 = fieldWeight in 644, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                8.307549 = idf(docFreq=28, maxDocs=43254)
                0.03125 = fieldNorm(doc=644)
          0.024240214 = weight(abstract_txt:eines in 644) [ClassicSimilarity], result of:
            0.024240214 = score(doc=644,freq=4.0), product of:
              0.084516935 = queryWeight, product of:
                1.1652681 = boost
                4.5889435 = idf(docFreq=1194, maxDocs=43254)
                0.01580539 = queryNorm
              0.28680897 = fieldWeight in 644, product of:
                2.0 = tf(freq=4.0), with freq of:
                  4.0 = termFreq=4.0
                4.5889435 = idf(docFreq=1194, maxDocs=43254)
                0.03125 = fieldNorm(doc=644)
          0.012833343 = weight(abstract_txt:haben in 644) [ClassicSimilarity], result of:
            0.012833343 = score(doc=644,freq=1.0), product of:
              0.087800965 = queryWeight, product of:
                1.1876913 = boost
                4.677249 = idf(docFreq=1093, maxDocs=43254)
                0.01580539 = queryNorm
              0.14616403 = fieldWeight in 644, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                4.677249 = idf(docFreq=1093, maxDocs=43254)
                0.03125 = fieldNorm(doc=644)
          0.013150335 = weight(abstract_txt:dabei in 644) [ClassicSimilarity], result of:
            0.013150335 = score(doc=644,freq=1.0), product of:
              0.08924091 = queryWeight, product of:
                1.1973909 = boost
                4.7154465 = idf(docFreq=1052, maxDocs=43254)
                0.01580539 = queryNorm
              0.1473577 = fieldWeight in 644, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                4.7154465 = idf(docFreq=1052, maxDocs=43254)
                0.03125 = fieldNorm(doc=644)
          0.056536864 = weight(abstract_txt:wörter in 644) [ClassicSimilarity], result of:
            0.056536864 = score(doc=644,freq=1.0), product of:
              0.23595394 = queryWeight, product of:
                1.9470073 = boost
                7.667512 = idf(docFreq=54, maxDocs=43254)
                0.01580539 = queryNorm
              0.23960975 = fieldWeight in 644, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                7.667512 = idf(docFreq=54, maxDocs=43254)
                0.03125 = fieldNorm(doc=644)
          0.24426164 = weight(abstract_txt:buchstaben in 644) [ClassicSimilarity], result of:
            0.24426164 = score(doc=644,freq=5.0), product of:
              0.41900256 = queryWeight, product of:
                3.1776638 = boost
                8.342641 = idf(docFreq=27, maxDocs=43254)
                0.01580539 = queryNorm
              0.5829598 = fieldWeight in 644, product of:
                2.236068 = tf(freq=5.0), with freq of:
                  5.0 = termFreq=5.0
                8.342641 = idf(docFreq=27, maxDocs=43254)
                0.03125 = fieldNorm(doc=644)
        0.32 = coord(8/25)
    
  2. Dahmen, E.: Klassifikation als Ordnundssystem im elektronischen Pressearchiv (2003) 0.13
    0.13100906 = sum of:
      0.13100906 = product of:
        0.5458711 = sum of:
          0.011490007 = weight(abstract_txt:sind in 3514) [ClassicSimilarity], result of:
            0.011490007 = score(doc=3514,freq=1.0), product of:
              0.062243227 = queryWeight, product of:
                3.9381013 = idf(docFreq=2290, maxDocs=43254)
                0.01580539 = queryNorm
              0.1845985 = fieldWeight in 3514, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                3.9381013 = idf(docFreq=2290, maxDocs=43254)
                0.046875 = fieldNorm(doc=3514)
          0.053932235 = weight(abstract_txt:wörtern in 3514) [ClassicSimilarity], result of:
            0.053932235 = score(doc=3514,freq=1.0), product of:
              0.13849503 = queryWeight, product of:
                1.0547658 = boost
                8.307549 = idf(docFreq=28, maxDocs=43254)
                0.01580539 = queryNorm
              0.3894164 = fieldWeight in 3514, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                8.307549 = idf(docFreq=28, maxDocs=43254)
                0.046875 = fieldNorm(doc=3514)
          0.018180162 = weight(abstract_txt:eines in 3514) [ClassicSimilarity], result of:
            0.018180162 = score(doc=3514,freq=1.0), product of:
              0.084516935 = queryWeight, product of:
                1.1652681 = boost
                4.5889435 = idf(docFreq=1194, maxDocs=43254)
                0.01580539 = queryNorm
              0.21510673 = fieldWeight in 3514, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                4.5889435 = idf(docFreq=1194, maxDocs=43254)
                0.046875 = fieldNorm(doc=3514)
          0.1199328 = weight(abstract_txt:wörter in 3514) [ClassicSimilarity], result of:
            0.1199328 = score(doc=3514,freq=2.0), product of:
              0.23595394 = queryWeight, product of:
                1.9470073 = boost
                7.667512 = idf(docFreq=54, maxDocs=43254)
                0.01580539 = queryNorm
              0.50828904 = fieldWeight in 3514, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                7.667512 = idf(docFreq=54, maxDocs=43254)
                0.046875 = fieldNorm(doc=3514)
          0.16385569 = weight(abstract_txt:buchstaben in 3514) [ClassicSimilarity], result of:
            0.16385569 = score(doc=3514,freq=1.0), product of:
              0.41900256 = queryWeight, product of:
                3.1776638 = boost
                8.342641 = idf(docFreq=27, maxDocs=43254)
                0.01580539 = queryNorm
              0.3910613 = fieldWeight in 3514, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                8.342641 = idf(docFreq=27, maxDocs=43254)
                0.046875 = fieldNorm(doc=3514)
          0.1784802 = weight(abstract_txt:textes in 3514) [ClassicSimilarity], result of:
            0.1784802 = score(doc=3514,freq=1.0), product of:
              0.443577 = queryWeight, product of:
                3.2695208 = boost
                8.583802 = idf(docFreq=21, maxDocs=43254)
                0.01580539 = queryNorm
              0.40236574 = fieldWeight in 3514, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                8.583802 = idf(docFreq=21, maxDocs=43254)
                0.046875 = fieldNorm(doc=3514)
        0.24 = coord(6/25)
    
  3. Meyer, R.: Allein, es wär' so schön gewesen : Der Copernic Summarzier kann Internettexte leider nicht befriedigend und sinnvoll zusammenfassen (2002) 0.12
    0.11695744 = sum of:
      0.11695744 = product of:
        0.4873227 = sum of:
          0.021410363 = weight(abstract_txt:sind in 2649) [ClassicSimilarity], result of:
            0.021410363 = score(doc=2649,freq=5.0), product of:
              0.062243227 = queryWeight, product of:
                3.9381013 = idf(docFreq=2290, maxDocs=43254)
                0.01580539 = queryNorm
              0.343979 = fieldWeight in 2649, product of:
                2.236068 = tf(freq=5.0), with freq of:
                  5.0 = termFreq=5.0
                3.9381013 = idf(docFreq=2290, maxDocs=43254)
                0.0390625 = fieldNorm(doc=2649)
          0.01604168 = weight(abstract_txt:haben in 2649) [ClassicSimilarity], result of:
            0.01604168 = score(doc=2649,freq=1.0), product of:
              0.087800965 = queryWeight, product of:
                1.1876913 = boost
                4.677249 = idf(docFreq=1093, maxDocs=43254)
                0.01580539 = queryNorm
              0.18270504 = fieldWeight in 2649, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                4.677249 = idf(docFreq=1093, maxDocs=43254)
                0.0390625 = fieldNorm(doc=2649)
          0.01643792 = weight(abstract_txt:dabei in 2649) [ClassicSimilarity], result of:
            0.01643792 = score(doc=2649,freq=1.0), product of:
              0.08924091 = queryWeight, product of:
                1.1973909 = boost
                4.7154465 = idf(docFreq=1052, maxDocs=43254)
                0.01580539 = queryNorm
              0.18419713 = fieldWeight in 2649, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                4.7154465 = idf(docFreq=1052, maxDocs=43254)
                0.0390625 = fieldNorm(doc=2649)
          0.07067108 = weight(abstract_txt:wörter in 2649) [ClassicSimilarity], result of:
            0.07067108 = score(doc=2649,freq=1.0), product of:
              0.23595394 = queryWeight, product of:
                1.9470073 = boost
                7.667512 = idf(docFreq=54, maxDocs=43254)
                0.01580539 = queryNorm
              0.29951218 = fieldWeight in 2649, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                7.667512 = idf(docFreq=54, maxDocs=43254)
                0.0390625 = fieldNorm(doc=2649)
          0.21402818 = weight(abstract_txt:schlüsselwörter in 2649) [ClassicSimilarity], result of:
            0.21402818 = score(doc=2649,freq=2.0), product of:
              0.39201564 = queryWeight, product of:
                2.5096066 = boost
                9.883085 = idf(docFreq=5, maxDocs=43254)
                0.01580539 = queryNorm
              0.5459685 = fieldWeight in 2649, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                9.883085 = idf(docFreq=5, maxDocs=43254)
                0.0390625 = fieldNorm(doc=2649)
          0.14873348 = weight(abstract_txt:textes in 2649) [ClassicSimilarity], result of:
            0.14873348 = score(doc=2649,freq=1.0), product of:
              0.443577 = queryWeight, product of:
                3.2695208 = boost
                8.583802 = idf(docFreq=21, maxDocs=43254)
                0.01580539 = queryNorm
              0.33530477 = fieldWeight in 2649, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                8.583802 = idf(docFreq=21, maxDocs=43254)
                0.0390625 = fieldNorm(doc=2649)
        0.24 = coord(6/25)
    
  4. Maas, H.-D.: Indexieren mit AUTINDEX (2006) 0.11
    0.10656428 = sum of:
      0.10656428 = product of:
        0.44401786 = sum of:
          0.023453878 = weight(abstract_txt:sind in 1078) [ClassicSimilarity], result of:
            0.023453878 = score(doc=1078,freq=6.0), product of:
              0.062243227 = queryWeight, product of:
                3.9381013 = idf(docFreq=2290, maxDocs=43254)
                0.01580539 = queryNorm
              0.37681013 = fieldWeight in 1078, product of:
                2.4494898 = tf(freq=6.0), with freq of:
                  6.0 = termFreq=6.0
                3.9381013 = idf(docFreq=2290, maxDocs=43254)
                0.0390625 = fieldNorm(doc=1078)
          0.015150134 = weight(abstract_txt:eines in 1078) [ClassicSimilarity], result of:
            0.015150134 = score(doc=1078,freq=1.0), product of:
              0.084516935 = queryWeight, product of:
                1.1652681 = boost
                4.5889435 = idf(docFreq=1194, maxDocs=43254)
                0.01580539 = queryNorm
              0.1792556 = fieldWeight in 1078, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                4.5889435 = idf(docFreq=1194, maxDocs=43254)
                0.0390625 = fieldNorm(doc=1078)
          0.01643792 = weight(abstract_txt:dabei in 1078) [ClassicSimilarity], result of:
            0.01643792 = score(doc=1078,freq=1.0), product of:
              0.08924091 = queryWeight, product of:
                1.1973909 = boost
                4.7154465 = idf(docFreq=1052, maxDocs=43254)
                0.01580539 = queryNorm
              0.18419713 = fieldWeight in 1078, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                4.7154465 = idf(docFreq=1052, maxDocs=43254)
                0.0390625 = fieldNorm(doc=1078)
          0.031417977 = weight(abstract_txt:dass in 1078) [ClassicSimilarity], result of:
            0.031417977 = score(doc=1078,freq=2.0), product of:
              0.124873996 = queryWeight, product of:
                1.7347448 = boost
                4.5544004 = idf(docFreq=1236, maxDocs=43254)
                0.01580539 = queryNorm
              0.25159743 = fieldWeight in 1078, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                4.5544004 = idf(docFreq=1236, maxDocs=43254)
                0.0390625 = fieldNorm(doc=1078)
          0.099943995 = weight(abstract_txt:wörter in 1078) [ClassicSimilarity], result of:
            0.099943995 = score(doc=1078,freq=2.0), product of:
              0.23595394 = queryWeight, product of:
                1.9470073 = boost
                7.667512 = idf(docFreq=54, maxDocs=43254)
                0.01580539 = queryNorm
              0.42357418 = fieldWeight in 1078, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                7.667512 = idf(docFreq=54, maxDocs=43254)
                0.0390625 = fieldNorm(doc=1078)
          0.25761396 = weight(abstract_txt:textes in 1078) [ClassicSimilarity], result of:
            0.25761396 = score(doc=1078,freq=3.0), product of:
              0.443577 = queryWeight, product of:
                3.2695208 = boost
                8.583802 = idf(docFreq=21, maxDocs=43254)
                0.01580539 = queryNorm
              0.5807649 = fieldWeight in 1078, product of:
                1.7320508 = tf(freq=3.0), with freq of:
                  3.0 = termFreq=3.0
                8.583802 = idf(docFreq=21, maxDocs=43254)
                0.0390625 = fieldNorm(doc=1078)
        0.24 = coord(6/25)
    
  5. Nissen, K.; Reuter, M.: ¬Die neuen Leiden der jungen Wörter : Das aktuelle Wörterbuch zur Rächtschraiprehvorm (1999) 0.10
    0.10496711 = sum of:
      0.10496711 = product of:
        0.87472594 = sum of:
          0.030640017 = weight(abstract_txt:sind in 4860) [ClassicSimilarity], result of:
            0.030640017 = score(doc=4860,freq=1.0), product of:
              0.062243227 = queryWeight, product of:
                3.9381013 = idf(docFreq=2290, maxDocs=43254)
                0.01580539 = queryNorm
              0.49226266 = fieldWeight in 4860, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                3.9381013 = idf(docFreq=2290, maxDocs=43254)
                0.125 = fieldNorm(doc=4860)
          0.22614746 = weight(abstract_txt:wörter in 4860) [ClassicSimilarity], result of:
            0.22614746 = score(doc=4860,freq=1.0), product of:
              0.23595394 = queryWeight, product of:
                1.9470073 = boost
                7.667512 = idf(docFreq=54, maxDocs=43254)
                0.01580539 = queryNorm
              0.958439 = fieldWeight in 4860, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                7.667512 = idf(docFreq=54, maxDocs=43254)
                0.125 = fieldNorm(doc=4860)
          0.61793846 = weight(abstract_txt:buchstaben in 4860) [ClassicSimilarity], result of:
            0.61793846 = score(doc=4860,freq=2.0), product of:
              0.41900256 = queryWeight, product of:
                3.1776638 = boost
                8.342641 = idf(docFreq=27, maxDocs=43254)
                0.01580539 = queryNorm
              1.4747845 = fieldWeight in 4860, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                8.342641 = idf(docFreq=27, maxDocs=43254)
                0.125 = fieldNorm(doc=4860)
        0.12 = coord(3/25)