Search (1 results, page 1 of 1)

  • × author_ss:"RWI/PH"
  • × theme_ss:"Computerlinguistik"
  • × year_i:[2010 TO 2020}
  1. RWI/PH: Auf der Suche nach dem entscheidenden Wort : die Häufung bestimmter Wörter innerhalb eines Textes macht diese zu Schlüsselwörtern (2012) 0.00
    0.0038246177 = product of:
      0.019123089 = sum of:
        0.019123089 = weight(_text_:der in 331) [ClassicSimilarity], result of:
          0.019123089 = score(doc=331,freq=16.0), product of:
            0.091316424 = queryWeight, product of:
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.040880017 = queryNorm
            0.20941564 = fieldWeight in 331, product of:
              4.0 = tf(freq=16.0), with freq of:
                16.0 = termFreq=16.0
              2.2337668 = idf(docFreq=12875, maxDocs=44218)
              0.0234375 = fieldNorm(doc=331)
      0.2 = coord(1/5)
    
    Abstract
    Der Mensch kann komplexe Sachverhalte in eine eindimensionale Abfolge von Buchstaben umwandeln und niederschreiben. Dabei dienen Schlüsselwörter dazu, den Inhalt des Textes zu vermitteln. Wie Buchstaben und Wörtern mit dem Thema eines Textes zusammenhängen, haben Eduardo Altmann und seine Kollegen vom Max-Planck-Institut für die Physik komplexer Systeme und der Universität Bologna mit Hilfe von statistischen Methoden untersucht. Dabei haben sie herausgefunden, dass Schlüsselwörter nicht dadurch gekennzeichnet sind, dass sie im ganzen Text besonders häufig vorkommen, sondern nur an bestimmten Stellen vermehrt zu finden sind. Außerdem gibt es Beziehungen zwischen weit entfernten Textabschnitten, in der Form, dass dieselben Wörter und Buchstaben bevorzugt verwendet werden.
    Content
    "Die Dresdner Wissenschaftler haben die semantischen Eigenschaften von Texten mathematisch untersucht, indem sie zehn verschiedene englische Texte in unterschiedlichen Formen kodierten. Dazu zählt unter anderem die englische Ausgabe von Leo Tolstois "Krieg und Frieden". Beispielsweise übersetzten die Forscher Buchstaben innerhalb eines Textes in eine Binär-Sequenz. Dazu ersetzten sie alle Vokale durch eine Eins und alle Konsonanten durch eine Null. Mit Hilfe weiterer mathematischer Funktionen beleuchteten die Wissenschaftler dabei verschiedene Ebenen des Textes, also sowohl einzelne Vokale, Buchstaben als auch ganze Wörter, die in verschiedenen Formen kodiert wurden. Innerhalb des ganzen Textes lassen sich so wiederkehrende Muster finden. Diesen Zusammenhang innerhalb des Textes bezeichnet man als Langzeitkorrelation. Diese gibt an, ob zwei Buchstaben an beliebig weit voneinander entfernten Textstellen miteinander in Verbindung stehen - beispielsweise gibt es wenn wir an einer Stelle einen Buchstaben "K" finden, eine messbare höhere Wahrscheinlichkeit den Buchstaben "K" einige Seiten später nochmal zu finden. "Es ist zu erwarten, dass wenn es in einem Buch an einer Stelle um Krieg geht, die Wahrscheinlichkeit hoch ist das Wort Krieg auch einige Seiten später zu finden. Überraschend ist es, dass wir die hohe Wahrscheinlichkeit auch auf der Buchstabenebene finden", so Altmann.
    Die statistische Textanalyse funktioniert unabhängig von der Sprache Während sowohl Buchstaben als auch Wörter Langzeit-korreliert sind, kommen Buchstaben nur selten an bestimmten Stellen eines Textes gehäuft vor. "Ein Buchstabe ist eben nur sehr selten so eng mit einem Thema verknüpft wie das Wort zu dem er einen Teil beiträgt. Buchstaben sind sozusagen flexibler einsetzbar", sagt Altmann. Ein "a" beispielsweise kann zu einer ganzen Reihe von Wörtern beitragen, die nicht mit demselben Thema in Verbindung stehen. Mit Hilfe der statistischen Analyse von Texten ist es den Forschern gelungen, die prägenden Wörter eines Textes auf einfache Weise zu ermitteln. "Dabei ist es vollkommen egal, in welcher Sprache ein Text geschrieben ist. Es geht nur noch um die Geschichte und nicht um sprachspezifische Regeln", sagt Altmann. Die Ergebnisse könnten zukünftig zur Verbesserung von Internetsuchmaschinen beitragen, aber auch bei Textanalysen und der Suche nach Plagiaten helfen."