Search (253 results, page 1 of 13)

Hotho, A.; Bloehdorn, S.: Data Mining 2004 : Text classification by boosting weak learners based on terms and concepts (2004) 0.03

0.031930998 = product of:
  0.19158597 = sum of:
    0.026878107 = product of:
      0.08063432 = sum of:
        0.08063432 = weight(_text_:3a in 562) [ClassicSimilarity], result of:
          0.08063432 = score(doc=562,freq=2.0), product of:
            0.14347284 = queryWeight, product of:
              8.478011 = idf(docFreq=24, maxDocs=44218)
              0.016922936 = queryNorm
            0.56201804 = fieldWeight in 562, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              8.478011 = idf(docFreq=24, maxDocs=44218)
              0.046875 = fieldNorm(doc=562)
      0.33333334 = coord(1/3)
    0.08063432 = weight(_text_:2f in 562) [ClassicSimilarity], result of:
      0.08063432 = score(doc=562,freq=2.0), product of:
        0.14347284 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.016922936 = queryNorm
        0.56201804 = fieldWeight in 562, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.046875 = fieldNorm(doc=562)
    0.08063432 = weight(_text_:2f in 562) [ClassicSimilarity], result of:
      0.08063432 = score(doc=562,freq=2.0), product of:
        0.14347284 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.016922936 = queryNorm
        0.56201804 = fieldWeight in 562, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.046875 = fieldNorm(doc=562)
    0.003439236 = product of:
      0.013756944 = sum of:
        0.013756944 = weight(_text_:22 in 562) [ClassicSimilarity], result of:
          0.013756944 = score(doc=562,freq=2.0), product of:
            0.059261236 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.016922936 = queryNorm
            0.23214069 = fieldWeight in 562, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.046875 = fieldNorm(doc=562)
      0.25 = coord(1/4)
  0.16666667 = coord(4/24)

Content: Vgl.: http://www.google.de/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&ved=0CEAQFjAA&url=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Fdoi%3D10.1.1.91.4940%26rep%3Drep1%26type%3Dpdf&ei=dOXrUMeIDYHDtQahsIGACg&usg=AFQjCNHFWVh6gNPvnOrOS9R3rkrXCNVD-A&sig2=5I2F5evRfMnsttSgFF9g7Q&bvm=bv.1357316858,d.Yms.
Date: 8. 1.2013 10:22:32

RWI/PH: Auf der Suche nach dem entscheidenden Wort : die Häufung bestimmter Wörter innerhalb eines Textes macht diese zu Schlüsselwörtern (2012) 0.03
```
0.030657211 = product of:
  0.105110444 = sum of:
    0.022753382 = weight(_text_:physik in 331) [ClassicSimilarity], result of:
      0.022753382 = score(doc=331,freq=2.0), product of:
        0.107782364 = queryWeight, product of:
          6.369011 = idf(docFreq=205, maxDocs=44218)
          0.016922936 = queryNorm
        0.21110487 = fieldWeight in 331, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          6.369011 = idf(docFreq=205, maxDocs=44218)
          0.0234375 = fieldNorm(doc=331)
    0.030435717 = weight(_text_:statistische in 331) [ClassicSimilarity], result of:
      0.030435717 = score(doc=331,freq=2.0), product of:
        0.124656945 = queryWeight, product of:
          7.3661537 = idf(docFreq=75, maxDocs=44218)
          0.016922936 = queryNorm
        0.24415581 = fieldWeight in 331, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          7.3661537 = idf(docFreq=75, maxDocs=44218)
          0.0234375 = fieldNorm(doc=331)
    0.011376691 = product of:
      0.022753382 = sum of:
        0.022753382 = weight(_text_:physik in 331) [ClassicSimilarity], result of:
          0.022753382 = score(doc=331,freq=2.0), product of:
            0.107782364 = queryWeight, product of:
              6.369011 = idf(docFreq=205, maxDocs=44218)
              0.016922936 = queryNorm
            0.21110487 = fieldWeight in 331, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              6.369011 = idf(docFreq=205, maxDocs=44218)
              0.0234375 = fieldNorm(doc=331)
      0.5 = coord(1/2)
    0.008713353 = weight(_text_:und in 331) [ClassicSimilarity], result of:
      0.008713353 = score(doc=331,freq=20.0), product of:
        0.037507437 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.016922936 = queryNorm
        0.23231003 = fieldWeight in 331, product of:
          4.472136 = tf(freq=20.0), with freq of:
            20.0 = termFreq=20.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0234375 = fieldNorm(doc=331)
    0.011900029 = product of:
      0.047600117 = sum of:
        0.047600117 = weight(_text_:ph in 331) [ClassicSimilarity], result of:
          0.047600117 = score(doc=331,freq=2.0), product of:
            0.15589376 = queryWeight, product of:
              9.211981 = idf(docFreq=11, maxDocs=44218)
              0.016922936 = queryNorm
            0.3053369 = fieldWeight in 331, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              9.211981 = idf(docFreq=11, maxDocs=44218)
              0.0234375 = fieldNorm(doc=331)
      0.25 = coord(1/4)
    0.00803124 = product of:
      0.01606248 = sum of:
        0.01606248 = weight(_text_:systeme in 331) [ClassicSimilarity], result of:
          0.01606248 = score(doc=331,freq=2.0), product of:
            0.09055887 = queryWeight, product of:
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.016922936 = queryNorm
            0.17737058 = fieldWeight in 331, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.0234375 = fieldNorm(doc=331)
      0.5 = coord(1/2)
    0.011900029 = product of:
      0.047600117 = sum of:
        0.047600117 = weight(_text_:ph in 331) [ClassicSimilarity], result of:
          0.047600117 = score(doc=331,freq=2.0), product of:
            0.15589376 = queryWeight, product of:
              9.211981 = idf(docFreq=11, maxDocs=44218)
              0.016922936 = queryNorm
            0.3053369 = fieldWeight in 331, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              9.211981 = idf(docFreq=11, maxDocs=44218)
              0.0234375 = fieldNorm(doc=331)
      0.25 = coord(1/4)
  0.29166666 = coord(7/24)
```
Abstract

Der Mensch kann komplexe Sachverhalte in eine eindimensionale Abfolge von Buchstaben umwandeln und niederschreiben. Dabei dienen Schlüsselwörter dazu, den Inhalt des Textes zu vermitteln. Wie Buchstaben und Wörtern mit dem Thema eines Textes zusammenhängen, haben Eduardo Altmann und seine Kollegen vom Max-Planck-Institut für die Physik komplexer Systeme und der Universität Bologna mit Hilfe von statistischen Methoden untersucht. Dabei haben sie herausgefunden, dass Schlüsselwörter nicht dadurch gekennzeichnet sind, dass sie im ganzen Text besonders häufig vorkommen, sondern nur an bestimmten Stellen vermehrt zu finden sind. Außerdem gibt es Beziehungen zwischen weit entfernten Textabschnitten, in der Form, dass dieselben Wörter und Buchstaben bevorzugt verwendet werden.

Content

"Die Dresdner Wissenschaftler haben die semantischen Eigenschaften von Texten mathematisch untersucht, indem sie zehn verschiedene englische Texte in unterschiedlichen Formen kodierten. Dazu zählt unter anderem die englische Ausgabe von Leo Tolstois "Krieg und Frieden". Beispielsweise übersetzten die Forscher Buchstaben innerhalb eines Textes in eine Binär-Sequenz. Dazu ersetzten sie alle Vokale durch eine Eins und alle Konsonanten durch eine Null. Mit Hilfe weiterer mathematischer Funktionen beleuchteten die Wissenschaftler dabei verschiedene Ebenen des Textes, also sowohl einzelne Vokale, Buchstaben als auch ganze Wörter, die in verschiedenen Formen kodiert wurden. Innerhalb des ganzen Textes lassen sich so wiederkehrende Muster finden. Diesen Zusammenhang innerhalb des Textes bezeichnet man als Langzeitkorrelation. Diese gibt an, ob zwei Buchstaben an beliebig weit voneinander entfernten Textstellen miteinander in Verbindung stehen - beispielsweise gibt es wenn wir an einer Stelle einen Buchstaben "K" finden, eine messbare höhere Wahrscheinlichkeit den Buchstaben "K" einige Seiten später nochmal zu finden. "Es ist zu erwarten, dass wenn es in einem Buch an einer Stelle um Krieg geht, die Wahrscheinlichkeit hoch ist das Wort Krieg auch einige Seiten später zu finden. Überraschend ist es, dass wir die hohe Wahrscheinlichkeit auch auf der Buchstabenebene finden", so Altmann.
Schlüsselwörter häufen sich in einzelnen Textpassagen Dabei haben sie die Langzeitkorrelation sowohl zwischen einzelnen Buchstaben, als auch innerhalb höherer sprachlicher Ebenen wie Wörtern gefunden. Innerhalb einzelner Ebenen bleibt die Korrelation dabei erhalten, wenn man verschiedene Texte betrachtet. "Viel interessanter ist es für uns zu überprüfen, wie die Korrelation sich zwischen den Ebenen ändert", sagt Altmann. Die Langzeitkorrelation erlaubt Rückschlüsse, inwieweit einzelne Wörter mit einem Thema in Verbindungen stehen. "Auch die Verbindung zwischen einem Wort und den Buchstaben, aus denen es sich zusammensetzt, lässt sich so analysieren", so Altmann. Darüber hinaus untersuchten die Wissenschaftler auch die sogenannte "Burstiness", die beschreibt, ob ein Zeichenmuster in einer Textpassage vermehrt zu finden ist. Sie zeigt also beispielsweise an, ob ein Wort in einem bestimmten Abschnitt gehäuft vorkommt. Je häufiger ein bestimmtes Wort in einer Passage verwendet wird, desto wahrscheinlicher ist es, dass diese repräsentativ für ein bestimmtes Thema ist. Die Wissenschaftler zeigten, dass bestimmte Wörter zwar im ganzen Text immer wieder vorkommen, aber nicht in einem bestimmten Abschnitt verstärkt zu finden sind. Diese Wörter weisen zwar eine Langzeitkorrelation auf, stehen aber nicht in einer engen Verbindung mit dem Thema. "Das beste Beispiel dafür sind Artikel. Sie kommen in jedem Text sehr oft vor, sind aber nicht entscheidend um ein bestimmtes Thema zu vermitteln", so Altmann.
Die statistische Textanalyse funktioniert unabhängig von der Sprache Während sowohl Buchstaben als auch Wörter Langzeit-korreliert sind, kommen Buchstaben nur selten an bestimmten Stellen eines Textes gehäuft vor. "Ein Buchstabe ist eben nur sehr selten so eng mit einem Thema verknüpft wie das Wort zu dem er einen Teil beiträgt. Buchstaben sind sozusagen flexibler einsetzbar", sagt Altmann. Ein "a" beispielsweise kann zu einer ganzen Reihe von Wörtern beitragen, die nicht mit demselben Thema in Verbindung stehen. Mit Hilfe der statistischen Analyse von Texten ist es den Forschern gelungen, die prägenden Wörter eines Textes auf einfache Weise zu ermitteln. "Dabei ist es vollkommen egal, in welcher Sprache ein Text geschrieben ist. Es geht nur noch um die Geschichte und nicht um sprachspezifische Regeln", sagt Altmann. Die Ergebnisse könnten zukünftig zur Verbesserung von Internetsuchmaschinen beitragen, aber auch bei Textanalysen und der Suche nach Plagiaten helfen."

Noever, D.; Ciolino, M.: ¬The Turing deception (2022) 0.02

0.023518343 = product of:
  0.18814674 = sum of:
    0.026878107 = product of:
      0.08063432 = sum of:
        0.08063432 = weight(_text_:3a in 862) [ClassicSimilarity], result of:
          0.08063432 = score(doc=862,freq=2.0), product of:
            0.14347284 = queryWeight, product of:
              8.478011 = idf(docFreq=24, maxDocs=44218)
              0.016922936 = queryNorm
            0.56201804 = fieldWeight in 862, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              8.478011 = idf(docFreq=24, maxDocs=44218)
              0.046875 = fieldNorm(doc=862)
      0.33333334 = coord(1/3)
    0.08063432 = weight(_text_:2f in 862) [ClassicSimilarity], result of:
      0.08063432 = score(doc=862,freq=2.0), product of:
        0.14347284 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.016922936 = queryNorm
        0.56201804 = fieldWeight in 862, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.046875 = fieldNorm(doc=862)
    0.08063432 = weight(_text_:2f in 862) [ClassicSimilarity], result of:
      0.08063432 = score(doc=862,freq=2.0), product of:
        0.14347284 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.016922936 = queryNorm
        0.56201804 = fieldWeight in 862, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.046875 = fieldNorm(doc=862)
  0.125 = coord(3/24)

Source: https%3A%2F%2Farxiv.org%2Fabs%2F2212.06721&usg=AOvVaw3i_9pZm9y_dQWoHi6uv0EN

Huo, W.: Automatic multi-word term extraction and its application to Web-page summarization (2012) 0.02

0.020588484 = product of:
  0.16470787 = sum of:
    0.08063432 = weight(_text_:2f in 563) [ClassicSimilarity], result of:
      0.08063432 = score(doc=563,freq=2.0), product of:
        0.14347284 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.016922936 = queryNorm
        0.56201804 = fieldWeight in 563, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.046875 = fieldNorm(doc=563)
    0.08063432 = weight(_text_:2f in 563) [ClassicSimilarity], result of:
      0.08063432 = score(doc=563,freq=2.0), product of:
        0.14347284 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.016922936 = queryNorm
        0.56201804 = fieldWeight in 563, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.046875 = fieldNorm(doc=563)
    0.003439236 = product of:
      0.013756944 = sum of:
        0.013756944 = weight(_text_:22 in 563) [ClassicSimilarity], result of:
          0.013756944 = score(doc=563,freq=2.0), product of:
            0.059261236 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.016922936 = queryNorm
            0.23214069 = fieldWeight in 563, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.046875 = fieldNorm(doc=563)
      0.25 = coord(1/4)
  0.125 = coord(3/24)

Content: A Thesis presented to The University of Guelph In partial fulfilment of requirements for the degree of Master of Science in Computer Science. Vgl. Unter: http://www.inf.ufrgs.br%2F~ceramisch%2Fdownload_files%2Fpublications%2F2009%2Fp01.pdf.
Date: 10. 1.2013 19:22:47

Hahn, U.: Informationslinguistik : I: Einführung in das linguistische Information Retrieval (1985) 0.01
```
0.013140285 = product of:
  0.10512228 = sum of:
    0.05739014 = weight(_text_:statistische in 3115) [ClassicSimilarity], result of:
      0.05739014 = score(doc=3115,freq=4.0), product of:
        0.124656945 = queryWeight, product of:
          7.3661537 = idf(docFreq=75, maxDocs=44218)
          0.016922936 = queryNorm
        0.4603846 = fieldWeight in 3115, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          7.3661537 = idf(docFreq=75, maxDocs=44218)
          0.03125 = fieldNorm(doc=3115)
    0.013746372 = weight(_text_:und in 3115) [ClassicSimilarity], result of:
      0.013746372 = score(doc=3115,freq=28.0), product of:
        0.037507437 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.016922936 = queryNorm
        0.36649725 = fieldWeight in 3115, product of:
          5.2915025 = tf(freq=28.0), with freq of:
            28.0 = termFreq=28.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=3115)
    0.03398577 = weight(_text_:kritische in 3115) [ClassicSimilarity], result of:
      0.03398577 = score(doc=3115,freq=2.0), product of:
        0.11407853 = queryWeight, product of:
          6.7410603 = idf(docFreq=141, maxDocs=44218)
          0.016922936 = queryNorm
        0.29791558 = fieldWeight in 3115, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          6.7410603 = idf(docFreq=141, maxDocs=44218)
          0.03125 = fieldNorm(doc=3115)
  0.125 = coord(3/24)
```
Abstract

Als Bestandteil des Ausbildungsprogramms im Aufbaustudiun Informationswissenschaft an der Universitaet Konstanz (vgl. VOGEL 1984) ist ein Veranstaltungszyklus zur Informationslinguistik entwickelt worden. Die curriculare Planung zu diesem informationswissenschaftlichen Teilgebiet war stark eingebunden in die gesamte Organisation des Aufbaustudiums bzw. Diplomstudiengangs Informationswissenschaft, wobei insbesondere zwei Faktoren einen bestimmenden Einfluss auf die Definition der Lehrinhalte hatten: - die inhaltlichen Anforderungen des entwickelten Berufsbilds Informationsvermittlung und Informationsmanagemsnt - der zulaessige Zeitrahmen des Diplom-Studiengangs Informationswissenschaft (2 Jahre) und die nicht geringen Aufwaende fuer das uebrige Ausbildungsprogramm Die Informationslinguistik ist somit aus einer stark funktionalen Sicht heraus definiert worden, die den Leistungsbeitrag zur umfassenden informationswissenschaftlichen Ausbildung letztlich mehr betont als dis ziplinaere Eigendynamik. Die jetzt realisierte Verbindung aus obligatorischen und fakultativen Veranstaltungen zur Informationslinguistik erlaubt jedoch den an entsprechenden Fachfragen interessierten Studenten durchaus eine qualitativ ausreichende Vertiefung im Rahmen des informationswissenschaftlichen Lehrangebots, das ggf. noch durch Veranstaltungen der unterschiedlichen linguistischen Abteilungen an der Universitaet Konstanz ergaenzt werden kann. Schliesslich ist einer der Forschungsschwerpunkte des Lehrstuhls fuer Informationswissenschaft, das automatische Abstracting-Projekt TOPIC (HAHN/REIMER 1985), eindeutig dem Bereich Informationslinguistik zuzuordnen, der engagierten Studenten weitere Optionen fuer eine spezialisierte Ausbildung und - im Rahmen von durch Studien- und Diplomarbeiten klar abgesteckten Aufgaben - eigenstaendige Forschungs- und Entwicklungstaetigkeit eroeffnet. Informationslinguistik wird am Lehrstuhl fuer Informationswissenschaft der Universitaet Konstanz nun in folgender Konstellation gelehrt:
(1) "Informationslinguistik I: Einfuehrung in das linguistische Information Retrieval" (2) "Informationslinguistik II: linguistische und statistische Verfahren im experimentellen Information Retrieval" (3) "Intelligente Informationssysteme: Verfahren der Kuenstlichen Intelligenz im experimentellen Information Retrieval" Kursabschnitt zu natuerlichsprachlichen Systemen (4) Spezialkurse zum automatischen Uebersetzen, Indexing und Retrieval, Abstracting usf. dienen zur Vertiefung informationslinguistischer Spezialthemen Die Kurse (1) und (3) gehoeren zu dem Pool der Pflichtveranstaltungen aller Studenten des Diplom-Studiengangs Informationswissenschaft, waehrend (2) und (4) lediglich zu den Wahlpflichtveranstaltungen zaehlen, die aber obligatorisch fuer die Studenten des Diplomstudiengangs sind, die ihren Schwerpunkt (z.B. in Form der Diplomarbeit) im Bereich Informationslinguistik suchen - fuer alle anderen Studenten zaehlen diese Kurse zum Zusatz angebot an Lehrveranstaltungen.
Das vorliegende Skript entspricht dem Inhalt des Kurses "Informationslinguistik I" im WS 1982/83. Es ist im Maerz 1983 inhaltlich abgeschlossen und im Januar 1985 lediglich redaktionell ueberarbeitet worden. Die Erstellung des Skripts entspricht einem dezidierten Auftrag des Projekts "Informationsvermittlung", der die Entwicklung geeigneter Lehrmaterialien zum informationswissenschaftlichen Aufbaustudium vorsah. Aufgrund des engen Projektzeitrahmens (1983-85) kann das Skript nicht in dem Masse voll ausgereift und ausformuliert sein, wie es gaengigen Standards entspraeche. Dennoch hat es sich in den jaehrlichen Neuauflagen des Kurses trotz wechselnder Dozenten als weitgehend stabiles inhaltliches Geruest bewaehrt. Nichtsdestotrotz sollte gerade die Veroeffentlichung des Skripts als Anregung dienen, kritische Ko mmentare, Anmerkungen und Ergaenzungen zu diesem curricularen Entwurf herauszufordern, um damit die weitere disziplinaere Klaerung der Informationslinguistik zu foerdern.

Content

2. Teil u.d.T.: Linguistische und statistische Verfahren im experimentellen Information Retrieval
Kiss, T.: Anmerkungen zur scheinbaren Konkurrenz von numerischen und symbolischen Verfahren in der Computerlinguistik (2002) 0.01
```
0.0127996905 = product of:
  0.102397524 = sum of:
    0.05739014 = weight(_text_:statistische in 1752) [ClassicSimilarity], result of:
      0.05739014 = score(doc=1752,freq=4.0), product of:
        0.124656945 = queryWeight, product of:
          7.3661537 = idf(docFreq=75, maxDocs=44218)
          0.016922936 = queryNorm
        0.4603846 = fieldWeight in 1752, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          7.3661537 = idf(docFreq=75, maxDocs=44218)
          0.03125 = fieldNorm(doc=1752)
    0.011021618 = weight(_text_:und in 1752) [ClassicSimilarity], result of:
      0.011021618 = score(doc=1752,freq=18.0), product of:
        0.037507437 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.016922936 = queryNorm
        0.29385152 = fieldWeight in 1752, product of:
          4.2426405 = tf(freq=18.0), with freq of:
            18.0 = termFreq=18.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=1752)
    0.03398577 = weight(_text_:kritische in 1752) [ClassicSimilarity], result of:
      0.03398577 = score(doc=1752,freq=2.0), product of:
        0.11407853 = queryWeight, product of:
          6.7410603 = idf(docFreq=141, maxDocs=44218)
          0.016922936 = queryNorm
        0.29791558 = fieldWeight in 1752, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          6.7410603 = idf(docFreq=141, maxDocs=44218)
          0.03125 = fieldNorm(doc=1752)
  0.125 = coord(3/24)
```
Abstract

Veränderungen in der Mode vollziehen sich schrittweise, allmählich, oftmals unmerklich. Manchmal kommt es dann doch zu einem plötzlichen Bruch, zu einer eindeutig bestimmten Opposition zwischen dem modischen Jetzt und seinem Vorgänger. Deutlich erkennbar etwa, als um die Wende von den 70er zu den 80er Jahren die weite Karotte die enge Schlaghose verdrängte und im Gefolge dieses Wechsels taillierte Sakkos und Hemden big suits und Polohemden weichen mussten. Etwas Ähnliches hat sich vor einigen Jahren in der Computerlinguistik ereignet: Wurde diese seit Beginn der 80er Jahre durch deduktive, regelbasierte Verfahren beherrscht, so gab es seit Beginn der 90er Jahre zunächst eine Hinwendung, schließlich Mitte der 90er Jahre eine Flucht zu induktiven, numerisch basierten Verfahren, die mittlerweile die Computerlinguistik nahezu vollständig zu beherrschen scheinen.
Man kann wohl abschließend festhalten, dass von einer Überlegenheit statistischer Verfahren zumindest im Bereich des Tagging eigentlich nicht gesprochen werden sollte. Darüber hinaus muss die Opposition zwischen regelbasierten und numerischen Verfahren hier aufgeweicht werden, denn auch die statistischen Verfahren verwenden Regelsysteme. Selbst beim Lernen ohne Referenzkorpus ist ja zumindest eine Zuordnung der Wörter zu einem Lexikon bzw. auch eine heuristische Erkennung unbekannter Wörter nach Regeln notwendig. Statistische Verfahren haben - und dies wurde hier wahrscheinlich nicht ausreichend betont - durchaus ihre Berechtigung, sie sind nützlich; sie gestatten, insbesondere im Vergleich zur Introspektion, eine unmittelbarere und breitere Heranführung an das Phänomen Sprache. Die vorhandenen umfangreichen elektronischen Korpora verlangen nahezu danach, Sprache auch mit statistischen Mitteln zu untersuchen. Allerdings können die statistischen Verfahren die regelbasierten Verfahren nicht ersetzen. Somit muss dem Diktum vom "Es geht nicht anders" deutlich widersprochen werden. Dass die statistischen Verfahren zur Zeit so en vogue sind und die regelbasierten Verfahren aussehen lassen wie eine alte Dallas-Folge, mag wohl auch daran liegen, dass zu viele Vertreter des alten Paradigmas nicht die Energie aufbringen, sich dem neuen Paradigma so weit zu öffnen, dass eine kritische Auseinandersetzung mit dem neuen auf der Basis des alten möglich wird. Die Mathematik ist eine geachtete, weil schwierige Wissenschaft, die statistische Sprachverarbeitung ist eine gefürchtete, weil in ihren Eigenschaften oftmals nicht gründlich genug betrachtete Disziplin.

Granitzer, M.: Statistische Verfahren der Textanalyse (2006) 0.01

0.011178359 = product of:
  0.13414031 = sum of:
    0.12300448 = weight(_text_:statistische in 5809) [ClassicSimilarity], result of:
      0.12300448 = score(doc=5809,freq=6.0), product of:
        0.124656945 = queryWeight, product of:
          7.3661537 = idf(docFreq=75, maxDocs=44218)
          0.016922936 = queryNorm
        0.9867439 = fieldWeight in 5809, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          7.3661537 = idf(docFreq=75, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5809)
    0.011135834 = weight(_text_:und in 5809) [ClassicSimilarity], result of:
      0.011135834 = score(doc=5809,freq=6.0), product of:
        0.037507437 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.016922936 = queryNorm
        0.2968967 = fieldWeight in 5809, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5809)
  0.083333336 = coord(2/24)

Abstract: Der vorliegende Artikel bietet einen Überblick über statistische Verfahren der Textanalyse im Kontext des Semantic Webs. Als Einleitung erfolgt die Diskussion von Methoden und gängigen Techniken zur Vorverarbeitung von Texten wie z. B. Stemming oder Part-of-Speech Tagging. Die so eingeführten Repräsentationsformen dienen als Basis für statistische Merkmalsanalysen sowie für weiterführende Techniken wie Information Extraction und maschinelle Lernverfahren. Die Darstellung dieser speziellen Techniken erfolgt im Überblick, wobei auf die wichtigsten Aspekte in Bezug auf das Semantic Web detailliert eingegangen wird. Die Anwendung der vorgestellten Techniken zur Erstellung und Wartung von Ontologien sowie der Verweis auf weiterführende Literatur bilden den Abschluss dieses Artikels.

Hahn, U.: Informationslinguistik : II: Einführung in das linguistische Information Retrieval (1985) 0.01
```
0.009712016 = product of:
  0.07769613 = sum of:
    0.03550834 = weight(_text_:statistische in 3116) [ClassicSimilarity], result of:
      0.03550834 = score(doc=3116,freq=2.0), product of:
        0.124656945 = queryWeight, product of:
          7.3661537 = idf(docFreq=75, maxDocs=44218)
          0.016922936 = queryNorm
        0.28484845 = fieldWeight in 3116, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          7.3661537 = idf(docFreq=75, maxDocs=44218)
          0.02734375 = fieldNorm(doc=3116)
    0.012450242 = weight(_text_:und in 3116) [ClassicSimilarity], result of:
      0.012450242 = score(doc=3116,freq=30.0), product of:
        0.037507437 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.016922936 = queryNorm
        0.33194062 = fieldWeight in 3116, product of:
          5.477226 = tf(freq=30.0), with freq of:
            30.0 = termFreq=30.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02734375 = fieldNorm(doc=3116)
    0.02973755 = weight(_text_:kritische in 3116) [ClassicSimilarity], result of:
      0.02973755 = score(doc=3116,freq=2.0), product of:
        0.11407853 = queryWeight, product of:
          6.7410603 = idf(docFreq=141, maxDocs=44218)
          0.016922936 = queryNorm
        0.26067615 = fieldWeight in 3116, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          6.7410603 = idf(docFreq=141, maxDocs=44218)
          0.02734375 = fieldNorm(doc=3116)
  0.125 = coord(3/24)
```
Abstract

Als Bestandteil des Ausbildungsprogramms im Aufbaustudiun Informationswissenschaft an der Universitaet Konstanz (vgl. VOGEL 1984) ist ein Veranstaltungszyklus zur Informationslinguistik entwickelt worden. Die curriculare Planung zu diesem informationswissenschaftlichen Teilgebiet war stark eingebunden in die gesamte Organisation des Aufbaustudiums bzw. Diplomstudiengangs Informationswissenschaft, wobei insbesondere zwei Faktoren einen bestimmenden Einfluss auf die Definition der Lehrinhalte hatten: - die inhaltlichen Anforderungen des entwickelten Berufsbilds Informationsvermittlung und Informationsmanagemsnt - der zulaessige Zeitrahmen des Diplom-Studiengangs Informationswissenschaft (2 Jahre) und die nicht geringen Aufwaende fuer das uebrige Ausbildungsprogramm Die Informationslinguistik ist somit aus einer stark funktionalen Sicht heraus definiert worden, die den Leistungsbeitrag zur umfassenden informationswissenschaftlichen Ausbildung letztlich mehr betont als dis ziplinaere Eigendynamik. Die jetzt realisierte Verbindung aus obligatorischen und fakultativen Veranstaltungen zur Informationslinguistik erlaubt jedoch den an entsprechenden Fachfragen interessierten Studenten durchaus eine qualitativ ausreichende Vertiefung im Rahmen des informationswissenschaftlichen Lehrangebots, das ggf. noch durch Veranstaltungen der unterschiedlichen linguistischen Abteilungen an der Universitaet Konstanz ergaenzt werden kann. Schliesslich ist einer der Forschungsschwerpunkte des Lehrstuhls fuer Informationswissenschaft, das automatische Abstracting-Projekt TOPIC (HAHN/REIMER 1985), eindeutig dem Bereich Informationslinguistik zuzuordnen, der engagierten Studenten weitere Optionen fuer eine spezialisierte Ausbildung und - im Rahmen von durch Studien- und Diplomarbeiten klar abgesteckten Aufgaben - eigenstaendige Forschungs- und Entwicklungstaetigkeit eroeffnet. Informationslinguistik wird am Lehrstuhl fuer Informationswissenschaft der Universitaet Konstanz nun in folgender Konstellation gelehrt:
(1) "Informationslinguistik I: Einfuehrung in das linguistische Information Retrieval" (2) "Informationslinguistik II: linguistische und statistische Verfahren im experimentellen Information Retrieval" (3) "Intelligente Informationssysteme: Verfahren der Kuenstlichen Intelligenz im experimentellen Information Retrieval" Kursabschnitt zu natuerlichsprachlichen Systemen (4) Spezialkurse zum automatischen Uebersetzen, Indexing und Retrieval, Abstracting usf. dienen zur Vertiefung informationslinguistischer Spezialthemen Die Kurse (1) und (3) gehoeren zu dem Pool der Pflichtveranstaltungen aller Studenten des Diplom-Studiengangs Informationswissenschaft, waehrend (2) und (4) lediglich zu den Wahlpflichtveranstaltungen zaehlen, die aber obligatorisch fuer die Studenten des Diplomstudiengangs sind, die ihren Schwerpunkt (z.B. in Form der Diplomarbeit) im Bereich Informationslinguistik suchen - fuer alle anderen Studenten zaehlen diese Kurse zum Zusatz angebot an Lehrveranstaltungen.
Das vorliegende Skript entspricht dem Inhalt des Kurses "Informationslinguistik II" im SS 1983 bzw. SS 1984. Es ist im Juli 1983 inhaltlich abgeschlossen und im Januar 1985 lediglich redaktionell ueberarbeitet worden. Die Erstellung des Skripts entspricht einem dezidierten Auftrag des Projekts "Informationsvermittlung", der die Entwicklung geeigneter Lehrmaterialien zum informationswissenschaftlichen Aufbaustudium vorsah. Aufgrund des engen Projektzeitrahmens (1982-84) kann das Skript nicht in dem Masse voll ausgereift und ausformuliert sein, wie es gaengigen Standards entspraeche. Im Unterschied zum Skript "Informationslinguistik I" (HAHN 1985) laesst das vorliegende Skript wahlweise eine eher methoden- oder mehr systembezogene Darstellung informationslinguistischer Konzepte des experimentellen Information Retrieval zu (beides zusammen schliesst der enge Zeitrahmen eines Sommersemesters ausl). Die Entscheidung darueber sollte wenn moeglich in Abhaengigkeit zur personellen Zusammensetzung des Kurses getroffen werden, wobei - sofern die bislang genachten Erfahrungen verallgemeinerbar sind - sich bei einem nicht ausschliesslich an einer informationslinguistischen Spezialisierung interessierten und damit heterogenen Publikum die mehr systembezogene Praesentation als fuer das Verstaendnis informationslinguistischer Fragestellungen und entsprechender Verfahrensloesungen guenstiger gezeigt hat. Innerhalb dieser Nuancierung besitzt aber auch dieses Skript schon eine akzeptable inhaltliche Stabilitaet. Nichtsdestotrotz sollte gerade die Veroeffentlichung des Skripts als Anregung dienen, kritische Kommentare, Anmerkungen und Ergaenzungen zu diesem curricularen Entwurf herauszufordern, um damit die weitere disziplinaere Klaerung der Informationslinguistik zu foerdern.
Computerlinguistik und Sprachtechnologie : Eine Einführung (2010) 0.01
```
0.008744207 = product of:
  0.06995366 = sum of:
    0.040580958 = weight(_text_:statistische in 1735) [ClassicSimilarity], result of:
      0.040580958 = score(doc=1735,freq=2.0), product of:
        0.124656945 = queryWeight, product of:
          7.3661537 = idf(docFreq=75, maxDocs=44218)
          0.016922936 = queryNorm
        0.32554108 = fieldWeight in 1735, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          7.3661537 = idf(docFreq=75, maxDocs=44218)
          0.03125 = fieldNorm(doc=1735)
    0.014228848 = weight(_text_:und in 1735) [ClassicSimilarity], result of:
      0.014228848 = score(doc=1735,freq=30.0), product of:
        0.037507437 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.016922936 = queryNorm
        0.3793607 = fieldWeight in 1735, product of:
          5.477226 = tf(freq=30.0), with freq of:
            30.0 = termFreq=30.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=1735)
    0.015143851 = product of:
      0.030287702 = sum of:
        0.030287702 = weight(_text_:systeme in 1735) [ClassicSimilarity], result of:
          0.030287702 = score(doc=1735,freq=4.0), product of:
            0.09055887 = queryWeight, product of:
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.016922936 = queryNorm
            0.33445317 = fieldWeight in 1735, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.03125 = fieldNorm(doc=1735)
      0.5 = coord(1/2)
  0.125 = coord(3/24)
```
Abstract

Dieses Lehrbuch bietet eine umfassende Einführung in Grundlagen und Methoden der Computerlinguistik und stellt die wichtigsten Anwendungsgebiete in der Sprachtechnologie vor. Es richtet sich gleichermaßen an Studierende der Computerlinguistik und verwandter Fächer mit Bezug zur Verarbeitung natürlicher Sprache wie an Entwickler sprachverarbeitender Systeme. Nach einem Überblick über Aufgaben und Ziele der Computerlinguistik werden die erforderlichen theoretischen Grundlagen zur Logik, den Formalen Sprachen, der Graphentheorie, den statistischen Verfahren sowie der Texttechnologie beispielbezogen erläutert. Es schließt sich eine Darstellung der verschiedenen Methoden für die Verarbeitung auf den linguistischen Beschreibungsebenen an. Dabei werden zunächst die grundlegenden Begriffe und Konzepte der Phonetik und Phonologie, Morphologie, Syntax, Semantik sowie der Pragmatik vermittelt und darauf aufbauend die Prinzipien der sprachtechnologischen Umsetzung behandelt. Die drei letzten Teile des Buchs geben Überblicke über die verwendeten sprachtechnologischen Informationsquellen, die vielfältigen Anwendungen in der Praxis sowie über Evaluationsverfahren für sprachverarbeitende Systeme. Anhand konkreter Fragestellungen - von der Entwicklung von Korrekturprogrammen über das Informationsmanagement bis zur Maschinellen Übersetzung - wird das Zusammenwirken der einzelnen Methoden aufgezeigt. Für die dritte Auflage wurden sämtliche Kapitel überarbeitet und aktualisiert sowie zum Teil zu eigenständigen, neuen Kapiteln zusammengeführt. Insbesondere trägt die dritte Auflage der rasanten Entwicklung in der Computerlinguistik und Sprachtechnologie durch eine stärkere Fokussierung auf statistische Grundlagen und Methoden Rechnung. "Durch dieses Handbuch wird für den deutschsprachigen Raum eine empfindliche Lücke geschlossen. Es umfasst die relevanten Aspekte computerlinguistischer Grundlagenwissenschaft und sprachtechnologischer Anwendung in eindrucksvoller Breite und auf aktuellem Stand." [Manfred Pinkal]

BK

18.00 Einzelne Sprachen und Literaturen allgemein

Classification

18.00 Einzelne Sprachen und Literaturen allgemein

Graham, T.: ¬The free language approach to online catalogues : the user (1985) 0.01

0.007933353 = product of:
  0.09520023 = sum of:
    0.047600117 = product of:
      0.19040047 = sum of:
        0.19040047 = weight(_text_:ph in 1215) [ClassicSimilarity], result of:
          0.19040047 = score(doc=1215,freq=2.0), product of:
            0.15589376 = queryWeight, product of:
              9.211981 = idf(docFreq=11, maxDocs=44218)
              0.016922936 = queryNorm
            1.2213476 = fieldWeight in 1215, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              9.211981 = idf(docFreq=11, maxDocs=44218)
              0.09375 = fieldNorm(doc=1215)
      0.25 = coord(1/4)
    0.047600117 = product of:
      0.19040047 = sum of:
        0.19040047 = weight(_text_:ph in 1215) [ClassicSimilarity], result of:
          0.19040047 = score(doc=1215,freq=2.0), product of:
            0.15589376 = queryWeight, product of:
              9.211981 = idf(docFreq=11, maxDocs=44218)
              0.016922936 = queryNorm
            1.2213476 = fieldWeight in 1215, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              9.211981 = idf(docFreq=11, maxDocs=44218)
              0.09375 = fieldNorm(doc=1215)
      0.25 = coord(1/4)
  0.083333336 = coord(2/24)

Source: Keyword catalogues and the free language approach. Ed.: Ph. Bryant

Thiel, M.: Bedingt wahrscheinliche Syntaxbäume (2006) 0.00
```
0.004680657 = product of:
  0.05616788 = sum of:
    0.040580958 = weight(_text_:statistische in 6069) [ClassicSimilarity], result of:
      0.040580958 = score(doc=6069,freq=2.0), product of:
        0.124656945 = queryWeight, product of:
          7.3661537 = idf(docFreq=75, maxDocs=44218)
          0.016922936 = queryNorm
        0.32554108 = fieldWeight in 6069, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          7.3661537 = idf(docFreq=75, maxDocs=44218)
          0.03125 = fieldNorm(doc=6069)
    0.015586922 = weight(_text_:und in 6069) [ClassicSimilarity], result of:
      0.015586922 = score(doc=6069,freq=36.0), product of:
        0.037507437 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.016922936 = queryNorm
        0.41556883 = fieldWeight in 6069, product of:
          6.0 = tf(freq=36.0), with freq of:
            36.0 = termFreq=36.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=6069)
  0.083333336 = coord(2/24)
```
Abstract

Es wird argumentiert, dass die Ansätze der probabilistischen kontextfreien Grammatiken und anderer Modelle nicht ausreichend sind für die Lösung der im Parsing auftretenden Probleme. Zu deren Lösung wird folgende Hypothese aufgestellt: Die Wahrscheinlichkeiten einzelner Lesarten und verschiedener Knoten in einem Syntaxbaum sind voneinander abhängig. Vereindeutigt man eine Lesart bzw. einen Knoten, hat dies Auswirkungen auf die Wahrscheinlichkeit anderer Lesarten bzw. Knoten. Daher werden alle Lesarten und Syntaxbäume in einen Graphen integriert. Wenn die Wahrscheinlichkeiten also voneinander abhängig sind, wird angenommen, dass die Theorie der bedingten Wahrscheinlichkeiten von Bayes als Basis eine Lösung produzieren sollte. An einem Beispiel wird dies nachvollzogen und die Hypothese konnte bestätigt werden.
Die Tendenz ist eindeutig: wo immer es sinnvoll ist, werden hart' programmierte Lösungen durch Ansätze des Softcomputing ersetzt. Vor allem technische und kommerzielle Bereiche profitieren davon. So finden wir Kransteuerungen und viele andere Anwendungen mit Fuzzy Expertensystemen sowie Bilderkennungssysteme und Entscheidungen über die Kreditvergabe mit Neuronalen Netzen oder auch Methoden des Maschinellen Lernens (vgl. Jafar-Shaghaghi 1994). Ein Prinzip dieser Ansätze ist, dass die Software sich automatisch an die spezielle Situation und Datengrundlage der Anwendung anpasst. Flexibilität der Anpassung und die Fähigkeit zur Verallgemeinerung auf bislang ungesehene Fälle sind implizit in den Methoden vorhanden. Gerade dies ist auch ein typisches Problem, das bei der Beschreibung und vor allem beim Parsen natürlicher Sprache auftritt. Bei der Verarbeitung natürlicher Sprache kommt das leidige Problem der Ambiguität auf verschiedenen Ebenen hinzu. Alternative Regeln schließen sich in ihrer Anwendung in einem Satz meistens gegenseitig aus und sind nicht alle an der aktuellen Stelle gleich wahrscheinlich. Auf diese Problematik wurde schon früh hingewiesen (Thiel 1987, 137 ff.), wo versucht wurde, mit Gewichtungen die Wahrscheinlichkeit von Regeln, Syntaxbäumen, Kategorien und Wortsemantik in den Griff zu bekommen. Das Gewicht eines Syntaxbaumes kann z.B. einfach zugewiesen werden oder berechnet werden als Funktion des Baumes, aus dem er abgeleitet wird, und der angewandten Regel. Ein solches Verfahren wird (Thiel 1987, 152) am Beispiel einer Heuristik für die Inferenzmaschine eines Expertensystems gezeigt. Aber auch bereits in einer sehr frühen Veröffentlichung zur Analyse natürlicher Sprache, an der Zimmermann maßgeblich beteiligt war, wurde auf Vorkommenswahrscheinlichkeiten hingewiesen: "Statistische Auswertung von Typen des Satzbaus, Bau nominaler und verbaler Gruppen ..." (Eggers et al. 1969, 18). Derzeit konzentrieren sich die Ansätze von Vagheit in der Verarbeitung von natürlicher Sprache vor allem auf die Filterung von Texten z.B. in Spam-Filtern und auf probabilistische kontextfreie Grammatiken.

Source

Information und Sprache: Beiträge zu Informationswissenschaft, Computerlinguistik, Bibliothekswesen und verwandten Fächern. Festschrift für Harald H. Zimmermann. Herausgegeben von Ilse Harms, Heinz-Dirk Luckhardt und Hans W. Giessen
Rötzer, F.: Computer ergooglen die Bedeutung von Worten (2005) 0.00
```
0.0036375145 = product of:
  0.043650173 = sum of:
    0.030435717 = weight(_text_:statistische in 3385) [ClassicSimilarity], result of:
      0.030435717 = score(doc=3385,freq=2.0), product of:
        0.124656945 = queryWeight, product of:
          7.3661537 = idf(docFreq=75, maxDocs=44218)
          0.016922936 = queryNorm
        0.24415581 = fieldWeight in 3385, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          7.3661537 = idf(docFreq=75, maxDocs=44218)
          0.0234375 = fieldNorm(doc=3385)
    0.013214455 = weight(_text_:und in 3385) [ClassicSimilarity], result of:
      0.013214455 = score(doc=3385,freq=46.0), product of:
        0.037507437 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.016922936 = queryNorm
        0.3523156 = fieldWeight in 3385, product of:
          6.78233 = tf(freq=46.0), with freq of:
            46.0 = termFreq=46.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0234375 = fieldNorm(doc=3385)
  0.083333336 = coord(2/24)
```
Content

"Wie könnten Computer Sprache lernen und dabei auch die Bedeutung von Worten sowie die Beziehungen zwischen ihnen verstehen? Dieses Problem der Semantik stellt eine gewaltige, bislang nur ansatzweise bewältigte Aufgabe dar, da Worte und Wortverbindungen oft mehrere oder auch viele Bedeutungen haben, die zudem vom außersprachlichen Kontext abhängen. Die beiden holländischen (Ein künstliches Bewusstsein aus einfachen Aussagen (1)). Paul Vitanyi (2) und Rudi Cilibrasi vom Nationalen Institut für Mathematik und Informatik (3) in Amsterdam schlagen eine elegante Lösung vor: zum Nachschlagen im Internet, der größten Datenbank, die es gibt, wird einfach Google benutzt. Objekte wie eine Maus können mit ihren Namen "Maus" benannt werden, die Bedeutung allgemeiner Begriffe muss aus ihrem Kontext gelernt werden. Ein semantisches Web zur Repräsentation von Wissen besteht aus den möglichen Verbindungen, die Objekte und ihre Namen eingehen können. Natürlich können in der Wirklichkeit neue Namen, aber auch neue Bedeutungen und damit neue Verknüpfungen geschaffen werden. Sprache ist lebendig und flexibel. Um einer Künstlichen Intelligenz alle Wortbedeutungen beizubringen, müsste mit der Hilfe von menschlichen Experten oder auch vielen Mitarbeitern eine riesige Datenbank mit den möglichen semantischen Netzen aufgebaut und dazu noch ständig aktualisiert werden. Das aber müsste gar nicht notwendig sein, denn mit dem Web gibt es nicht nur die größte und weitgehend kostenlos benutzbare semantische Datenbank, sie wird auch ständig von zahllosen Internetnutzern aktualisiert. Zudem gibt es Suchmaschinen wie Google, die Verbindungen zwischen Worten und damit deren Bedeutungskontext in der Praxis in ihrer Wahrscheinlichkeit quantitativ mit der Angabe der Webseiten, auf denen sie gefunden wurden, messen.
Mit einem bereits zuvor von Paul Vitanyi und anderen entwickeltem Verfahren, das den Zusammenhang von Objekten misst (normalized information distance - NID ), kann die Nähe zwischen bestimmten Objekten (Bilder, Worte, Muster, Intervalle, Genome, Programme etc.) anhand aller Eigenschaften analysiert und aufgrund der dominanten gemeinsamen Eigenschaft bestimmt werden. Ähnlich können auch die allgemein verwendeten, nicht unbedingt "wahren" Bedeutungen von Namen mit der Google-Suche erschlossen werden. 'At this moment one database stands out as the pinnacle of computer-accessible human knowledge and the most inclusive summary of statistical information: the Google search engine. There can be no doubt that Google has already enabled science to accelerate tremendously and revolutionized the research process. It has dominated the attention of internet users for years, and has recently attracted substantial attention of many Wall Street investors, even reshaping their ideas of company financing.' (Paul Vitanyi und Rudi Cilibrasi) Gibt man ein Wort ein wie beispielsweise "Pferd", erhält man bei Google 4.310.000 indexierte Seiten. Für "Reiter" sind es 3.400.000 Seiten. Kombiniert man beide Begriffe, werden noch 315.000 Seiten erfasst. Für das gemeinsame Auftreten beispielsweise von "Pferd" und "Bart" werden zwar noch immer erstaunliche 67.100 Seiten aufgeführt, aber man sieht schon, dass "Pferd" und "Reiter" enger zusammen hängen. Daraus ergibt sich eine bestimmte Wahrscheinlichkeit für das gemeinsame Auftreten von Begriffen. Aus dieser Häufigkeit, die sich im Vergleich mit der maximalen Menge (5.000.000.000) an indexierten Seiten ergibt, haben die beiden Wissenschaftler eine statistische Größe entwickelt, die sie "normalised Google distance" (NGD) nennen und die normalerweise zwischen 0 und 1 liegt. Je geringer NGD ist, desto enger hängen zwei Begriffe zusammen. "Das ist eine automatische Bedeutungsgenerierung", sagt Vitanyi gegenüber dern New Scientist (4). "Das könnte gut eine Möglichkeit darstellen, einen Computer Dinge verstehen und halbintelligent handeln zu lassen." Werden solche Suchen immer wieder durchgeführt, lässt sich eine Karte für die Verbindungen von Worten erstellen. Und aus dieser Karte wiederum kann ein Computer, so die Hoffnung, auch die Bedeutung der einzelnen Worte in unterschiedlichen natürlichen Sprachen und Kontexten erfassen. So habe man über einige Suchen realisiert, dass ein Computer zwischen Farben und Zahlen unterscheiden, holländische Maler aus dem 17. Jahrhundert und Notfälle sowie Fast-Notfälle auseinander halten oder elektrische oder religiöse Begriffe verstehen könne. Überdies habe eine einfache automatische Übersetzung Englisch-Spanisch bewerkstelligt werden können. Auf diese Weise ließe sich auch, so hoffen die Wissenschaftler, die Bedeutung von Worten erlernen, könne man Spracherkennung verbessern oder ein semantisches Web erstellen und natürlich endlich eine bessere automatische Übersetzung von einer Sprache in die andere realisieren.

Schneider, R.: Question answering : das Retrieval der Zukunft? (2007) 0.00

0.0032845722 = product of:
  0.039414864 = sum of:
    0.017998226 = weight(_text_:und in 5953) [ClassicSimilarity], result of:
      0.017998226 = score(doc=5953,freq=12.0), product of:
        0.037507437 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.016922936 = queryNorm
        0.47985753 = fieldWeight in 5953, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0625 = fieldNorm(doc=5953)
    0.021416638 = product of:
      0.042833276 = sum of:
        0.042833276 = weight(_text_:systeme in 5953) [ClassicSimilarity], result of:
          0.042833276 = score(doc=5953,freq=2.0), product of:
            0.09055887 = queryWeight, product of:
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.016922936 = queryNorm
            0.4729882 = fieldWeight in 5953, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.0625 = fieldNorm(doc=5953)
      0.5 = coord(1/2)
  0.083333336 = coord(2/24)

Abstract: Der Artikel geht der Frage nach, ob und inwieweit Informations- und Recherchesysteme von der Technologie natürlich sprachlicher Frage-Antwortsysteme, so genannter Question Answering-Systeme, profitieren können. Nach einer allgemeinen Einführung in die Zielsetzung und die historische Entwicklung dieses Sonderzweigs der maschinellen Sprachverarbeitung werden dessen Abgrenzung von herkömmlichen Retrieval- und Extraktionsverfahren erläutert und die besondere Struktur von Question Answering-Systemen sowie einzelne Evaluierungsinitiativen aufgezeichnet. Zudem werden konkrete Anwendungsfelder im Bibliothekswesen vorgestellt.
Source: Zeitschrift für Bibliothekswesen und Bibliographie. 54(2007) H.1, S.3-11

Zimmermann, H.H.: Linguistische Verfahren zur Archivierung und zum Wiederfinden unstrukturierter Texte (1983) 0.00

0.0032800245 = product of:
  0.039360292 = sum of:
    0.012858554 = weight(_text_:und in 557) [ClassicSimilarity], result of:
      0.012858554 = score(doc=557,freq=8.0), product of:
        0.037507437 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.016922936 = queryNorm
        0.34282678 = fieldWeight in 557, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0546875 = fieldNorm(doc=557)
    0.02650174 = product of:
      0.05300348 = sum of:
        0.05300348 = weight(_text_:systeme in 557) [ClassicSimilarity], result of:
          0.05300348 = score(doc=557,freq=4.0), product of:
            0.09055887 = queryWeight, product of:
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.016922936 = queryNorm
            0.58529305 = fieldWeight in 557, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.0546875 = fieldNorm(doc=557)
      0.5 = coord(1/2)
  0.083333336 = coord(2/24)

Abstract: Die technologischen Entwicklungen der 80er und 90er Jahre werden den Bedarf an intelligenten Verfahren in der automatischen Texterschließung und -archivierung sprunghaft steigen lassen. Inzwischen existieren eine Reihe linguistischer Verfahren, die auch große Datenmengen, wie sie in der Büro- und Fachkommunikation auftreten, zu bewältigen helfen. Dabei ist eine wesentliche Zielsetzung, den Anwender von 'technischen' Handhabungen, wie sie die herkömmlichen Informations-Retrieval-Systeme noch erfordern, schrittweise zu entlasten in Richtung auf einen ehe natürlichsprachigen Zugang. Während dabei in den nächsten Jahren 'verstehensorietierte' Ansätze nur in ausgewählten Bereichen zum Einsatz kommen können, werden Verfahren auf morphologisch-syntaktischer Basis die bisherigen oberflächenorientierten Systeme schrittweise ersetzen

Melzer, C.: ¬Der Maschine anpassen : PC-Spracherkennung - Programme sind mittlerweile alltagsreif (2005) 0.00
```
0.0031126258 = product of:
  0.024901006 = sum of:
    0.009643915 = weight(_text_:und in 4044) [ClassicSimilarity], result of:
      0.009643915 = score(doc=4044,freq=18.0), product of:
        0.037507437 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.016922936 = queryNorm
        0.25712007 = fieldWeight in 4044, product of:
          4.2426405 = tf(freq=18.0), with freq of:
            18.0 = termFreq=18.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02734375 = fieldNorm(doc=4044)
    0.01325087 = product of:
      0.02650174 = sum of:
        0.02650174 = weight(_text_:systeme in 4044) [ClassicSimilarity], result of:
          0.02650174 = score(doc=4044,freq=4.0), product of:
            0.09055887 = queryWeight, product of:
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.016922936 = queryNorm
            0.29264653 = fieldWeight in 4044, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.02734375 = fieldNorm(doc=4044)
      0.5 = coord(1/2)
    0.002006221 = product of:
      0.008024884 = sum of:
        0.008024884 = weight(_text_:22 in 4044) [ClassicSimilarity], result of:
          0.008024884 = score(doc=4044,freq=2.0), product of:
            0.059261236 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.016922936 = queryNorm
            0.1354154 = fieldWeight in 4044, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.02734375 = fieldNorm(doc=4044)
      0.25 = coord(1/4)
  0.125 = coord(3/24)
```
Content

"Der Spracherkennung am Computer schien vor wenigen Jahren die Zukunft zu gehören. Geradezu euphorisch waren viele Computernutzer, als sich auf den Bildschirmen die ersten gesprochenen Sätze als Text darstellten. Doch die Spracherkennung erwies sich als anfällig, die Nachbearbeitung nahm manchmal mehr Zeit in Anspruch als gespart wurde. Dabei ist die Kommunikation des Menschen mit der Maschine über die Tastatur eigentlich höchst kompliziert - selbst geübte Schreiber sprechen schneller als sie tippen. Deshalb hat sich inzwischen viel getan: Im Preis und in der Genauigkeit sind viele Spracherkennungsprogramme heute alltagsreif. Die besten Systeme kosten aber noch immer mehrere hundert Euro, die günstigsten weisen Lücken auf. Letztlich gilt: Respektable Ergebnisse sind erreichbar, wenn sich der Mensch der Maschine anpasst. Die Stiftung Warentest in Berlin hat die sechs gängigsten Systeme auf den Prüfstand gestellt. Die ersten Ergebnisse waren ernüchternd: Das deutlich gesprochene "Johann Wolfgang von Goethe" wurde als "Juan Wolf kann Mohnblüte", "Jaun Wolfgang von Göbel" oder "Johann-Wolfgang Wohngüte" geschrieben. Grundsätzlich gilt: Bei einem einfachen Basiswortschatz sind die Ergebnisse genau, sobald es etwas spezieller wird, wird die Software erfinderisch. "Zweiter Weltkrieg" kann dann zu "Zeit für Geld kriegt" werden. Doch ebenso wie der Nutzer lernt auch das System. Bei der Software ist Lernfähigkeit Standard. Ohnehin muss der Benutzer das System einrichten, indem er vorgegebene Texte liest. Dabei wird das Programm der Stimme und der Sprechgeschwindigkeit angepasst. Hier gilt, dass der Anwender deutlich, aber ganz normal vorlesen sollte. Wer akzentuiert und übertrieben betont, wird später mit ungenauen Ausgaben bestraft. Erkennt das System auch nach dem Training einzelne Wörter nicht, können sie nachträglich eingefügt werden. Gleiches gilt für kompliziertere Orts- oder Eigennamen. Wie gut das funktioniert, beweist ein Gegentest: Liest ein anderer den selben Text vor, sinkt das Erkennungsniveau rapide. Die beste Lernfähigkeit attestierten die Warentester dem System "Voice Pro 10" von linguatec. Das war das mit Abstand vielseitigste, mit fast 200 Euro jedoch auch das teuerste Programm.
Billiger geht es mit "Via Voice Standard" von IBM. Die Software kostet etwa 50 Euro, hat aber erhebliche Schwächen in der Lernfähigkeit: Sie schneidet jedoch immer noch besser ab als das gut drei Mal so teure "Voice Office Premium 10"; das im Test der sechs Programme als einziges nur ein "Befriedigend" bekam. "Man liest über Spracherkennung nicht mehr so viel" weil es funktioniert", glaubt Dorothee Wiegand von der in Hannover erscheinenden Computerzeitschrift "c't". Die Technik" etwa "Dragon Naturally Speaking" von ScanSoft, sei ausgereift, "Spracherkennung ist vor allem Statistik, die Auswertung unendlicher Wortmöglichkeiten. Eigentlich war eher die Hardware das Problem", sagt Wiegand. Da jetzt selbst einfache Heimcomputer schnell und leistungsfähig seien, hätten die Entwickler viel mehr Möglichkeiten."Aber selbst ältere Computer kommen mit den Systemen klar. Sie brauchen nur etwas länger! "Jedes Byte macht die Spracherkennung etwas schneller, ungenauer ist sie sonst aber nicht", bestätigt Kristina Henry von linguatec in München. Auch für die Produkte des Herstellers gelte jedoch, dass "üben und deutlich sprechen wichtiger sind als jede Hardware". Selbst Stimmen von Diktiergeräten würden klar, erkannt, versichert Henry: "Wir wollen einen Schritt weiter gehen und das Diktieren von unterwegs möglich machen." Der Benutzer könnte dann eine Nummer anwählen, etwa im Auto einen Text aufsprechen und ihn zu Hause "getippt" vorfinden. Grundsätzlich passt die Spracherkennungssoftware inzwischen auch auf den privaten Computer. Klar ist aber, dass selbst der bestgesprochene Text nachbearbeitet werden muss. Zudem ist vom Nutzer Geduld gefragt: Ebenso wie sein System lernt, muss der Mensch sich in Aussprache und Geschwindigkeit dem System anpassen. Dann sind die Ergebnisse allerdings beachtlich - und "Sexterminvereinbarung" statt "zwecks Terminvereinbarung" gehört der Vergangenheit an."

Date

3. 5.1997 8:44:22
Bredack, J.: Automatische Extraktion fachterminologischer Mehrwortbegriffe : ein Verfahrensvergleich (2016) 0.00
```
0.0030801012 = product of:
  0.036961213 = sum of:
    0.013777021 = weight(_text_:und in 3194) [ClassicSimilarity], result of:
      0.013777021 = score(doc=3194,freq=18.0), product of:
        0.037507437 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.016922936 = queryNorm
        0.3673144 = fieldWeight in 3194, product of:
          4.2426405 = tf(freq=18.0), with freq of:
            18.0 = termFreq=18.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=3194)
    0.023184191 = product of:
      0.046368383 = sum of:
        0.046368383 = weight(_text_:systeme in 3194) [ClassicSimilarity], result of:
          0.046368383 = score(doc=3194,freq=6.0), product of:
            0.09055887 = queryWeight, product of:
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.016922936 = queryNorm
            0.51202476 = fieldWeight in 3194, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.0390625 = fieldNorm(doc=3194)
      0.5 = coord(1/2)
  0.083333336 = coord(2/24)
```
Abstract

In dieser Untersuchung wurden zwei Systeme eingesetzt, um MWT aus einer Dokumentkollektion mit fachsprachlichem Bezug (Volltexte des ACL Anthology Reference Corpus) automatisch zu extrahieren. Das thematische Spektrum umfasste alle Bereiche der natürlichen Sprachverarbeitung, im Speziellen die CL als interdisziplinäre Wissenschaft. Ziel war es MWT zu extrahieren, die als potentielle Indexterme im IR Verwendung finden können. Diese sollten auf Konzepte, Methoden, Verfahren und Algorithmen in der CL und angrenzenden Teilgebieten, wie Linguistik und Informatik hinweisen bzw. benennen.
Als Extraktionssysteme wurden der TreeTagger und die Indexierungssoftware Lingo verwendet. Der TreeTagger basiert auf einem statistischen Tagging- und Chunking- Algorithmus, mit dessen Hilfe NPs automatisch identifiziert und extrahiert werden. Er kann für verschiedene Anwendungsszenarien der natürlichen Sprachverarbeitung eingesetzt werden, in erster Linie als POS-Tagger für unterschiedliche Sprachen. Das Indexierungssystem Lingo arbeitet im Gegensatz zum TreeTagger mit elektronischen Wörterbüchern und einem musterbasierten Abgleich. Lingo ist ein auf automatische Indexierung ausgerichtetes System, was eine Vielzahl von Modulen mitliefert, die individuell auf eine bestimmte Aufgabenstellung angepasst und aufeinander abgestimmt werden können. Die unterschiedlichen Verarbeitungsweisen haben sich in den Ergebnismengen beider Systeme deutlich gezeigt. Die gering ausfallenden Übereinstimmungen der Ergebnismengen verdeutlichen die abweichende Funktionsweise und konnte mit einer qualitativen Analyse beispielhaft beschrieben werden. In der vorliegenden Arbeit kann abschließend nicht geklärt werden, welches der beiden Systeme bevorzugt für die Generierung von Indextermen eingesetzt werden sollte.
Experimentelles und praktisches Information Retrieval : Festschrift für Gerhard Lustig (1992) 0.00
```
0.0030568368 = product of:
  0.03668204 = sum of:
    0.020619558 = weight(_text_:und in 4) [ClassicSimilarity], result of:
      0.020619558 = score(doc=4,freq=28.0), product of:
        0.037507437 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.016922936 = queryNorm
        0.54974586 = fieldWeight in 4, product of:
          5.2915025 = tf(freq=28.0), with freq of:
            28.0 = termFreq=28.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.046875 = fieldNorm(doc=4)
    0.01606248 = product of:
      0.03212496 = sum of:
        0.03212496 = weight(_text_:systeme in 4) [ClassicSimilarity], result of:
          0.03212496 = score(doc=4,freq=2.0), product of:
            0.09055887 = queryWeight, product of:
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.016922936 = queryNorm
            0.35474116 = fieldWeight in 4, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.046875 = fieldNorm(doc=4)
      0.5 = coord(1/2)
  0.083333336 = coord(2/24)
```
Content

Enthält die Beiträge: SALTON, G.: Effective text understanding in information retrieval; KRAUSE, J.: Intelligentes Information retrieval; FUHR, N.: Konzepte zur Gestaltung zukünftiger Information-Retrieval-Systeme; HÜTHER, H.: Überlegungen zu einem mathematischen Modell für die Type-Token-, die Grundform-Token und die Grundform-Type-Relation; KNORZ, G.: Automatische Generierung inferentieller Links in und zwischen Hyperdokumenten; KONRAD, E.: Zur Effektivitätsbewertung von Information-Retrieval-Systemen; HENRICHS, N.: Retrievalunterstützung durch automatisch generierte Wortfelder; LÜCK, W., W. RITTBERGER u. M. SCHWANTNER: Der Einsatz des Automatischen Indexierungs- und Retrieval-System (AIR) im Fachinformationszentrum Karlsruhe; REIMER, U.: Verfahren der Automatischen Indexierung. Benötigtes Vorwissen und Ansätze zu seiner automatischen Akquisition: Ein Überblick; ENDRES-NIGGEMEYER, B.: Dokumentrepräsentation: Ein individuelles prozedurales Modell des Abstracting, des Indexierens und Klassifizierens; SEELBACH, D.: Zur Entwicklung von zwei- und mehrsprachigen lexikalischen Datenbanken und Terminologiedatenbanken; ZIMMERMANN, H.: Der Einfluß der Sprachbarrieren in Europa und Möglichkeiten zu ihrer Minderung; LENDERS, W.: Wörter zwischen Welt und Wissen; PANYR, J.: Frames, Thesauri und automatische Klassifikation (Clusteranalyse): HAHN, U.: Forschungsstrategien und Erkenntnisinteressen in der anwendungsorientierten automatischen Sprachverarbeitung. Überlegungen zu einer ingenieurorientierten Computerlinguistik; KUHLEN, R.: Hypertext und Information Retrieval - mehr als Browsing und Suche.

Gerstenkorn, A.: Indexierung mit Nominalgruppen (1980) 0.00

0.0029962899 = product of:
  0.035955478 = sum of:
    0.009184682 = weight(_text_:und in 6685) [ClassicSimilarity], result of:
      0.009184682 = score(doc=6685,freq=2.0), product of:
        0.037507437 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.016922936 = queryNorm
        0.24487628 = fieldWeight in 6685, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.078125 = fieldNorm(doc=6685)
    0.026770797 = product of:
      0.053541593 = sum of:
        0.053541593 = weight(_text_:systeme in 6685) [ClassicSimilarity], result of:
          0.053541593 = score(doc=6685,freq=2.0), product of:
            0.09055887 = queryWeight, product of:
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.016922936 = queryNorm
            0.5912352 = fieldWeight in 6685, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.078125 = fieldNorm(doc=6685)
      0.5 = coord(1/2)
  0.083333336 = coord(2/24)

Abstract: Die Indexierung mit Nominalgruppen ist eine konsequente Fortsetzung der Entwicklung von der gleichordnenden zur syntaktischen Indexierung. Nominalgruppen eignen sich besonders zur Bezeichnung komplexer Begriffe (Themen) und sind benutzerfreundlich. Bei einer automatischen Indexierung mit Nominalgruppen sind keine vollständigen Satzanalysen nötig, auch Systeme mit einem partiellen Parser liefern brauchbare Ergebnisse. Das Problem eines Retrieval mit Nominalgruppen ist noch zu lösen

Computerlinguistik und Sprachtechnologie : Eine Einführung (2001) 0.00
```
0.002994332 = product of:
  0.035931982 = sum of:
    0.019869504 = weight(_text_:und in 1749) [ClassicSimilarity], result of:
      0.019869504 = score(doc=1749,freq=26.0), product of:
        0.037507437 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.016922936 = queryNorm
        0.5297484 = fieldWeight in 1749, product of:
          5.0990195 = tf(freq=26.0), with freq of:
            26.0 = termFreq=26.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.046875 = fieldNorm(doc=1749)
    0.01606248 = product of:
      0.03212496 = sum of:
        0.03212496 = weight(_text_:systeme in 1749) [ClassicSimilarity], result of:
          0.03212496 = score(doc=1749,freq=2.0), product of:
            0.09055887 = queryWeight, product of:
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.016922936 = queryNorm
            0.35474116 = fieldWeight in 1749, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.046875 = fieldNorm(doc=1749)
      0.5 = coord(1/2)
  0.083333336 = coord(2/24)
```
Abstract

Dieses Lehrbuch bietet eine umfassende Einführung in Grundlagen und Methoden der Computerlinguistik und stellt die wichtigsten Anwendungsgebiete in der Sprachtechnologie vor. Es richtet sich gleichermaßen an Studierende der Computerlinguistik und verwandter Fächer mit Bezug zur Verarbeitung natürlicher Sprache wie an Entwickler sprachverarbeitender Systeme. Nach einem Überblick über Aufgaben und Ziele der Computerlinguistik werden die erforderlichen theoretischen Grundlagen zur Logik, den Formalen Sprachen und statistischen Verfahren ausführlich und beispielbezogen erläutert. Es schließt sich eine Darstellung der verschiedenen Methoden für die Verarbeitung auf den linguistischen Beschreibungsebenen an. Dabei werden zunächst die grundlegenden Begriffe und Konzepte der Phonetik, Morphologie, Syntax, Semantik sowie der Pragmatik vermittelt und darauf aufbauend die Prinzipien der sprachtechnologischen Umsetzung behandelt. Der letzte Teil des Buchs gibt einen Überblick über die sprachtechnologischen Anwendungen in der Praxis und zeigt anhand einer Vielzahl konkreter Fragestellungen - von Spracherkennung über Sprachsynthese, Information Retrieval bis hin zu Dialogsystemen und automatischer Übersetzung - das Zusammenwirken der einzelnen Methoden auf. "Durch dieses Handbuch wird für den deutschsprachigen Raum eine empfindliche Lücke geschlossen. Es umfasst die relevanten Aspekte computerlinguistischer Grundlagenwissenschaft und sprachtechnologischer Anwendung in eindrucksvoller Breite und auf aktuellem Stand" [Manfred Pinkal]
Giesselbach, S.; Estler-Ziegler, T.: Dokumente schneller analysieren mit Künstlicher Intelligenz (2021) 0.00
```
0.0029180064 = product of:
  0.035016075 = sum of:
    0.015908334 = weight(_text_:und in 128) [ClassicSimilarity], result of:
      0.015908334 = score(doc=128,freq=24.0), product of:
        0.037507437 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.016922936 = queryNorm
        0.42413816 = fieldWeight in 128, product of:
          4.8989797 = tf(freq=24.0), with freq of:
            24.0 = termFreq=24.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=128)
    0.019107739 = product of:
      0.038215477 = sum of:
        0.038215477 = weight(_text_:prozesse in 128) [ClassicSimilarity], result of:
          0.038215477 = score(doc=128,freq=2.0), product of:
            0.10819818 = queryWeight, product of:
              6.3935823 = idf(docFreq=200, maxDocs=44218)
              0.016922936 = queryNorm
            0.3531989 = fieldWeight in 128, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              6.3935823 = idf(docFreq=200, maxDocs=44218)
              0.0390625 = fieldNorm(doc=128)
      0.5 = coord(1/2)
  0.083333336 = coord(2/24)
```
Abstract

Künstliche Intelligenz (KI) und natürliches Sprachverstehen (natural language understanding/NLU) verändern viele Aspekte unseres Alltags und unserer Arbeitsweise. Besondere Prominenz erlangte NLU durch Sprachassistenten wie Siri, Alexa und Google Now. NLU bietet Firmen und Einrichtungen das Potential, Prozesse effizienter zu gestalten und Mehrwert aus textuellen Inhalten zu schöpfen. So sind NLU-Lösungen in der Lage, komplexe, unstrukturierte Dokumente inhaltlich zu erschließen. Für die semantische Textanalyse hat das NLU-Team des IAIS Sprachmodelle entwickelt, die mit Deep-Learning-Verfahren trainiert werden. Die NLU-Suite analysiert Dokumente, extrahiert Eckdaten und erstellt bei Bedarf sogar eine strukturierte Zusammenfassung. Mit diesen Ergebnissen, aber auch über den Inhalt der Dokumente selbst, lassen sich Dokumente vergleichen oder Texte mit ähnlichen Informationen finden. KI-basierten Sprachmodelle sind der klassischen Verschlagwortung deutlich überlegen. Denn sie finden nicht nur Texte mit vordefinierten Schlagwörtern, sondern suchen intelligent nach Begriffen, die in ähnlichem Zusammenhang auftauchen oder als Synonym gebraucht werden. Der Vortrag liefert eine Einordnung der Begriffe "Künstliche Intelligenz" und "Natural Language Understanding" und zeigt Möglichkeiten, Grenzen, aktuelle Forschungsrichtungen und Methoden auf. Anhand von Praxisbeispielen wird anschließend demonstriert, wie NLU zur automatisierten Belegverarbeitung, zur Katalogisierung von großen Datenbeständen wie Nachrichten und Patenten und zur automatisierten thematischen Gruppierung von Social Media Beiträgen und Publikationen genutzt werden kann.

Search (253 results, page 1 of 13)

Authors

Years

Languages

Types

Themes

Subjects

Classifications