Search (88 results, page 5 of 5)

Witschel, H.F.: Text, Wörter, Morpheme : Möglichkeiten einer automatischen Terminologie-Extraktion (2004) 0.00
```
0.0020253018 = product of:
  0.008101207 = sum of:
    0.008101207 = weight(_text_:information in 126) [ClassicSimilarity], result of:
      0.008101207 = score(doc=126,freq=2.0), product of:
        0.083537094 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.047586527 = queryNorm
        0.09697737 = fieldWeight in 126, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.0390625 = fieldNorm(doc=126)
  0.25 = coord(1/4)
```
Abstract

Die vorliegende Arbeit beschäftigt sich mit einem Teilgebiet des TextMining, versucht also Information (in diesem Fall Fachterminologie) aus natürlichsprachlichem Text zu extrahieren. Die der Arbeit zugrundeliegende These besagt, daß in vielen Gebieten des Text Mining die Kombination verschiedener Methoden sinnvoll sein kann, um dem Facettenreichtum natürlicher Sprache gerecht zu werden. Die bei der Terminologie-Extraktion angewandten Methoden sind statistischer und linguistischer (bzw. musterbasierter) Natur. Um sie herzuleiten, wurden einige Eigenschaften von Fachtermini herausgearbeitet, die für deren Extraktion relevant sind. So läßt sich z.B. die Tatsache, daß viele Fachbegriffe Nominalphrasen einer bestimmten Form sind, direkt für eine Suche nach gewissen POS-Mustern ausnützen, die Verteilung von Termen in Fachtexten führte zu einem statistischen Ansatz - der Differenzanalyse. Zusammen mit einigen weiteren wurden diese Ansätze in ein Verfahren integriert, welches in der Lage ist, aus dem Feedback eines Anwenders zu lernen und in mehreren Schritten die Suche nach Terminologie zu verfeinern. Dabei wurden mehrere Parameter des Verfahrens veränderlich belassen, d.h. der Anwender kann sie beliebig anpassen. Bei der Untersuchung der Ergebnisse anhand von zwei Fachtexten aus unterschiedlichen Domänen wurde deutlich, daß sich zwar die verschiedenen Verfahren gut ergänzen, daß aber die optimalen Werte der veränderbaren Parameter, ja selbst die Auswahl der angewendeten Verfahren text- und domänenabhängig sind.

Geißler, S.: Natürliche Sprachverarbeitung und Künstliche Intelligenz : ein wachsender Markt mit vielen Chancen. Das Beispiel Kairntech (2020) 0.00

0.0020253018 = product of:
  0.008101207 = sum of:
    0.008101207 = weight(_text_:information in 5924) [ClassicSimilarity], result of:
      0.008101207 = score(doc=5924,freq=2.0), product of:
        0.083537094 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.047586527 = queryNorm
        0.09697737 = fieldWeight in 5924, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5924)
  0.25 = coord(1/4)

Source: Information - Wissenschaft und Praxis. 71(2020) H.2/3, S.95-106

Giesselbach, S.; Estler-Ziegler, T.: Dokumente schneller analysieren mit Künstlicher Intelligenz (2021) 0.00

0.0020253018 = product of:
  0.008101207 = sum of:
    0.008101207 = weight(_text_:information in 128) [ClassicSimilarity], result of:
      0.008101207 = score(doc=128,freq=2.0), product of:
        0.083537094 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.047586527 = queryNorm
        0.09697737 = fieldWeight in 128, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.0390625 = fieldNorm(doc=128)
  0.25 = coord(1/4)

Footnote: Vortrag im Rahmen des Berliner Arbeitskreis Information (BAK) am 25.02.2021.

Rötzer, F.: Computer ergooglen die Bedeutung von Worten (2005) 0.00
```
0.0017185257 = product of:
  0.0068741026 = sum of:
    0.0068741026 = weight(_text_:information in 3385) [ClassicSimilarity], result of:
      0.0068741026 = score(doc=3385,freq=4.0), product of:
        0.083537094 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.047586527 = queryNorm
        0.08228803 = fieldWeight in 3385, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.0234375 = fieldNorm(doc=3385)
  0.25 = coord(1/4)
```
Content

Mit einem bereits zuvor von Paul Vitanyi und anderen entwickeltem Verfahren, das den Zusammenhang von Objekten misst (normalized information distance - NID ), kann die Nähe zwischen bestimmten Objekten (Bilder, Worte, Muster, Intervalle, Genome, Programme etc.) anhand aller Eigenschaften analysiert und aufgrund der dominanten gemeinsamen Eigenschaft bestimmt werden. Ähnlich können auch die allgemein verwendeten, nicht unbedingt "wahren" Bedeutungen von Namen mit der Google-Suche erschlossen werden. 'At this moment one database stands out as the pinnacle of computer-accessible human knowledge and the most inclusive summary of statistical information: the Google search engine. There can be no doubt that Google has already enabled science to accelerate tremendously and revolutionized the research process. It has dominated the attention of internet users for years, and has recently attracted substantial attention of many Wall Street investors, even reshaping their ideas of company financing.' (Paul Vitanyi und Rudi Cilibrasi) Gibt man ein Wort ein wie beispielsweise "Pferd", erhält man bei Google 4.310.000 indexierte Seiten. Für "Reiter" sind es 3.400.000 Seiten. Kombiniert man beide Begriffe, werden noch 315.000 Seiten erfasst. Für das gemeinsame Auftreten beispielsweise von "Pferd" und "Bart" werden zwar noch immer erstaunliche 67.100 Seiten aufgeführt, aber man sieht schon, dass "Pferd" und "Reiter" enger zusammen hängen. Daraus ergibt sich eine bestimmte Wahrscheinlichkeit für das gemeinsame Auftreten von Begriffen. Aus dieser Häufigkeit, die sich im Vergleich mit der maximalen Menge (5.000.000.000) an indexierten Seiten ergibt, haben die beiden Wissenschaftler eine statistische Größe entwickelt, die sie "normalised Google distance" (NGD) nennen und die normalerweise zwischen 0 und 1 liegt. Je geringer NGD ist, desto enger hängen zwei Begriffe zusammen. "Das ist eine automatische Bedeutungsgenerierung", sagt Vitanyi gegenüber dern New Scientist (4). "Das könnte gut eine Möglichkeit darstellen, einen Computer Dinge verstehen und halbintelligent handeln zu lassen." Werden solche Suchen immer wieder durchgeführt, lässt sich eine Karte für die Verbindungen von Worten erstellen. Und aus dieser Karte wiederum kann ein Computer, so die Hoffnung, auch die Bedeutung der einzelnen Worte in unterschiedlichen natürlichen Sprachen und Kontexten erfassen. So habe man über einige Suchen realisiert, dass ein Computer zwischen Farben und Zahlen unterscheiden, holländische Maler aus dem 17. Jahrhundert und Notfälle sowie Fast-Notfälle auseinander halten oder elektrische oder religiöse Begriffe verstehen könne. Überdies habe eine einfache automatische Übersetzung Englisch-Spanisch bewerkstelligt werden können. Auf diese Weise ließe sich auch, so hoffen die Wissenschaftler, die Bedeutung von Worten erlernen, könne man Spracherkennung verbessern oder ein semantisches Web erstellen und natürlich endlich eine bessere automatische Übersetzung von einer Sprache in die andere realisieren.

Thiel, M.: Bedingt wahrscheinliche Syntaxbäume (2006) 0.00

0.0016202416 = product of:
  0.006480966 = sum of:
    0.006480966 = weight(_text_:information in 6069) [ClassicSimilarity], result of:
      0.006480966 = score(doc=6069,freq=2.0), product of:
        0.083537094 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.047586527 = queryNorm
        0.0775819 = fieldWeight in 6069, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.03125 = fieldNorm(doc=6069)
  0.25 = coord(1/4)

Source: Information und Sprache: Beiträge zu Informationswissenschaft, Computerlinguistik, Bibliothekswesen und verwandten Fächern. Festschrift für Harald H. Zimmermann. Herausgegeben von Ilse Harms, Heinz-Dirk Luckhardt und Hans W. Giessen

Menge-Sonnentag, R.: Google veröffentlicht einen Parser für natürliche Sprache (2016) 0.00

0.0016202416 = product of:
  0.006480966 = sum of:
    0.006480966 = weight(_text_:information in 2941) [ClassicSimilarity], result of:
      0.006480966 = score(doc=2941,freq=2.0), product of:
        0.083537094 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.047586527 = queryNorm
        0.0775819 = fieldWeight in 2941, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.03125 = fieldNorm(doc=2941)
  0.25 = coord(1/4)

Footnote: Download unter: https://github.com/tensorflow/models/tree/master/syntaxnet. Dort befinden sich auch weitere Information zu dem Modell sowie Vergleichszahlen zur Erkennungsrate.

Artemenko, O.; Shramko, M.: Entwicklung eines Werkzeugs zur Sprachidentifikation in mono- und multilingualen Texten (2005) 0.00
```
0.0014177114 = product of:
  0.0056708455 = sum of:
    0.0056708455 = weight(_text_:information in 572) [ClassicSimilarity], result of:
      0.0056708455 = score(doc=572,freq=2.0), product of:
        0.083537094 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.047586527 = queryNorm
        0.06788416 = fieldWeight in 572, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.02734375 = fieldNorm(doc=572)
  0.25 = coord(1/4)
```
Abstract

Mit der Verbreitung des Internets vermehrt sich die Menge der im World Wide Web verfügbaren Dokumente. Die Gewährleistung eines effizienten Zugangs zu gewünschten Informationen für die Internetbenutzer wird zu einer großen Herausforderung an die moderne Informationsgesellschaft. Eine Vielzahl von Werkzeugen wird bereits eingesetzt, um den Nutzern die Orientierung in der wachsenden Informationsflut zu erleichtern. Allerdings stellt die enorme Menge an unstrukturierten und verteilten Informationen nicht die einzige Schwierigkeit dar, die bei der Entwicklung von Werkzeugen dieser Art zu bewältigen ist. Die zunehmende Vielsprachigkeit von Web-Inhalten resultiert in dem Bedarf an Sprachidentifikations-Software, die Sprache/en von elektronischen Dokumenten zwecks gezielter Weiterverarbeitung identifiziert. Solche Sprachidentifizierer können beispielsweise effektiv im Bereich des Multilingualen Information Retrieval eingesetzt werden, da auf den Sprachidentifikationsergebnissen Prozesse der automatischen Indexbildung wie Stemming, Stoppwörterextraktion etc. aufbauen. In der vorliegenden Arbeit wird das neue System "LangIdent" zur Sprachidentifikation von elektronischen Textdokumenten vorgestellt, das in erster Linie für Lehre und Forschung an der Universität Hildesheim verwendet werden soll. "LangIdent" enthält eine Auswahl von gängigen Algorithmen zu der monolingualen Sprachidentifikation, die durch den Benutzer interaktiv ausgewählt und eingestellt werden können. Zusätzlich wurde im System ein neuer Algorithmus implementiert, der die Identifikation von Sprachen, in denen ein multilinguales Dokument verfasst ist, ermöglicht. Die Identifikation beschränkt sich nicht nur auf eine Aufzählung von gefundenen Sprachen, vielmehr wird der Text in monolinguale Abschnitte aufgeteilt, jeweils mit der Angabe der identifizierten Sprache.
Sprachtechnologie, mobile Kommunikation und linguistische Ressourcen : Beiträge zur GLDV Tagung 2005 in Bonn (2005) 0.00
```
0.0012151812 = product of:
  0.004860725 = sum of:
    0.004860725 = weight(_text_:information in 3578) [ClassicSimilarity], result of:
      0.004860725 = score(doc=3578,freq=2.0), product of:
        0.083537094 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.047586527 = queryNorm
        0.058186423 = fieldWeight in 3578, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.0234375 = fieldNorm(doc=3578)
  0.25 = coord(1/4)
```
Content

INHALT: Chris Biemann/Rainer Osswald: Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora - Ernesto William De Luca/Andreas Nürnberger: Supporting Mobile Web Search by Ontology-based Categorization - Rüdiger Gleim: HyGraph - Ein Framework zur Extraktion, Repräsentation und Analyse webbasierter Hypertextstrukturen - Felicitas Haas/Bernhard Schröder: Freges Grundgesetze der Arithmetik: Dokumentbaum und Formelwald - Ulrich Held/ Andre Blessing/Bettina Säuberlich/Jürgen Sienel/Horst Rößler/Dieter Kopp: A personalized multimodal news service -Jürgen Hermes/Christoph Benden: Fusion von Annotation und Präprozessierung als Vorschlag zur Behebung des Rohtextproblems - Sonja Hüwel/Britta Wrede/Gerhard Sagerer: Semantisches Parsing mit Frames für robuste multimodale Mensch-Maschine-Kommunikation - Brigitte Krenn/Stefan Evert: Separating the wheat from the chaff- Corpus-driven evaluation of statistical association measures for collocation extraction - Jörn Kreutel: An application-centered Perspective an Multimodal Dialogue Systems - Jonas Kuhn: An Architecture for Prallel Corpusbased Grammar Learning - Thomas Mandl/Rene Schneider/Pia Schnetzler/Christa Womser-Hacker: Evaluierung von Systemen für die Eigennamenerkennung im crosslingualen Information Retrieval - Alexander Mehler/Matthias Dehmer/Rüdiger Gleim: Zur Automatischen Klassifikation von Webgenres - Charlotte Merz/Martin Volk: Requirements for a Parallel Treebank Search Tool - Sally YK. Mok: Multilingual Text Retrieval an the Web: The Case of a Cantonese-Dagaare-English Trilingual e-Lexicon -

Search (88 results, page 5 of 5)

Authors

Years

Languages

Types

Themes

Subjects

Classifications