Search (12 results, page 1 of 1)

Boleda, G.; Evert, S.: Multiword expressions : a pain in the neck of lexical semantics (2009) 0.04

0.03709125 = product of:
  0.0741825 = sum of:
    0.011622179 = weight(_text_:e in 4888) [ClassicSimilarity], result of:
      0.011622179 = score(doc=4888,freq=2.0), product of:
        0.060986366 = queryWeight, product of:
          1.43737 = idf(docFreq=28552, maxDocs=44218)
          0.042429138 = queryNorm
        0.19057012 = fieldWeight in 4888, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.43737 = idf(docFreq=28552, maxDocs=44218)
          0.09375 = fieldNorm(doc=4888)
    0.028068949 = weight(_text_:der in 4888) [ClassicSimilarity], result of:
      0.028068949 = score(doc=4888,freq=2.0), product of:
        0.0947768 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.042429138 = queryNorm
        0.29615843 = fieldWeight in 4888, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.09375 = fieldNorm(doc=4888)
    0.034491375 = product of:
      0.06898275 = sum of:
        0.06898275 = weight(_text_:22 in 4888) [ClassicSimilarity], result of:
          0.06898275 = score(doc=4888,freq=2.0), product of:
            0.14857961 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.042429138 = queryNorm
            0.46428138 = fieldWeight in 4888, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.09375 = fieldNorm(doc=4888)
      0.5 = coord(1/2)
  0.5 = coord(3/6)

Abstract: Mit einem Überblick über: Probleme, Methoden, Stand der Forschung u. Literatur.
Date: 1. 3.2013 14:56:22
Language: e

Artemenko, O.; Shramko, M.: Entwicklung eines Werkzeugs zur Sprachidentifikation in mono- und multilingualen Texten (2005) 0.01
```
0.0069574225 = product of:
  0.041744534 = sum of:
    0.041744534 = weight(_text_:der in 572) [ClassicSimilarity], result of:
      0.041744534 = score(doc=572,freq=52.0), product of:
        0.0947768 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.042429138 = queryNorm
        0.44045097 = fieldWeight in 572, product of:
          7.2111025 = tf(freq=52.0), with freq of:
            52.0 = termFreq=52.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.02734375 = fieldNorm(doc=572)
  0.16666667 = coord(1/6)
```
Abstract

Identifikation der Sprache bzw. Sprachen elektronischer Textdokumente ist einer der wichtigsten Schritte in vielen Prozessen maschineller Textverarbeitung. Die vorliegende Arbeit stellt LangIdent, ein System zur Sprachidentifikation von mono- und multilingualen elektronischen Textdokumenten vor. Das System bietet sowohl eine Auswahl von gängigen Algorithmen für die Sprachidentifikation monolingualer Textdokumente als auch einen neuen Algorithmus für die Sprachidentifikation multilingualer Textdokumente.
Mit der Verbreitung des Internets vermehrt sich die Menge der im World Wide Web verfügbaren Dokumente. Die Gewährleistung eines effizienten Zugangs zu gewünschten Informationen für die Internetbenutzer wird zu einer großen Herausforderung an die moderne Informationsgesellschaft. Eine Vielzahl von Werkzeugen wird bereits eingesetzt, um den Nutzern die Orientierung in der wachsenden Informationsflut zu erleichtern. Allerdings stellt die enorme Menge an unstrukturierten und verteilten Informationen nicht die einzige Schwierigkeit dar, die bei der Entwicklung von Werkzeugen dieser Art zu bewältigen ist. Die zunehmende Vielsprachigkeit von Web-Inhalten resultiert in dem Bedarf an Sprachidentifikations-Software, die Sprache/en von elektronischen Dokumenten zwecks gezielter Weiterverarbeitung identifiziert. Solche Sprachidentifizierer können beispielsweise effektiv im Bereich des Multilingualen Information Retrieval eingesetzt werden, da auf den Sprachidentifikationsergebnissen Prozesse der automatischen Indexbildung wie Stemming, Stoppwörterextraktion etc. aufbauen. In der vorliegenden Arbeit wird das neue System "LangIdent" zur Sprachidentifikation von elektronischen Textdokumenten vorgestellt, das in erster Linie für Lehre und Forschung an der Universität Hildesheim verwendet werden soll. "LangIdent" enthält eine Auswahl von gängigen Algorithmen zu der monolingualen Sprachidentifikation, die durch den Benutzer interaktiv ausgewählt und eingestellt werden können. Zusätzlich wurde im System ein neuer Algorithmus implementiert, der die Identifikation von Sprachen, in denen ein multilinguales Dokument verfasst ist, ermöglicht. Die Identifikation beschränkt sich nicht nur auf eine Aufzählung von gefundenen Sprachen, vielmehr wird der Text in monolinguale Abschnitte aufgeteilt, jeweils mit der Angabe der identifizierten Sprache.
Die Arbeit wird in zwei Hauptteile gegliedert. Der erste Teil besteht aus Kapiteln 1-5, in denen theoretische Grundlagen zum Thema Sprachidentifikation dargelegt werden. Das erste Kapitel beschreibt den Sprachidentifikationsprozess und definiert grundlegende Begriffe. Im zweiten und dritten Kapitel werden vorherrschende Ansätze zur Sprachidentifikation von monolingualen Dokumenten dargestellt und miteinander verglichen, indem deren Vor- und Nachteile diskutiert werden. Das vierte Kapitel stellt einige Arbeiten vor, die sich mit der Sprachidentifikation von multilingualen Texten befasst haben. Der erste Teil der Arbeit wird mit einem Überblick über die bereits entwickelten und im Internet verfügbaren Sprachidentifikationswerkzeuge abgeschlossen. Der zweite Teil der Arbeit stellt die Entwicklung des Sprachidentifikationssystems LangIdent dar. In den Kapiteln 6 und 7 werden die an das System gestellten Anforderungen zusammengefasst und die wichtigsten Phasen des Projekts definiert. In den weiterführenden Kapiteln 8 und 9 werden die Systemarchitektur und eine detaillierte Beschreibung ihrer Kernkomponenten gegeben. Das Kapitel 10 liefert ein statisches UML-Klassendiagramm mit einer ausführlichen Erklärung von Attributen und Methoden der im Diagramm vorgestellten Klassen. Das nächste Kapitel befasst sich mit den im Prozess der Systementwicklung aufgetretenen Problemen. Die Bedienung des Programms wird im Kapitel 12 beschrieben. Im letzten Kapitel der Arbeit wird die Systemevaluierung vorgestellt, in der der Aufbau und Umfang von Trainingskorpora sowie die wichtigsten Ergebnisse mit der anschließenden Diskussion präsentiert werden.

Frobese, D.T.: Klassifikationsaufgaben mit der SENTRAX : Konkreter Fall: Automatische Detektion von SPAM (2006) 0.00

0.00441061 = product of:
  0.02646366 = sum of:
    0.02646366 = weight(_text_:der in 5980) [ClassicSimilarity], result of:
      0.02646366 = score(doc=5980,freq=4.0), product of:
        0.0947768 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.042429138 = queryNorm
        0.27922085 = fieldWeight in 5980, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.0625 = fieldNorm(doc=5980)
  0.16666667 = coord(1/6)

Footnote: Beitrag der Proceedings des Fünften Hildesheimer Evaluierungs- und Retrievalworkshop (HIER 2006), Hildesheim, xx.x.2006.

Rötzer, F.: Computer ergooglen die Bedeutung von Worten (2005) 0.00
```
0.004216835 = product of:
  0.025301008 = sum of:
    0.025301008 = weight(_text_:der in 3385) [ClassicSimilarity], result of:
      0.025301008 = score(doc=3385,freq=26.0), product of:
        0.0947768 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.042429138 = queryNorm
        0.2669536 = fieldWeight in 3385, product of:
          5.0990195 = tf(freq=26.0), with freq of:
            26.0 = termFreq=26.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.0234375 = fieldNorm(doc=3385)
  0.16666667 = coord(1/6)
```
Abstract

Holländische Wissenschaftler glauben, mit der "normalisierten Google-Distanz" von Begriffen einer Künstlichen Intelligenz die Bedeutung von Worten automatisch lehren zu können

Content

"Wie könnten Computer Sprache lernen und dabei auch die Bedeutung von Worten sowie die Beziehungen zwischen ihnen verstehen? Dieses Problem der Semantik stellt eine gewaltige, bislang nur ansatzweise bewältigte Aufgabe dar, da Worte und Wortverbindungen oft mehrere oder auch viele Bedeutungen haben, die zudem vom außersprachlichen Kontext abhängen. Die beiden holländischen (Ein künstliches Bewusstsein aus einfachen Aussagen (1)). Paul Vitanyi (2) und Rudi Cilibrasi vom Nationalen Institut für Mathematik und Informatik (3) in Amsterdam schlagen eine elegante Lösung vor: zum Nachschlagen im Internet, der größten Datenbank, die es gibt, wird einfach Google benutzt. Objekte wie eine Maus können mit ihren Namen "Maus" benannt werden, die Bedeutung allgemeiner Begriffe muss aus ihrem Kontext gelernt werden. Ein semantisches Web zur Repräsentation von Wissen besteht aus den möglichen Verbindungen, die Objekte und ihre Namen eingehen können. Natürlich können in der Wirklichkeit neue Namen, aber auch neue Bedeutungen und damit neue Verknüpfungen geschaffen werden. Sprache ist lebendig und flexibel. Um einer Künstlichen Intelligenz alle Wortbedeutungen beizubringen, müsste mit der Hilfe von menschlichen Experten oder auch vielen Mitarbeitern eine riesige Datenbank mit den möglichen semantischen Netzen aufgebaut und dazu noch ständig aktualisiert werden. Das aber müsste gar nicht notwendig sein, denn mit dem Web gibt es nicht nur die größte und weitgehend kostenlos benutzbare semantische Datenbank, sie wird auch ständig von zahllosen Internetnutzern aktualisiert. Zudem gibt es Suchmaschinen wie Google, die Verbindungen zwischen Worten und damit deren Bedeutungskontext in der Praxis in ihrer Wahrscheinlichkeit quantitativ mit der Angabe der Webseiten, auf denen sie gefunden wurden, messen.
Mit einem bereits zuvor von Paul Vitanyi und anderen entwickeltem Verfahren, das den Zusammenhang von Objekten misst (normalized information distance - NID ), kann die Nähe zwischen bestimmten Objekten (Bilder, Worte, Muster, Intervalle, Genome, Programme etc.) anhand aller Eigenschaften analysiert und aufgrund der dominanten gemeinsamen Eigenschaft bestimmt werden. Ähnlich können auch die allgemein verwendeten, nicht unbedingt "wahren" Bedeutungen von Namen mit der Google-Suche erschlossen werden. 'At this moment one database stands out as the pinnacle of computer-accessible human knowledge and the most inclusive summary of statistical information: the Google search engine. There can be no doubt that Google has already enabled science to accelerate tremendously and revolutionized the research process. It has dominated the attention of internet users for years, and has recently attracted substantial attention of many Wall Street investors, even reshaping their ideas of company financing.' (Paul Vitanyi und Rudi Cilibrasi) Gibt man ein Wort ein wie beispielsweise "Pferd", erhält man bei Google 4.310.000 indexierte Seiten. Für "Reiter" sind es 3.400.000 Seiten. Kombiniert man beide Begriffe, werden noch 315.000 Seiten erfasst. Für das gemeinsame Auftreten beispielsweise von "Pferd" und "Bart" werden zwar noch immer erstaunliche 67.100 Seiten aufgeführt, aber man sieht schon, dass "Pferd" und "Reiter" enger zusammen hängen. Daraus ergibt sich eine bestimmte Wahrscheinlichkeit für das gemeinsame Auftreten von Begriffen. Aus dieser Häufigkeit, die sich im Vergleich mit der maximalen Menge (5.000.000.000) an indexierten Seiten ergibt, haben die beiden Wissenschaftler eine statistische Größe entwickelt, die sie "normalised Google distance" (NGD) nennen und die normalerweise zwischen 0 und 1 liegt. Je geringer NGD ist, desto enger hängen zwei Begriffe zusammen. "Das ist eine automatische Bedeutungsgenerierung", sagt Vitanyi gegenüber dern New Scientist (4). "Das könnte gut eine Möglichkeit darstellen, einen Computer Dinge verstehen und halbintelligent handeln zu lassen." Werden solche Suchen immer wieder durchgeführt, lässt sich eine Karte für die Verbindungen von Worten erstellen. Und aus dieser Karte wiederum kann ein Computer, so die Hoffnung, auch die Bedeutung der einzelnen Worte in unterschiedlichen natürlichen Sprachen und Kontexten erfassen. So habe man über einige Suchen realisiert, dass ein Computer zwischen Farben und Zahlen unterscheiden, holländische Maler aus dem 17. Jahrhundert und Notfälle sowie Fast-Notfälle auseinander halten oder elektrische oder religiöse Begriffe verstehen könne. Überdies habe eine einfache automatische Übersetzung Englisch-Spanisch bewerkstelligt werden können. Auf diese Weise ließe sich auch, so hoffen die Wissenschaftler, die Bedeutung von Worten erlernen, könne man Spracherkennung verbessern oder ein semantisches Web erstellen und natürlich endlich eine bessere automatische Übersetzung von einer Sprache in die andere realisieren.

Footnote

Artikel in der ListeTelepolis vom 27.01.2005
Bubenhofer, N.: Einführung in die Korpuslinguistik : Praktische Grundlagen und Werkzeuge (2006) 0.00
```
0.003118772 = product of:
  0.018712632 = sum of:
    0.018712632 = weight(_text_:der in 3126) [ClassicSimilarity], result of:
      0.018712632 = score(doc=3126,freq=2.0), product of:
        0.0947768 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.042429138 = queryNorm
        0.19743896 = fieldWeight in 3126, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.0625 = fieldNorm(doc=3126)
  0.16666667 = coord(1/6)
```
Abstract

Seit über zwei Jahren ist die Einführung in die Korpuslinguistik online! Und sie wird rege benutzt, so z.B. in Veranstaltungen an den Universitäten Heidelberg (Ekkehard Felder), Jena (Peter Gallmann), Zürich (Christa Dürscheid), Kiel (Ulrike Mosel), Leipzig (Uwe Quasthoff), am Institut für Computerlinguistik in Zürich (Simon Clematide); die Website von COSMAS II des IDS, das Korpus Südtirol, die LinseLinks, der Gateway to Corpus Linguistics und die Wikipedia verweisen darauf.

Griffiths, T.L.; Steyvers, M.: ¬A probabilistic approach to semantic representation (2002) 0.00

0.0012913533 = product of:
  0.0077481195 = sum of:
    0.0077481195 = weight(_text_:e in 3671) [ClassicSimilarity], result of:
      0.0077481195 = score(doc=3671,freq=2.0), product of:
        0.060986366 = queryWeight, product of:
          1.43737 = idf(docFreq=28552, maxDocs=44218)
          0.042429138 = queryNorm
        0.12704675 = fieldWeight in 3671, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.43737 = idf(docFreq=28552, maxDocs=44218)
          0.0625 = fieldNorm(doc=3671)
  0.16666667 = coord(1/6)

Language: e

Collins, C.: WordNet explorer : applying visualization principles to lexical semantics (2006) 0.00

0.0012913533 = product of:
  0.0077481195 = sum of:
    0.0077481195 = weight(_text_:e in 1288) [ClassicSimilarity], result of:
      0.0077481195 = score(doc=1288,freq=2.0), product of:
        0.060986366 = queryWeight, product of:
          1.43737 = idf(docFreq=28552, maxDocs=44218)
          0.042429138 = queryNorm
        0.12704675 = fieldWeight in 1288, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.43737 = idf(docFreq=28552, maxDocs=44218)
          0.0625 = fieldNorm(doc=1288)
  0.16666667 = coord(1/6)

Language: e

Ramisch, C.; Schreiner, P.; Idiart, M.; Villavicencio, A.: ¬An evaluation of methods for the extraction of multiword expressions (20xx) 0.00

0.0012913533 = product of:
  0.0077481195 = sum of:
    0.0077481195 = weight(_text_:e in 962) [ClassicSimilarity], result of:
      0.0077481195 = score(doc=962,freq=2.0), product of:
        0.060986366 = queryWeight, product of:
          1.43737 = idf(docFreq=28552, maxDocs=44218)
          0.042429138 = queryNorm
        0.12704675 = fieldWeight in 962, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.43737 = idf(docFreq=28552, maxDocs=44218)
          0.0625 = fieldNorm(doc=962)
  0.16666667 = coord(1/6)

Language: e

Nielsen, R.D.; Ward, W.; Martin, J.H.; Palmer, M.: Extracting a representation from text for semantic analysis (2008) 0.00

0.0012913533 = product of:
  0.0077481195 = sum of:
    0.0077481195 = weight(_text_:e in 3365) [ClassicSimilarity], result of:
      0.0077481195 = score(doc=3365,freq=2.0), product of:
        0.060986366 = queryWeight, product of:
          1.43737 = idf(docFreq=28552, maxDocs=44218)
          0.042429138 = queryNorm
        0.12704675 = fieldWeight in 3365, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.43737 = idf(docFreq=28552, maxDocs=44218)
          0.0625 = fieldNorm(doc=3365)
  0.16666667 = coord(1/6)

Language: e

WordHoard: finding multiword units (20??) 0.00

0.0011299341 = product of:
  0.0067796046 = sum of:
    0.0067796046 = weight(_text_:e in 1123) [ClassicSimilarity], result of:
      0.0067796046 = score(doc=1123,freq=2.0), product of:
        0.060986366 = queryWeight, product of:
          1.43737 = idf(docFreq=28552, maxDocs=44218)
          0.042429138 = queryNorm
        0.1111659 = fieldWeight in 1123, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.43737 = idf(docFreq=28552, maxDocs=44218)
          0.0546875 = fieldNorm(doc=1123)
  0.16666667 = coord(1/6)

Language: e

Galitsky, B.: Can many agents answer questions better than one? (2005) 0.00

9.6851494E-4 = product of:
  0.0058110896 = sum of:
    0.0058110896 = weight(_text_:e in 3094) [ClassicSimilarity], result of:
      0.0058110896 = score(doc=3094,freq=2.0), product of:
        0.060986366 = queryWeight, product of:
          1.43737 = idf(docFreq=28552, maxDocs=44218)
          0.042429138 = queryNorm
        0.09528506 = fieldWeight in 3094, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.43737 = idf(docFreq=28552, maxDocs=44218)
          0.046875 = fieldNorm(doc=3094)
  0.16666667 = coord(1/6)

Language: e

Bird, S.; Dale, R.; Dorr, B.; Gibson, B.; Joseph, M.; Kan, M.-Y.; Lee, D.; Powley, B.; Radev, D.; Tan, Y.F.: ¬The ACL Anthology Reference Corpus : a reference dataset for bibliographic research in computational linguistics (2008) 0.00

6.456766E-4 = product of:
  0.0038740598 = sum of:
    0.0038740598 = weight(_text_:e in 2804) [ClassicSimilarity], result of:
      0.0038740598 = score(doc=2804,freq=2.0), product of:
        0.060986366 = queryWeight, product of:
          1.43737 = idf(docFreq=28552, maxDocs=44218)
          0.042429138 = queryNorm
        0.063523374 = fieldWeight in 2804, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.43737 = idf(docFreq=28552, maxDocs=44218)
          0.03125 = fieldNorm(doc=2804)
  0.16666667 = coord(1/6)

Language: e

Search (12 results, page 1 of 1)

Authors

Languages

Types

Themes