Search (142 results, page 1 of 8)

  • × language_ss:"d"
  • × theme_ss:"Computerlinguistik"
  • × type_ss:"a"
  1. Engerer, V.: Indexierungstheorie für Linguisten : zu einigen natürlichsprachlichen Zügen in künstlichen Indexsprachen (2014) 0.08
    0.07970359 = product of:
      0.23911077 = sum of:
        0.2105128 = weight(_text_:sprachen in 3339) [ClassicSimilarity], result of:
          0.2105128 = score(doc=3339,freq=2.0), product of:
            0.26404554 = queryWeight, product of:
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.0439102 = queryNorm
            0.79725945 = fieldWeight in 3339, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.09375 = fieldNorm(doc=3339)
        0.02859796 = weight(_text_:und in 3339) [ClassicSimilarity], result of:
          0.02859796 = score(doc=3339,freq=2.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.29385152 = fieldWeight in 3339, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.09375 = fieldNorm(doc=3339)
      0.33333334 = coord(2/6)
    
    Source
    Dialekte, Konzepte, Kontakte. Ergebnisse des Arbeitstreffens der Gesellschaft für Sprache und Sprachen, GeSuS e.V., 31. Mai - 1. Juni 2013 in Freiburg/Breisgau. Hrsg.: V. Schönenberger et al
  2. Winograd, T.: Software für Sprachverarbeitung (1984) 0.07
    0.06641966 = product of:
      0.19925897 = sum of:
        0.17542733 = weight(_text_:sprachen in 1687) [ClassicSimilarity], result of:
          0.17542733 = score(doc=1687,freq=2.0), product of:
            0.26404554 = queryWeight, product of:
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.0439102 = queryNorm
            0.6643829 = fieldWeight in 1687, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.078125 = fieldNorm(doc=1687)
        0.023831634 = weight(_text_:und in 1687) [ClassicSimilarity], result of:
          0.023831634 = score(doc=1687,freq=2.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.24487628 = fieldWeight in 1687, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.078125 = fieldNorm(doc=1687)
      0.33333334 = coord(2/6)
    
    Abstract
    Der Computer kann mit sprachlichen Zeichen sicher und schnell umgehen. Dies zeigen Programme zur Textverarbeitung. Versuche allerdings, ihn auch mit Bedeutungen operieren zu lassen, sind gescheitert. Wird der Rechner das größte Problem der Sprachverarbeitung - die Mehrdeutigkeit natürlicher Sprachen - jemals bewältigen?
  3. Egger, W.: Helferlein für jedermann : Elektronische Wörterbücher (2004) 0.06
    0.06396505 = product of:
      0.19189516 = sum of:
        0.16806352 = weight(_text_:einzelne in 1501) [ClassicSimilarity], result of:
          0.16806352 = score(doc=1501,freq=2.0), product of:
            0.25844428 = queryWeight, product of:
              5.885746 = idf(docFreq=333, maxDocs=44218)
              0.0439102 = queryNorm
            0.6502892 = fieldWeight in 1501, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.885746 = idf(docFreq=333, maxDocs=44218)
              0.078125 = fieldNorm(doc=1501)
        0.023831634 = weight(_text_:und in 1501) [ClassicSimilarity], result of:
          0.023831634 = score(doc=1501,freq=2.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.24487628 = fieldWeight in 1501, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.078125 = fieldNorm(doc=1501)
      0.33333334 = coord(2/6)
    
    Abstract
    Zahllose online-dictionaries und einzelne, teilweise ausgezeichnete elektronische Wörterbücher wollen hier nicht erwähnt werden, da ihre Vorzüge teilweise folgenden Nachteilen gegenüber stehen: Internet-Verbindung, CD-Rom, bzw. zeitaufwändiges Aufrufen der Wörterbücher oder Wechsel der Sprachrichtung sind erforderlich.
  4. Kunze, C.: Lexikalisch-semantische Wortnetze in Sprachwissenschaft und Sprachtechnologie (2006) 0.06
    0.06359464 = product of:
      0.19078392 = sum of:
        0.14034186 = weight(_text_:sprachen in 6023) [ClassicSimilarity], result of:
          0.14034186 = score(doc=6023,freq=2.0), product of:
            0.26404554 = queryWeight, product of:
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.0439102 = queryNorm
            0.5315063 = fieldWeight in 6023, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.0625 = fieldNorm(doc=6023)
        0.05044206 = weight(_text_:und in 6023) [ClassicSimilarity], result of:
          0.05044206 = score(doc=6023,freq=14.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.51830536 = fieldWeight in 6023, product of:
              3.7416575 = tf(freq=14.0), with freq of:
                14.0 = termFreq=14.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0625 = fieldNorm(doc=6023)
      0.33333334 = coord(2/6)
    
    Abstract
    Dieser Beitrag beschreibt die Strukturierungsprinzipien und Anwendungskontexte lexikalisch-semantischer Wortnetze, insbesondere des deutschen Wortnetzes GermaNet. Wortnetze sind zurzeit besonders populäre elektronische Lexikonressourcen, die große Abdeckungen semantisch strukturierter Datenfür verschiedene Sprachen und Sprachverbünde enthalten. In Wortnetzen sind die häufigsten und wichtigsten Konzepte einer Sprache mit ihren elementaren Bedeutungsrelationen repräsentiert. Zentrale Anwendungen für Wortnetze sind u.a. die Lesartendisambiguierung und die Informationserschließung. Der Artikel skizziert die neusten Szenarien, in denen GermaNet eingesetzt wird: die Semantische Informationserschließung und die Integration allgemeinsprachlicher Wortnetze mit terminologischen Ressourcen vordem Hintergrund der Datenkonvertierung in OWL.
    Source
    Information - Wissenschaft und Praxis. 57(2006) H.6/7, S.309-314
  5. Schneider, R.: Question answering : das Retrieval der Zukunft? (2007) 0.06
    0.0603837 = product of:
      0.18115109 = sum of:
        0.13445082 = weight(_text_:einzelne in 5953) [ClassicSimilarity], result of:
          0.13445082 = score(doc=5953,freq=2.0), product of:
            0.25844428 = queryWeight, product of:
              5.885746 = idf(docFreq=333, maxDocs=44218)
              0.0439102 = queryNorm
            0.52023137 = fieldWeight in 5953, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.885746 = idf(docFreq=333, maxDocs=44218)
              0.0625 = fieldNorm(doc=5953)
        0.046700273 = weight(_text_:und in 5953) [ClassicSimilarity], result of:
          0.046700273 = score(doc=5953,freq=12.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.47985753 = fieldWeight in 5953, product of:
              3.4641016 = tf(freq=12.0), with freq of:
                12.0 = termFreq=12.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0625 = fieldNorm(doc=5953)
      0.33333334 = coord(2/6)
    
    Abstract
    Der Artikel geht der Frage nach, ob und inwieweit Informations- und Recherchesysteme von der Technologie natürlich sprachlicher Frage-Antwortsysteme, so genannter Question Answering-Systeme, profitieren können. Nach einer allgemeinen Einführung in die Zielsetzung und die historische Entwicklung dieses Sonderzweigs der maschinellen Sprachverarbeitung werden dessen Abgrenzung von herkömmlichen Retrieval- und Extraktionsverfahren erläutert und die besondere Struktur von Question Answering-Systemen sowie einzelne Evaluierungsinitiativen aufgezeichnet. Zudem werden konkrete Anwendungsfelder im Bibliothekswesen vorgestellt.
    Source
    Zeitschrift für Bibliothekswesen und Bibliographie. 54(2007) H.1, S.3-11
  6. Schröter, F.; Meyer, U.: Entwicklung sprachlicher Handlungskompetenz in Englisch mit Hilfe eines Multimedia-Sprachlernsystems (2000) 0.06
    0.059151 = product of:
      0.177453 = sum of:
        0.14885503 = weight(_text_:sprachen in 5567) [ClassicSimilarity], result of:
          0.14885503 = score(doc=5567,freq=4.0), product of:
            0.26404554 = queryWeight, product of:
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.0439102 = queryNorm
            0.5637476 = fieldWeight in 5567, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.046875 = fieldNorm(doc=5567)
        0.02859796 = weight(_text_:und in 5567) [ClassicSimilarity], result of:
          0.02859796 = score(doc=5567,freq=8.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.29385152 = fieldWeight in 5567, product of:
              2.828427 = tf(freq=8.0), with freq of:
                8.0 = termFreq=8.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.046875 = fieldNorm(doc=5567)
      0.33333334 = coord(2/6)
    
    Abstract
    Firmen handeln zunehmend global. Daraus ergibt sich für die Mehrzahl der Mitarbeiter solcher Unternehmen die Notwendigkeit, die englische Sprache, die "lingua franca" der weltweiten Geschäftsbeziehungen, zu beherrschen, um sie wirkungsvoll einsetzen zu können - und dies auch unter interkulturellem Aspekt. Durch die Globalisierung ist es unmöglich geworden, ohne Fremdsprachenkenntnisse am freien Markt zu agieren." (Trends in der Personalentwicklung, PEF-Consulting, Wien) Das Erreichen interkultureller Handlungskompetenz in der Fremdsprache ist das Ziel des SprachIernsystems ,Sunpower - Communication Strategies in English for Business Purposes", das am Fachbereich Sprachen der Fachhochschule Köln entstanden und im Frühjahr dieses Jahres auf dem Markt erschienen ist. Das Lernsystem ist in Kooperation des Fachbereichs Sprachen der Fachhochschule Köln mit einer englischen Solarenergie-Firma, einer Management Consulting Agentur und der Sprachenabteilung einer Londoner Hochschule entstanden
    Source
    Sprachtechnologie für eine dynamische Wirtschaft im Medienzeitalter - Language technologies for dynamic business in the age of the media - L'ingénierie linguistique au service de la dynamisation économique à l'ère du multimédia: Tagungsakten der XXVI. Jahrestagung der Internationalen Vereinigung Sprache und Wirtschaft e.V., 23.-25.11.2000, Fachhochschule Köln. Hrsg.: K.-D. Schmitz
  7. Rolland, M.T.: Grammatikstandardisierung im Bereich der Sprachverarbeitung (1996) 0.06
    0.055768095 = product of:
      0.16730428 = sum of:
        0.14034186 = weight(_text_:sprachen in 5356) [ClassicSimilarity], result of:
          0.14034186 = score(doc=5356,freq=2.0), product of:
            0.26404554 = queryWeight, product of:
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.0439102 = queryNorm
            0.5315063 = fieldWeight in 5356, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.0625 = fieldNorm(doc=5356)
        0.026962416 = weight(_text_:und in 5356) [ClassicSimilarity], result of:
          0.026962416 = score(doc=5356,freq=4.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.27704588 = fieldWeight in 5356, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0625 = fieldNorm(doc=5356)
      0.33333334 = coord(2/6)
    
    Abstract
    Jede Sprache hat ihre eigene Struktur und weist damit ihre spezifische, von der Semantik her bedingte Grammatik auf. Es wird verdeutlicht, in welcher Weise für eine Sprache, hier für die deutsche Sprache, eine umfassende Grammatik erstellt werden kann. Die prinzipiellen Verfahrensweisen gelten auch für andere Sprachen. Eine solche Grammatik stellt keine Teilgrammatik dar, sondern macht die gesamt in einer Sprache enthaltene Struktur explizit. Daher ist sie im Bereich der Sprachverarbeitung als einheitliche Grundlage in den verschiedensten Sachgebieten anwendbar. Eine Grammatik dieser Art kann insbesondere zum Aufbau von Dialogsystemen und maschinellen Übersetzungssystemen dienen
  8. Schürmann, H.: Software scannt Radio- und Fernsehsendungen : Recherche in Nachrichtenarchiven erleichtert (2001) 0.05
    0.0540843 = product of:
      0.1081686 = sum of:
        0.061399568 = weight(_text_:sprachen in 5759) [ClassicSimilarity], result of:
          0.061399568 = score(doc=5759,freq=2.0), product of:
            0.26404554 = queryWeight, product of:
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.0439102 = queryNorm
            0.232534 = fieldWeight in 5759, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.02734375 = fieldNorm(doc=5759)
        0.036357887 = weight(_text_:und in 5759) [ClassicSimilarity], result of:
          0.036357887 = score(doc=5759,freq=38.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.3735868 = fieldWeight in 5759, product of:
              6.164414 = tf(freq=38.0), with freq of:
                38.0 = termFreq=38.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.02734375 = fieldNorm(doc=5759)
        0.010411146 = product of:
          0.020822292 = sum of:
            0.020822292 = weight(_text_:22 in 5759) [ClassicSimilarity], result of:
              0.020822292 = score(doc=5759,freq=2.0), product of:
                0.15376605 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.0439102 = queryNorm
                0.1354154 = fieldWeight in 5759, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.02734375 = fieldNorm(doc=5759)
          0.5 = coord(1/2)
      0.5 = coord(3/6)
    
    Content
    Um Firmen und Agenturen die Beobachtungen von Medien zu erleichtern, entwickeln Forscher an der Duisburger Hochschule zurzeit ein System zur automatischen Themenerkennung in Rundfunk und Fernsehen. Das so genannte Alert-System soll dem Nutzer helfen, die für ihn relevanten Sprachinformationen aus Nachrichtensendungen herauszufiltem und weiterzuverarbeiten. Durch die automatische Analyse durch den Computer können mehrere Programme rund um die Uhr beobachtet werden. Noch erfolgt die Informationsgewinnung aus TV- und Radiosendungen auf klassischem Wege: Ein Mensch sieht, hört, liest und wertet aus. Das ist enorm zeitaufwendig und für eine Firma, die beispielsweise die Konkurrenz beobachten oder ihre Medienpräsenz dokumentieren lassen möchte, auch sehr teuer. Diese Arbeit ließe sich mit einem Spracherkenner automatisieren, sagten sich die Duisburger Forscher. Sie arbeiten nun zusammen mit Partnern aus Deutschland, Frankreich und Portugal in einem europaweiten Projekt an der Entwicklung einer entsprechenden Technologie (http://alert.uni-duisburg.de). An dem Projekt sind auch zwei Medienbeobachtungsuntemehmen beteiligt, die Oberserver Argus Media GmbH aus Baden-Baden und das französische Unternehmen Secodip. Unsere Arbeit würde schon dadurch erleichtert, wenn Informationen, die über unsere Kunden in den Medien erscheinen, vorselektiert würden", beschreibt Simone Holderbach, Leiterin der Produktentwicklung bei Oberserver, ihr Interesse an der Technik. Und wie funktioniert Alert? Das Spracherkennungssystem wird darauf getrimmt, Nachrichtensendungen in Radio und Fernsehen zu überwachen: Alles, was gesagt wird - sei es vom Nachrichtensprecher, Reporter oder Interviewten -, wird durch die automatische Spracherkennung in Text umgewandelt. Dabei werden Themen und Schlüsselwörter erkannt und gespeichert. Diese werden mit den Suchbegriffen des Nutzers verglichen. Gefundene Übereinstimmungen werden angezeigt und dem Benutzer automatisch mitgeteilt. Konventionelle Spracherkennungstechnik sei für die Medienbeobachtung nicht einsetzbar, da diese für einen anderen Zweck entwickelt worden sei, betont Prof. Gerhard Rigoll, Leiter des Fachgebiets Technische Informatik an der Duisburger Hochschule. Für die Umwandlung von Sprache in Text wurde die Alert-Software gründlich trainiert. Aus Zeitungstexten, Audio- und Video-Material wurden bislang rund 3 50 Millionen Wörter verarbeitet. Das System arbeitet in drei Sprachen. Doch so ganz fehlerfrei sei der automatisch gewonnene Text nicht, räumt Rigoll ein. Zurzeit liegt die Erkennungsrate bei 40 bis 70 Prozent. Und das wird sich in absehbarer Zeit auch nicht ändern." Musiküberlagerungen oder starke Hintergrundgeräusche bei Reportagen führen zu Ungenauigkeiten bei der Textumwandlung. Deshalb haben die, Duisburger Wissenschaftler Methoden entwickelt, die über die herkömmliche Suche nach Schlüsselwörtern hinausgehen und eine inhaltsorientierte Zuordnung ermöglichen. Dadurch erhält der Nutzer dann auch solche Nachrichten, die zwar zum Thema passen, in denen das Stichwort aber gar nicht auftaucht", bringt Rigoll den Vorteil der Technik auf den Punkt. Wird beispielsweise "Ölpreis" als Suchbegriff eingegeben, werden auch solche Nachrichten angezeigt, in denen Olkonzerne und Energieagenturen eine Rolle spielen. Rigoll: Das Alert-System liest sozusagen zwischen den Zeilen!' Das Forschungsprojekt wurde vor einem Jahr gestartet und läuft noch bis Mitte 2002. Wer sich über den Stand der Technik informieren möchte, kann dies in dieser Woche auf der Industriemesse in Hannover. Das Alert-System wird auf dem Gemeinschaftsstand "Forschungsland NRW" in Halle 18, Stand M12, präsentiert
    Source
    Handelsblatt. Nr.79 vom 24.4.2001, S.22
  9. Hickstein, A.C.: Spracheingabe in ein feldstrukturiertes Datenbanksystem zum Einsatz im Wissensmanagement (2008) 0.05
    0.053804412 = product of:
      0.16141324 = sum of:
        0.13445082 = weight(_text_:einzelne in 2532) [ClassicSimilarity], result of:
          0.13445082 = score(doc=2532,freq=2.0), product of:
            0.25844428 = queryWeight, product of:
              5.885746 = idf(docFreq=333, maxDocs=44218)
              0.0439102 = queryNorm
            0.52023137 = fieldWeight in 2532, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.885746 = idf(docFreq=333, maxDocs=44218)
              0.0625 = fieldNorm(doc=2532)
        0.026962416 = weight(_text_:und in 2532) [ClassicSimilarity], result of:
          0.026962416 = score(doc=2532,freq=4.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.27704588 = fieldWeight in 2532, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0625 = fieldNorm(doc=2532)
      0.33333334 = coord(2/6)
    
    Abstract
    Der Artikel beschreibt ein System zur Erschließung von nicht-schriftlichen Wissenseinheiten für den betrieblichen Kontext mithilfe einer automatischen Spracherkennung. Automatisiert werden diktierte Wissenseinheiten in einer durch Felder strukturierten Datenbank zur Verfügung gestellt und einzelne Datensätze durch Feldverknüpfungen zu komplexeren Wissensentitäten miteinander verbunden, ohne dass eine manuelle Verschriftlichung der Wissenseinheiten erfolgen muss.
    Source
    Information - Wissenschaft und Praxis. 59(2008) H.3, S.171-174
  10. Tartakovski, O.; Shramko, M.: Implementierung eines Werkzeugs zur Sprachidentifikation in mono- und multilingualen Texten (2006) 0.05
    0.053367183 = product of:
      0.16010155 = sum of:
        0.122799136 = weight(_text_:sprachen in 5978) [ClassicSimilarity], result of:
          0.122799136 = score(doc=5978,freq=2.0), product of:
            0.26404554 = queryWeight, product of:
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.0439102 = queryNorm
            0.465068 = fieldWeight in 5978, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.0546875 = fieldNorm(doc=5978)
        0.03730241 = weight(_text_:und in 5978) [ClassicSimilarity], result of:
          0.03730241 = score(doc=5978,freq=10.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.38329202 = fieldWeight in 5978, product of:
              3.1622777 = tf(freq=10.0), with freq of:
                10.0 = termFreq=10.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0546875 = fieldNorm(doc=5978)
      0.33333334 = coord(2/6)
    
    Abstract
    Die Identifikation der Sprache bzw. der Sprachen in Textdokumenten ist einer der wichtigsten Schritte maschineller Textverarbeitung für das Information Retrieval. Der vorliegende Artikel stellt Langldent vor, ein System zur Sprachidentifikation von mono- und multilingualen elektronischen Textdokumenten. Das System bietet sowohl eine Auswahl von gängigen Algorithmen für die Sprachidentifikation monolingualer Textdokumente als auch einen neuen Algorithmus für die Sprachidentifikation multilingualer Textdokumente.
    Source
    Effektive Information Retrieval Verfahren in Theorie und Praxis: ausgewählte und erweiterte Beiträge des Vierten Hildesheimer Evaluierungs- und Retrievalworkshop (HIER 2005), Hildesheim, 20.7.2005. Hrsg.: T. Mandl u. C. Womser-Hacker
  11. Hahn, U.: Automatische Sprachverarbeitung (2023) 0.05
    0.052054476 = product of:
      0.15616342 = sum of:
        0.122799136 = weight(_text_:sprachen in 790) [ClassicSimilarity], result of:
          0.122799136 = score(doc=790,freq=2.0), product of:
            0.26404554 = queryWeight, product of:
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.0439102 = queryNorm
            0.465068 = fieldWeight in 790, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.0546875 = fieldNorm(doc=790)
        0.03336429 = weight(_text_:und in 790) [ClassicSimilarity], result of:
          0.03336429 = score(doc=790,freq=8.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.34282678 = fieldWeight in 790, product of:
              2.828427 = tf(freq=8.0), with freq of:
                8.0 = termFreq=8.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0546875 = fieldNorm(doc=790)
      0.33333334 = coord(2/6)
    
    Abstract
    Dieses Kapitel gibt eine Übersicht über die maschinelle Verarbeitung natürlicher Sprachen (wie das Deutsche oder Englische; natural language - NL) durch Computer. Grundlegende Konzepte der automatischen Sprachverarbeitung (natural language processing - NLP) stammen aus der Sprachwissenschaft (s. Abschnitt 2) und sind in zunehmend selbstständiger Weise mit formalen Methoden und technischen Grundlagen der Informatik in einer eigenständigen Disziplin, der Computerlinguistik (CL; s. Abschnitte 3 und 4), verknüpft worden. Natürlichsprachliche Systeme (NatS) mit anwendungsbezogenen Funktionalitätsvorgaben bilden den Kern der informationswissenschaftlich geprägten NLP, die häufig als Sprachtechnologie oder im Deutschen auch (mittlerweile veraltet) als Informationslinguistik bezeichnet wird (s. Abschnitt 5).
    Source
    Grundlagen der Informationswissenschaft. Hrsg.: Rainer Kuhlen, Dirk Lewandowski, Wolfgang Semar und Christa Womser-Hacker. 7., völlig neu gefasste Ausg
  12. Nie wieder nachschlagen? : Hexaglot Blitz Translator (2000) 0.05
    0.051172044 = product of:
      0.15351613 = sum of:
        0.13445082 = weight(_text_:einzelne in 7442) [ClassicSimilarity], result of:
          0.13445082 = score(doc=7442,freq=2.0), product of:
            0.25844428 = queryWeight, product of:
              5.885746 = idf(docFreq=333, maxDocs=44218)
              0.0439102 = queryNorm
            0.52023137 = fieldWeight in 7442, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.885746 = idf(docFreq=333, maxDocs=44218)
              0.0625 = fieldNorm(doc=7442)
        0.019065307 = weight(_text_:und in 7442) [ClassicSimilarity], result of:
          0.019065307 = score(doc=7442,freq=2.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.19590102 = fieldWeight in 7442, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0625 = fieldNorm(doc=7442)
      0.33333334 = coord(2/6)
    
    Abstract
    Noch leidet die komplette Übersetzungs-Software an diversen Kinderkrankheiten. Doch reichen schon einzelne Fragmente einer Fremdsprache aus, um einen Text verstehen zu können, ohne viel Zeit in dicken Wörterbüchern aufzuwenden. Voraussetzung dafür ist, dass man einerseits vom bedruckten Papier Abstand nimmt und seine Texte vom Bildschirm liest, and andererseits die Verwendung des Hexaglot Blitztranslators
  13. Stieler, W.: Anzeichen von Bewusstsein bei ChatGPT und Co.? (2023) 0.05
    0.048846267 = product of:
      0.1465388 = sum of:
        0.117644474 = weight(_text_:einzelne in 1047) [ClassicSimilarity], result of:
          0.117644474 = score(doc=1047,freq=2.0), product of:
            0.25844428 = queryWeight, product of:
              5.885746 = idf(docFreq=333, maxDocs=44218)
              0.0439102 = queryNorm
            0.45520246 = fieldWeight in 1047, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.885746 = idf(docFreq=333, maxDocs=44218)
              0.0546875 = fieldNorm(doc=1047)
        0.02889432 = weight(_text_:und in 1047) [ClassicSimilarity], result of:
          0.02889432 = score(doc=1047,freq=6.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.2968967 = fieldWeight in 1047, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0546875 = fieldNorm(doc=1047)
      0.33333334 = coord(2/6)
    
    Abstract
    Ein interdisziplinäres Forschungsteam hat eine Liste von Eigenschaften aufgestellt, die auf Bewusstsein deuten, und aktuelle KI-Systeme darauf abgeklopft. Ein interdisziplinäres Forscherteam hat ein Paper [https://arxiv.org/abs/2308.08708] veröffentlicht, das eine Liste von 14 "Indikatoren" für Bewusstsein enthält, die aus sechs aktuellen Theorien über das Bewusstsein stammen. Aktuelle KI-Modelle wie GPT-3, Palm-E oder AdA von Deepmind weisen demnach einzelne dieser Indikatoren auf. "Es spricht viel dafür, dass die meisten oder alle Bedingungen für das Bewusstsein, die von derzeitigen Theorien vorgeschlagenen Bedingungen für das Bewusstsein mit den bestehenden Techniken der KI erfüllt werden können", schreiben die Autoren. Zum Team gehörte auch der Deep-Learning-Pionier Yoshua Bengio von der Université de Montréal.
    Source
    https://www.heise.de/hintergrund/Anzeichen-von-Bewusstsein-bei-ChatGPT-und-Co-9295425.html?view=print
  14. Bernhard, U.; Mistrik, I.: Rechnergestützte Übersetzung : Einführung und Technik (1998) 0.05
    0.048566677 = product of:
      0.14570002 = sum of:
        0.1052564 = weight(_text_:sprachen in 5343) [ClassicSimilarity], result of:
          0.1052564 = score(doc=5343,freq=2.0), product of:
            0.26404554 = queryWeight, product of:
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.0439102 = queryNorm
            0.39862972 = fieldWeight in 5343, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.046875 = fieldNorm(doc=5343)
        0.040443625 = weight(_text_:und in 5343) [ClassicSimilarity], result of:
          0.040443625 = score(doc=5343,freq=16.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.41556883 = fieldWeight in 5343, product of:
              4.0 = tf(freq=16.0), with freq of:
                16.0 = termFreq=16.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.046875 = fieldNorm(doc=5343)
      0.33333334 = coord(2/6)
    
    Abstract
    Softwaresysteme zur maschinellen und maschinengestützten Übersetzung natürlicher Sprachen erfuhren in den letzten 2 bis 3 Jahren eine erstaunliche Entwicklung. Fortschritte in der Datenbanktechnik, neue leistungsfähigere computerlinguistische Ansätze und eine grundlegende Verbesserung des Preis / Leistungsverhältnisses bei Ein- und Mehrplatz-Hard- und Software machen heute bisher noch nie dagewesene Lösungen möglich, die zu einem Bruchteil der früheren Kosten angeschafft und betrieben werden können. Als Folge diese Entwicklung drängte eine Vielzahl neuer Produkte auf den Übersetzungssoftware-Markt, was - obwohl generell zu begrüßen - für potentielle neue Benutzer die Auswahl des für ihre Anwendungsumgebung geeigneten Produkts erschwert. Vor diesem Hintergrund stellt der vorliegende Artikel die Technik der maschinellen und maschinengestützten Übersetzung dar. Es werden Richtlinien vorgestellt, die potentiellen neuen Benutzern der MÜ-Technik die Auswahl eines geeigneten Werkzeugs erleichtern sollen. Im Anhang werden einige Übersetzungssoftware-Produkte kurz vorgestellt
    Source
    nfd Information - Wissenschaft und Praxis. 49(1998) H.1, S.5-10
  15. Melzer, C.: ¬Der Maschine anpassen : PC-Spracherkennung - Programme sind mittlerweile alltagsreif (2005) 0.05
    0.047128297 = product of:
      0.094256595 = sum of:
        0.058822237 = weight(_text_:einzelne in 4044) [ClassicSimilarity], result of:
          0.058822237 = score(doc=4044,freq=2.0), product of:
            0.25844428 = queryWeight, product of:
              5.885746 = idf(docFreq=333, maxDocs=44218)
              0.0439102 = queryNorm
            0.22760123 = fieldWeight in 4044, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.885746 = idf(docFreq=333, maxDocs=44218)
              0.02734375 = fieldNorm(doc=4044)
        0.025023215 = weight(_text_:und in 4044) [ClassicSimilarity], result of:
          0.025023215 = score(doc=4044,freq=18.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.25712007 = fieldWeight in 4044, product of:
              4.2426405 = tf(freq=18.0), with freq of:
                18.0 = termFreq=18.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.02734375 = fieldNorm(doc=4044)
        0.010411146 = product of:
          0.020822292 = sum of:
            0.020822292 = weight(_text_:22 in 4044) [ClassicSimilarity], result of:
              0.020822292 = score(doc=4044,freq=2.0), product of:
                0.15376605 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.0439102 = queryNorm
                0.1354154 = fieldWeight in 4044, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.02734375 = fieldNorm(doc=4044)
          0.5 = coord(1/2)
      0.5 = coord(3/6)
    
    Content
    "Der Spracherkennung am Computer schien vor wenigen Jahren die Zukunft zu gehören. Geradezu euphorisch waren viele Computernutzer, als sich auf den Bildschirmen die ersten gesprochenen Sätze als Text darstellten. Doch die Spracherkennung erwies sich als anfällig, die Nachbearbeitung nahm manchmal mehr Zeit in Anspruch als gespart wurde. Dabei ist die Kommunikation des Menschen mit der Maschine über die Tastatur eigentlich höchst kompliziert - selbst geübte Schreiber sprechen schneller als sie tippen. Deshalb hat sich inzwischen viel getan: Im Preis und in der Genauigkeit sind viele Spracherkennungsprogramme heute alltagsreif. Die besten Systeme kosten aber noch immer mehrere hundert Euro, die günstigsten weisen Lücken auf. Letztlich gilt: Respektable Ergebnisse sind erreichbar, wenn sich der Mensch der Maschine anpasst. Die Stiftung Warentest in Berlin hat die sechs gängigsten Systeme auf den Prüfstand gestellt. Die ersten Ergebnisse waren ernüchternd: Das deutlich gesprochene "Johann Wolfgang von Goethe" wurde als "Juan Wolf kann Mohnblüte", "Jaun Wolfgang von Göbel" oder "Johann-Wolfgang Wohngüte" geschrieben. Grundsätzlich gilt: Bei einem einfachen Basiswortschatz sind die Ergebnisse genau, sobald es etwas spezieller wird, wird die Software erfinderisch. "Zweiter Weltkrieg" kann dann zu "Zeit für Geld kriegt" werden. Doch ebenso wie der Nutzer lernt auch das System. Bei der Software ist Lernfähigkeit Standard. Ohnehin muss der Benutzer das System einrichten, indem er vorgegebene Texte liest. Dabei wird das Programm der Stimme und der Sprechgeschwindigkeit angepasst. Hier gilt, dass der Anwender deutlich, aber ganz normal vorlesen sollte. Wer akzentuiert und übertrieben betont, wird später mit ungenauen Ausgaben bestraft. Erkennt das System auch nach dem Training einzelne Wörter nicht, können sie nachträglich eingefügt werden. Gleiches gilt für kompliziertere Orts- oder Eigennamen. Wie gut das funktioniert, beweist ein Gegentest: Liest ein anderer den selben Text vor, sinkt das Erkennungsniveau rapide. Die beste Lernfähigkeit attestierten die Warentester dem System "Voice Pro 10" von linguatec. Das war das mit Abstand vielseitigste, mit fast 200 Euro jedoch auch das teuerste Programm.
    Billiger geht es mit "Via Voice Standard" von IBM. Die Software kostet etwa 50 Euro, hat aber erhebliche Schwächen in der Lernfähigkeit: Sie schneidet jedoch immer noch besser ab als das gut drei Mal so teure "Voice Office Premium 10"; das im Test der sechs Programme als einziges nur ein "Befriedigend" bekam. "Man liest über Spracherkennung nicht mehr so viel" weil es funktioniert", glaubt Dorothee Wiegand von der in Hannover erscheinenden Computerzeitschrift "c't". Die Technik" etwa "Dragon Naturally Speaking" von ScanSoft, sei ausgereift, "Spracherkennung ist vor allem Statistik, die Auswertung unendlicher Wortmöglichkeiten. Eigentlich war eher die Hardware das Problem", sagt Wiegand. Da jetzt selbst einfache Heimcomputer schnell und leistungsfähig seien, hätten die Entwickler viel mehr Möglichkeiten."Aber selbst ältere Computer kommen mit den Systemen klar. Sie brauchen nur etwas länger! "Jedes Byte macht die Spracherkennung etwas schneller, ungenauer ist sie sonst aber nicht", bestätigt Kristina Henry von linguatec in München. Auch für die Produkte des Herstellers gelte jedoch, dass "üben und deutlich sprechen wichtiger sind als jede Hardware". Selbst Stimmen von Diktiergeräten würden klar, erkannt, versichert Henry: "Wir wollen einen Schritt weiter gehen und das Diktieren von unterwegs möglich machen." Der Benutzer könnte dann eine Nummer anwählen, etwa im Auto einen Text aufsprechen und ihn zu Hause "getippt" vorfinden. Grundsätzlich passt die Spracherkennungssoftware inzwischen auch auf den privaten Computer. Klar ist aber, dass selbst der bestgesprochene Text nachbearbeitet werden muss. Zudem ist vom Nutzer Geduld gefragt: Ebenso wie sein System lernt, muss der Mensch sich in Aussprache und Geschwindigkeit dem System anpassen. Dann sind die Ergebnisse allerdings beachtlich - und "Sexterminvereinbarung" statt "zwecks Terminvereinbarung" gehört der Vergangenheit an."
    Date
    3. 5.1997 8:44:22
  16. Mengel, T.: Wie viel Terminologiearbeit steckt in der Übersetzung der Dewey-Dezimalklassifikation? (2019) 0.05
    0.046760537 = product of:
      0.1402816 = sum of:
        0.1052564 = weight(_text_:sprachen in 5603) [ClassicSimilarity], result of:
          0.1052564 = score(doc=5603,freq=2.0), product of:
            0.26404554 = queryWeight, product of:
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.0439102 = queryNorm
            0.39862972 = fieldWeight in 5603, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.046875 = fieldNorm(doc=5603)
        0.035025205 = weight(_text_:und in 5603) [ClassicSimilarity], result of:
          0.035025205 = score(doc=5603,freq=12.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.35989314 = fieldWeight in 5603, product of:
              3.4641016 = tf(freq=12.0), with freq of:
                12.0 = termFreq=12.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.046875 = fieldNorm(doc=5603)
      0.33333334 = coord(2/6)
    
    Abstract
    Bibliotheken weltweit setzen die Dewey-Dezimalklassifikation (DDC) als Aufstellungssystematik und/oder zur Katalogsuche ein. Es existieren Übersetzungen der DDC in über 30 Sprachen. Als ein umfassendes System zur Ordnung von Wissen bestehend aus numerischen Notationen und sprachlichen Klasseninhalten bietet die DDC dem Terminologen bzw. der Terminologin ein weites Arbeits- und Forschungsfeld. Aber wie spielen Terminologiearbeit und Übersetzung zusammen, wenn, wie in diesem Fall, die Terminologie selbst das Übersetzungsobjekt ist? Der Aufsatz kann nicht alle Themen erschöpfend behandeln, aber er präsentiert Merkmale der DDC erstmals aus der Perspektive der DDC-Übersetzungsarbeit, und er wirft die Frage auf, ob dem Aspekt der Terminologiearbeit in der DDC-Übersetzung bislang tatsächlich genügend Aufmerksamkeit geschenkt wurde.
    Series
    Kommunikation und Medienmanagement - Springer eBooks. Computer Science and Engineering
  17. ¬Die Bibel als Stilkompass (2019) 0.04
    0.038119417 = product of:
      0.11435825 = sum of:
        0.087713666 = weight(_text_:sprachen in 5331) [ClassicSimilarity], result of:
          0.087713666 = score(doc=5331,freq=2.0), product of:
            0.26404554 = queryWeight, product of:
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.0439102 = queryNorm
            0.33219144 = fieldWeight in 5331, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              6.0133076 = idf(docFreq=293, maxDocs=44218)
              0.0390625 = fieldNorm(doc=5331)
        0.026644576 = weight(_text_:und in 5331) [ClassicSimilarity], result of:
          0.026644576 = score(doc=5331,freq=10.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.27378 = fieldWeight in 5331, product of:
              3.1622777 = tf(freq=10.0), with freq of:
                10.0 = termFreq=10.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0390625 = fieldNorm(doc=5331)
      0.33333334 = coord(2/6)
    
    Content
    "Die Heilige Schrift gibt es nicht nur in mehreren hundert Sprachen, sondern oft innerhalb eines Sprachraums auch in mehreren Varianten. Britische Leser konnen unter anderem zwischen der bewusst sehr einfach geschriebenen Bible in Basic English und der linguistisch komplexen King James Version aus dem 17. Jahrhundert wahlen. Die Fassungen unterscheiden sich in Satzlänge, Wortwahl sowie Förmlichkeit und sprechen so Menschen aus verschiedenen Kulturen und mit unterschiedlichem Bildungsstand an. Ein Team um Keith Carlson vom Dartmouth College will die insgesamt 34 englischsprachigen Versionen der Bibel nun dazu nutzen, um Computern unterschiedliche Stilformen beizubringen Bisher übersetzen entsprechende Programme zwar Fremdsprachen, zum Teil mit beeindruckender Genauigkeit. Oft scheitern sie aber, wenn sie einen Text zielsicher stilistisch verändern sollen, vor allem wenn es dabei um mehr als ein einzelnes Merkmal wie beispielsweise die Komplexität geht. Die Bibel eigne sich mit ihren rund 31 000 Versen wie kein anderes Werk für das Training von Übersetzungsprogrammen, argumentiert das Team um Carlson. Schließlich seien alle Fassungen sehr gewissenhaft von Menschen übersetzt und außerdem Vers für Vers durchnummeriert worden. Das erleichtere einer Maschine die Zuordnung und sei bei anderen umfangreichen Schriftquellen wie dem Werk von William Shakespeare oder der Wikipedia nicht zwangsläufig der Fall. Als erste Demonstration haben die Forscher zwei Algorithmen, von denen einer auf neuronalen Netzen basierte, mit acht frei im Internet verfügbaren Bibelversionen trainiert. Anschließend testeten sie, wie gut die beiden Programme Verse der Vorlagen in einen gewünschten Stil übertrugen, ohne dass die Software auf die anvisierte Fassung der Bibel zugreifen konnte. Insgesamt seien die automatischen Übersetzer dem Ziel schon recht nahegekommen, berichten die Forscher. Sie sehen ihre Arbeit aber erst als Startpunkt bei der Entwicklung einer künstlichen Intelligenz, die souverän zwischen verschiedenen Sprachstilen wechseln kann."
  18. RWI/PH: Auf der Suche nach dem entscheidenden Wort : die Häufung bestimmter Wörter innerhalb eines Textes macht diese zu Schlüsselwörtern (2012) 0.03
    0.031303998 = product of:
      0.09391199 = sum of:
        0.071303315 = weight(_text_:einzelne in 331) [ClassicSimilarity], result of:
          0.071303315 = score(doc=331,freq=4.0), product of:
            0.25844428 = queryWeight, product of:
              5.885746 = idf(docFreq=333, maxDocs=44218)
              0.0439102 = queryNorm
            0.27589434 = fieldWeight in 331, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              5.885746 = idf(docFreq=333, maxDocs=44218)
              0.0234375 = fieldNorm(doc=331)
        0.022608673 = weight(_text_:und in 331) [ClassicSimilarity], result of:
          0.022608673 = score(doc=331,freq=20.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.23231003 = fieldWeight in 331, product of:
              4.472136 = tf(freq=20.0), with freq of:
                20.0 = termFreq=20.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0234375 = fieldNorm(doc=331)
      0.33333334 = coord(2/6)
    
    Abstract
    Der Mensch kann komplexe Sachverhalte in eine eindimensionale Abfolge von Buchstaben umwandeln und niederschreiben. Dabei dienen Schlüsselwörter dazu, den Inhalt des Textes zu vermitteln. Wie Buchstaben und Wörtern mit dem Thema eines Textes zusammenhängen, haben Eduardo Altmann und seine Kollegen vom Max-Planck-Institut für die Physik komplexer Systeme und der Universität Bologna mit Hilfe von statistischen Methoden untersucht. Dabei haben sie herausgefunden, dass Schlüsselwörter nicht dadurch gekennzeichnet sind, dass sie im ganzen Text besonders häufig vorkommen, sondern nur an bestimmten Stellen vermehrt zu finden sind. Außerdem gibt es Beziehungen zwischen weit entfernten Textabschnitten, in der Form, dass dieselben Wörter und Buchstaben bevorzugt verwendet werden.
    Content
    "Die Dresdner Wissenschaftler haben die semantischen Eigenschaften von Texten mathematisch untersucht, indem sie zehn verschiedene englische Texte in unterschiedlichen Formen kodierten. Dazu zählt unter anderem die englische Ausgabe von Leo Tolstois "Krieg und Frieden". Beispielsweise übersetzten die Forscher Buchstaben innerhalb eines Textes in eine Binär-Sequenz. Dazu ersetzten sie alle Vokale durch eine Eins und alle Konsonanten durch eine Null. Mit Hilfe weiterer mathematischer Funktionen beleuchteten die Wissenschaftler dabei verschiedene Ebenen des Textes, also sowohl einzelne Vokale, Buchstaben als auch ganze Wörter, die in verschiedenen Formen kodiert wurden. Innerhalb des ganzen Textes lassen sich so wiederkehrende Muster finden. Diesen Zusammenhang innerhalb des Textes bezeichnet man als Langzeitkorrelation. Diese gibt an, ob zwei Buchstaben an beliebig weit voneinander entfernten Textstellen miteinander in Verbindung stehen - beispielsweise gibt es wenn wir an einer Stelle einen Buchstaben "K" finden, eine messbare höhere Wahrscheinlichkeit den Buchstaben "K" einige Seiten später nochmal zu finden. "Es ist zu erwarten, dass wenn es in einem Buch an einer Stelle um Krieg geht, die Wahrscheinlichkeit hoch ist das Wort Krieg auch einige Seiten später zu finden. Überraschend ist es, dass wir die hohe Wahrscheinlichkeit auch auf der Buchstabenebene finden", so Altmann.
    Schlüsselwörter häufen sich in einzelnen Textpassagen Dabei haben sie die Langzeitkorrelation sowohl zwischen einzelnen Buchstaben, als auch innerhalb höherer sprachlicher Ebenen wie Wörtern gefunden. Innerhalb einzelner Ebenen bleibt die Korrelation dabei erhalten, wenn man verschiedene Texte betrachtet. "Viel interessanter ist es für uns zu überprüfen, wie die Korrelation sich zwischen den Ebenen ändert", sagt Altmann. Die Langzeitkorrelation erlaubt Rückschlüsse, inwieweit einzelne Wörter mit einem Thema in Verbindungen stehen. "Auch die Verbindung zwischen einem Wort und den Buchstaben, aus denen es sich zusammensetzt, lässt sich so analysieren", so Altmann. Darüber hinaus untersuchten die Wissenschaftler auch die sogenannte "Burstiness", die beschreibt, ob ein Zeichenmuster in einer Textpassage vermehrt zu finden ist. Sie zeigt also beispielsweise an, ob ein Wort in einem bestimmten Abschnitt gehäuft vorkommt. Je häufiger ein bestimmtes Wort in einer Passage verwendet wird, desto wahrscheinlicher ist es, dass diese repräsentativ für ein bestimmtes Thema ist. Die Wissenschaftler zeigten, dass bestimmte Wörter zwar im ganzen Text immer wieder vorkommen, aber nicht in einem bestimmten Abschnitt verstärkt zu finden sind. Diese Wörter weisen zwar eine Langzeitkorrelation auf, stehen aber nicht in einer engen Verbindung mit dem Thema. "Das beste Beispiel dafür sind Artikel. Sie kommen in jedem Text sehr oft vor, sind aber nicht entscheidend um ein bestimmtes Thema zu vermitteln", so Altmann.
    Die statistische Textanalyse funktioniert unabhängig von der Sprache Während sowohl Buchstaben als auch Wörter Langzeit-korreliert sind, kommen Buchstaben nur selten an bestimmten Stellen eines Textes gehäuft vor. "Ein Buchstabe ist eben nur sehr selten so eng mit einem Thema verknüpft wie das Wort zu dem er einen Teil beiträgt. Buchstaben sind sozusagen flexibler einsetzbar", sagt Altmann. Ein "a" beispielsweise kann zu einer ganzen Reihe von Wörtern beitragen, die nicht mit demselben Thema in Verbindung stehen. Mit Hilfe der statistischen Analyse von Texten ist es den Forschern gelungen, die prägenden Wörter eines Textes auf einfache Weise zu ermitteln. "Dabei ist es vollkommen egal, in welcher Sprache ein Text geschrieben ist. Es geht nur noch um die Geschichte und nicht um sprachspezifische Regeln", sagt Altmann. Die Ergebnisse könnten zukünftig zur Verbesserung von Internetsuchmaschinen beitragen, aber auch bei Textanalysen und der Suche nach Plagiaten helfen."
  19. Winiwarter, W.: Bewältigung der Informationsflut : Stand der Computerlinguistik (1996) 0.02
    0.023490287 = product of:
      0.07047086 = sum of:
        0.023592114 = weight(_text_:und in 4099) [ClassicSimilarity], result of:
          0.023592114 = score(doc=4099,freq=4.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.24241515 = fieldWeight in 4099, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0546875 = fieldNorm(doc=4099)
        0.046878748 = product of:
          0.093757495 = sum of:
            0.093757495 = weight(_text_:allgemein in 4099) [ClassicSimilarity], result of:
              0.093757495 = score(doc=4099,freq=2.0), product of:
                0.23071943 = queryWeight, product of:
                  5.254347 = idf(docFreq=627, maxDocs=44218)
                  0.0439102 = queryNorm
                0.40637016 = fieldWeight in 4099, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  5.254347 = idf(docFreq=627, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=4099)
          0.5 = coord(1/2)
      0.33333334 = coord(2/6)
    
    Abstract
    In vielen Bereichen der Computerlinguistik kann die Situation konstatiert werden, daß eine anfängliche euphorische Aufbruchsstimmung einer resignativen Stagnationsphase gewichen ist. In gleichem Maße wurde damit aber auch Raum für eine realistischere Sicht der Dinge geschaffen, welche von 'Toy Systems' Abschied nimmt und sich praktischen Fragestellungen widmet. Als eines der dringlichsten Probleme ist hier die effiziente Bewältigung der von Tag zu Tag größer werdenden Informationsflut anzusehen. Die vorliegende Arbeit gibt einen aktuellen Überblick über die derzeit zur Verfügung stehenden Techniken. Der Schwerpunkt wird hierbei auf Information Extraction Systeme gelegt, die auf der Grundlage internationaler Evaluierungsprogramme und allgemein verfügbarer linguistischer Ressourcen bereits beachtliche Erfolge erzielen konnten
  20. Monnerjahn, P.: Vorsprung ohne Technik : Übersetzen: Computer und Qualität (2000) 0.02
    0.021431107 = product of:
      0.06429332 = sum of:
        0.02859796 = weight(_text_:und in 5429) [ClassicSimilarity], result of:
          0.02859796 = score(doc=5429,freq=2.0), product of:
            0.09732112 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0439102 = queryNorm
            0.29385152 = fieldWeight in 5429, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.09375 = fieldNorm(doc=5429)
        0.035695355 = product of:
          0.07139071 = sum of:
            0.07139071 = weight(_text_:22 in 5429) [ClassicSimilarity], result of:
              0.07139071 = score(doc=5429,freq=2.0), product of:
                0.15376605 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.0439102 = queryNorm
                0.46428138 = fieldWeight in 5429, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.09375 = fieldNorm(doc=5429)
          0.5 = coord(1/2)
      0.33333334 = coord(2/6)
    
    Source
    c't. 2000, H.22, S.230-231

Years