Search (77 results, page 1 of 4)

Hotho, A.; Bloehdorn, S.: Data Mining 2004 : Text classification by boosting weak learners based on terms and concepts (2004) 0.29

0.28942767 = product of:
  0.48237944 = sum of:
    0.04544258 = product of:
      0.13632774 = sum of:
        0.13632774 = weight(_text_:3a in 562) [ClassicSimilarity], result of:
          0.13632774 = score(doc=562,freq=2.0), product of:
            0.24256827 = queryWeight, product of:
              8.478011 = idf(docFreq=24, maxDocs=44218)
              0.028611459 = queryNorm
            0.56201804 = fieldWeight in 562, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              8.478011 = idf(docFreq=24, maxDocs=44218)
              0.046875 = fieldNorm(doc=562)
      0.33333334 = coord(1/3)
    0.13632774 = weight(_text_:2f in 562) [ClassicSimilarity], result of:
      0.13632774 = score(doc=562,freq=2.0), product of:
        0.24256827 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.028611459 = queryNorm
        0.56201804 = fieldWeight in 562, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.046875 = fieldNorm(doc=562)
    0.13632774 = weight(_text_:2f in 562) [ClassicSimilarity], result of:
      0.13632774 = score(doc=562,freq=2.0), product of:
        0.24256827 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.028611459 = queryNorm
        0.56201804 = fieldWeight in 562, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.046875 = fieldNorm(doc=562)
    0.020200694 = weight(_text_:web in 562) [ClassicSimilarity], result of:
      0.020200694 = score(doc=562,freq=2.0), product of:
        0.0933738 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.028611459 = queryNorm
        0.21634221 = fieldWeight in 562, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.046875 = fieldNorm(doc=562)
    0.13632774 = weight(_text_:2f in 562) [ClassicSimilarity], result of:
      0.13632774 = score(doc=562,freq=2.0), product of:
        0.24256827 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.028611459 = queryNorm
        0.56201804 = fieldWeight in 562, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.046875 = fieldNorm(doc=562)
    0.0077529154 = product of:
      0.023258746 = sum of:
        0.023258746 = weight(_text_:22 in 562) [ClassicSimilarity], result of:
          0.023258746 = score(doc=562,freq=2.0), product of:
            0.10019246 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.028611459 = queryNorm
            0.23214069 = fieldWeight in 562, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.046875 = fieldNorm(doc=562)
      0.33333334 = coord(1/3)
  0.6 = coord(6/10)

Content: Vgl.: http://www.google.de/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&ved=0CEAQFjAA&url=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Fdoi%3D10.1.1.91.4940%26rep%3Drep1%26type%3Dpdf&ei=dOXrUMeIDYHDtQahsIGACg&usg=AFQjCNHFWVh6gNPvnOrOS9R3rkrXCNVD-A&sig2=5I2F5evRfMnsttSgFF9g7Q&bvm=bv.1357316858,d.Yms.
Date: 8. 1.2013 10:22:32

Schneider, R.: Web 3.0 ante portas? : Integration von Social Web und Semantic Web (2008) 0.04

0.03895879 = product of:
  0.12986264 = sum of:
    0.05846389 = weight(_text_:kommunikation in 4184) [ClassicSimilarity], result of:
      0.05846389 = score(doc=4184,freq=2.0), product of:
        0.14706601 = queryWeight, product of:
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.028611459 = queryNorm
        0.39753503 = fieldWeight in 4184, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.0546875 = fieldNorm(doc=4184)
    0.062353685 = weight(_text_:web in 4184) [ClassicSimilarity], result of:
      0.062353685 = score(doc=4184,freq=14.0), product of:
        0.0933738 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.028611459 = queryNorm
        0.6677857 = fieldWeight in 4184, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.0546875 = fieldNorm(doc=4184)
    0.009045068 = product of:
      0.027135205 = sum of:
        0.027135205 = weight(_text_:22 in 4184) [ClassicSimilarity], result of:
          0.027135205 = score(doc=4184,freq=2.0), product of:
            0.10019246 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.028611459 = queryNorm
            0.2708308 = fieldWeight in 4184, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0546875 = fieldNorm(doc=4184)
      0.33333334 = coord(1/3)
  0.3 = coord(3/10)

Abstract: Das Medium Internet ist im Wandel, und mit ihm ändern sich seine Publikations- und Rezeptionsbedingungen. Welche Chancen bieten die momentan parallel diskutierten Zukunftsentwürfe von Social Web und Semantic Web? Zur Beantwortung dieser Frage beschäftigt sich der Beitrag mit den Grundlagen beider Modelle unter den Aspekten Anwendungsbezug und Technologie, beleuchtet darüber hinaus jedoch auch deren Unzulänglichkeiten sowie den Mehrwert einer mediengerechten Kombination. Am Beispiel des grammatischen Online-Informationssystems grammis wird eine Strategie zur integrativen Nutzung der jeweiligen Stärken skizziert.
Date: 22. 1.2011 10:38:28
Source: Kommunikation, Partizipation und Wirkungen im Social Web, Band 1. Hrsg.: A. Zerfaß u.a
Theme: Semantic Web

Chen, K.-H.: Evaluating Chinese text retrieval with multilingual queries (2002) 0.02

0.020001596 = product of:
  0.10000798 = sum of:
    0.09088081 = weight(_text_:log in 1851) [ClassicSimilarity], result of:
      0.09088081 = score(doc=1851,freq=2.0), product of:
        0.18335998 = queryWeight, product of:
          6.4086204 = idf(docFreq=197, maxDocs=44218)
          0.028611459 = queryNorm
        0.49564147 = fieldWeight in 1851, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          6.4086204 = idf(docFreq=197, maxDocs=44218)
          0.0546875 = fieldNorm(doc=1851)
    0.009127174 = product of:
      0.027381519 = sum of:
        0.027381519 = weight(_text_:29 in 1851) [ClassicSimilarity], result of:
          0.027381519 = score(doc=1851,freq=2.0), product of:
            0.10064617 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.028611459 = queryNorm
            0.27205724 = fieldWeight in 1851, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.0546875 = fieldNorm(doc=1851)
      0.33333334 = coord(1/3)
  0.2 = coord(2/10)

Abstract: This paper reports the design of a Chinese test collection with multilingual queries and the application of this test collection to evaluate information retrieval Systems. The effective indexing units, IR models, translation techniques, and query expansion for Chinese text retrieval are identified. The collaboration of East Asian countries for construction of test collections for cross-language multilingual text retrieval is also discussed in this paper. As well, a tool is designed to help assessors judge relevante and gather the events of relevante judgment. The log file created by this tool will be used to analyze the behaviors of assessors in the future.
Source: Knowledge organization. 29(2002) nos.3/4, S.156-170

Kuhlmann, U.; Monnerjahn, P.: Sprache auf Knopfdruck : Sieben automatische Übersetzungsprogramme im Test (2000) 0.02

0.019288274 = product of:
  0.096441366 = sum of:
    0.08351984 = weight(_text_:kommunikation in 5428) [ClassicSimilarity], result of:
      0.08351984 = score(doc=5428,freq=2.0), product of:
        0.14706601 = queryWeight, product of:
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.028611459 = queryNorm
        0.56790715 = fieldWeight in 5428, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.078125 = fieldNorm(doc=5428)
    0.012921526 = product of:
      0.038764577 = sum of:
        0.038764577 = weight(_text_:22 in 5428) [ClassicSimilarity], result of:
          0.038764577 = score(doc=5428,freq=2.0), product of:
            0.10019246 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.028611459 = queryNorm
            0.38690117 = fieldWeight in 5428, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.078125 = fieldNorm(doc=5428)
      0.33333334 = coord(1/3)
  0.2 = coord(2/10)

Abstract: Ein grenzenloses Internet allein ist kein Garant für weltweite Kommunikation. Auch sprachliche Barrieren müssen fallen. Automatische Übersetzungsprogramme sollen helfen, Sprachgrenzen zu überwinden. Kann maschinelle Übersetzung im globalen Ddorf bestehen?
Source: c't. 2000, H.22, S.220-229

Sprachtechnologie, mobile Kommunikation und linguistische Ressourcen : Beiträge zur GLDV Tagung 2005 in Bonn (2005) 0.01
```
0.0121785 = product of:
  0.0608925 = sum of:
    0.043398187 = weight(_text_:kommunikation in 3578) [ClassicSimilarity], result of:
      0.043398187 = score(doc=3578,freq=6.0), product of:
        0.14706601 = queryWeight, product of:
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.028611459 = queryNorm
        0.29509324 = fieldWeight in 3578, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.0234375 = fieldNorm(doc=3578)
    0.017494315 = weight(_text_:web in 3578) [ClassicSimilarity], result of:
      0.017494315 = score(doc=3578,freq=6.0), product of:
        0.0933738 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.028611459 = queryNorm
        0.18735787 = fieldWeight in 3578, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.0234375 = fieldNorm(doc=3578)
  0.2 = coord(2/10)
```
Content

INHALT: Chris Biemann/Rainer Osswald: Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora - Ernesto William De Luca/Andreas Nürnberger: Supporting Mobile Web Search by Ontology-based Categorization - Rüdiger Gleim: HyGraph - Ein Framework zur Extraktion, Repräsentation und Analyse webbasierter Hypertextstrukturen - Felicitas Haas/Bernhard Schröder: Freges Grundgesetze der Arithmetik: Dokumentbaum und Formelwald - Ulrich Held/ Andre Blessing/Bettina Säuberlich/Jürgen Sienel/Horst Rößler/Dieter Kopp: A personalized multimodal news service -Jürgen Hermes/Christoph Benden: Fusion von Annotation und Präprozessierung als Vorschlag zur Behebung des Rohtextproblems - Sonja Hüwel/Britta Wrede/Gerhard Sagerer: Semantisches Parsing mit Frames für robuste multimodale Mensch-Maschine-Kommunikation - Brigitte Krenn/Stefan Evert: Separating the wheat from the chaff- Corpus-driven evaluation of statistical association measures for collocation extraction - Jörn Kreutel: An application-centered Perspective an Multimodal Dialogue Systems - Jonas Kuhn: An Architecture for Prallel Corpusbased Grammar Learning - Thomas Mandl/Rene Schneider/Pia Schnetzler/Christa Womser-Hacker: Evaluierung von Systemen für die Eigennamenerkennung im crosslingualen Information Retrieval - Alexander Mehler/Matthias Dehmer/Rüdiger Gleim: Zur Automatischen Klassifikation von Webgenres - Charlotte Merz/Martin Volk: Requirements for a Parallel Treebank Search Tool - Sally YK. Mok: Multilingual Text Retrieval an the Web: The Case of a Cantonese-Dagaare-English Trilingual e-Lexicon -
Darja Mönke: Ein Parser für natürlichsprachlich formulierte mathematische Beweise - Martin Müller: Ontologien für mathematische Beweistexte - Moritz Neugebauer: The status of functional phonological classification in statistical speech recognition - Uwe Quasthoff: Kookkurrenzanalyse und korpusbasierte Sachgruppenlexikographie - Reinhard Rapp: On the Relationship between Word Frequency and Word Familiarity - Ulrich Schade/Miloslaw Frey/Sebastian Becker: Computerlinguistische Anwendungen zur Verbesserung der Kommunikation zwischen militärischen Einheiten und deren Führungsinformationssystemen - David Schlangen/Thomas Hanneforth/Manfred Stede: Weaving the Semantic Web: Extracting and Representing the Content of Pathology Reports - Thomas Schmidt: Modellbildung und Modellierungsparadigmen in der computergestützten Korpuslinguistik - Sabine Schröder/Martina Ziefle: Semantic transparency of cellular phone menus - Thorsten Trippel/Thierry Declerck/Ulrich Held: Standardisierung von Sprachressourcen: Der aktuelle Stand - Charlotte Wollermann: Evaluation der audiovisuellen Kongruenz bei der multimodalen Sprachsynsthese - Claudia Kunze/Lothar Lemnitzer: Anwendungen des GermaNet II: Einleitung - Claudia Kunze/Lothar Lemnitzer: Die Zukunft der Wortnetze oder die Wortnetze der Zukunft - ein Roadmap-Beitrag -
Doszkocs, T.E.; Zamora, A.: Dictionary services and spelling aids for Web searching (2004) 0.01
```
0.012093961 = product of:
  0.060469806 = sum of:
    0.029157192 = weight(_text_:web in 2541) [ClassicSimilarity], result of:
      0.029157192 = score(doc=2541,freq=6.0), product of:
        0.0933738 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.028611459 = queryNorm
        0.3122631 = fieldWeight in 2541, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.0390625 = fieldNorm(doc=2541)
    0.031312615 = product of:
      0.046968922 = sum of:
        0.019558229 = weight(_text_:29 in 2541) [ClassicSimilarity], result of:
          0.019558229 = score(doc=2541,freq=2.0), product of:
            0.10064617 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.028611459 = queryNorm
            0.19432661 = fieldWeight in 2541, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.0390625 = fieldNorm(doc=2541)
        0.027410695 = weight(_text_:22 in 2541) [ClassicSimilarity], result of:
          0.027410695 = score(doc=2541,freq=4.0), product of:
            0.10019246 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.028611459 = queryNorm
            0.27358043 = fieldWeight in 2541, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0390625 = fieldNorm(doc=2541)
      0.6666667 = coord(2/3)
  0.2 = coord(2/10)
```
Abstract

The Specialized Information Services Division (SIS) of the National Library of Medicine (NLM) provides Web access to more than a dozen scientific databases on toxicology and the environment on TOXNET . Search queries on TOXNET often include misspelled or variant English words, medical and scientific jargon and chemical names. Following the example of search engines like Google and ClinicalTrials.gov, we set out to develop a spelling "suggestion" system for increased recall and precision in TOXNET searching. This paper describes development of dictionary technology that can be used in a variety of applications such as orthographic verification, writing aid, natural language processing, and information storage and retrieval. The design of the technology allows building complex applications using the components developed in the earlier phases of the work in a modular fashion without extensive rewriting of computer code. Since many of the potential applications envisioned for this work have on-line or web-based interfaces, the dictionaries and other computer components must have fast response, and must be adaptable to open-ended database vocabularies, including chemical nomenclature. The dictionary vocabulary for this work was derived from SIS and other databases and specialized resources, such as NLM's Unified Medical Language Systems (UMLS) . The resulting technology, A-Z Dictionary (AZdict), has three major constituents: 1) the vocabulary list, 2) the word attributes that define part of speech and morphological relationships between words in the list, and 3) a set of programs that implements the retrieval of words and their attributes, and determines similarity between words (ChemSpell). These three components can be used in various applications such as spelling verification, spelling aid, part-of-speech tagging, paraphrasing, and many other natural language processing functions.

Date

14. 8.2004 17:22:56

Source

Online. 28(2004) no.3, S.22-29
Information und Sprache : Beiträge zu Informationswissenschaft, Computerlinguistik, Bibliothekswesen und verwandten Fächern. Festschrift für Harald H. Zimmermann. Herausgegeben von Ilse Harms, Heinz-Dirk Luckhardt und Hans W. Giessen (2006) 0.01
```
0.011194582 = product of:
  0.05597291 = sum of:
    0.0409162 = weight(_text_:kommunikation in 91) [ClassicSimilarity], result of:
      0.0409162 = score(doc=91,freq=12.0), product of:
        0.14706601 = queryWeight, product of:
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.028611459 = queryNorm
        0.27821657 = fieldWeight in 91, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.015625 = fieldNorm(doc=91)
    0.01505671 = weight(_text_:web in 91) [ClassicSimilarity], result of:
      0.01505671 = score(doc=91,freq=10.0), product of:
        0.0933738 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.028611459 = queryNorm
        0.16125198 = fieldWeight in 91, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.015625 = fieldNorm(doc=91)
  0.2 = coord(2/10)
```
Content

Inhalt: Information und Sprache und mehr - eine Einleitung - Information und Kommunikation Wolf Rauch: Auch Information ist eine Tochter der Zeit Winfried Lenders: Information und kulturelles Gedächtnis Rainer Hammwöhner: Anmerkungen zur Grundlegung der Informationsethik Hans W. Giessen: Ehrwürdig stille Informationen Gernot Wersig: Vereinheitlichte Medientheorie und ihre Sicht auf das Internet Johann Haller, Anja Rütten: Informationswissenschaft und Translationswissenschaft: Spielarten oder Schwestern? Rainer Kuhlen: In Richtung Summarizing für Diskurse in K3 Werner Schweibenz: Sprache, Information und Bedeutung im Museum. Narrative Vermittlung durch Storytelling - Sprache und Computer, insbesondere Information Retrieval und Automatische Indexierung Manfred Thiel: Bedingt wahrscheinliche Syntaxbäume Jürgen Krause: Shell Model, Semantic Web and Web Information Retrieval Elisabeth Niggemann: Wer suchet, der findet? Verbesserung der inhaltlichen Suchmöglichkeiten im Informationssystem Der Deutschen Bibliothek Christa Womser-Hacker: Zur Rolle von Eigennamen im Cross-Language Information Retrieval Klaus-Dirk Schmitz: Wörterbuch, Thesaurus, Terminologie, Ontologie. Was tragen Terminologiewissenschaft und Informationswissenschaft zur Wissensordnung bei?
Jiri Panyr: Thesauri, Semantische Netze, Frames, Topic Maps, Taxonomien, Ontologien - begriffliche Verwirrung oder konzeptionelle Vielfalt? Heinz-Dieter Maas: Indexieren mit AUTINDEX Wilhelm Gaus, Rainer Kaluscha: Maschinelle inhaltliche Erschließung von Arztbriefen und Auswertung von Reha-Entlassungsberichten Klaus Lepsky: Automatische Indexierung des Reallexikons zur Deutschen Kunstgeschichte - Analysen und Entwicklungen Ilse Harms: Die computervermittelte Kommunikation als ein Instrument des Wissensmanagements in Organisationen August- Wilhelm Scheer, Dirk Werth: Geschäftsregel-basiertes Geschäftsprozessmanagement Thomas Seeger: Akkreditierung und Evaluierung von Hochschullehre und -forschung in Großbritannien. Hinweise für die Situation in Deutschland Bernd Hagenau: Gehabte Sorgen hab' ich gern? Ein Blick zurück auf die Deutschen Bibliothekartage 1975 bis 1980 - Persönliches Jorgo Chatzimarkakis: Sprache und Information in Europa Alfred Gulden: 7 Briefe und eine Anmerkung Günter Scholdt: Der Weg nach Europa im Spiegel von Mundartgedichten Alfred Guldens Wolfgang Müller: Prof. Dr. Harald H. Zimmermann - Seit 45 Jahren der Universität des Saarlandes verbunden Heinz-Dirk Luckhardt: Computerlinguistik und Informationswissenschaft: Facetten des wissenschaftlichen Wirkens von Harald H. Zimmermann Schriftenverzeichnis Harald H. Zimmermanns 1967-2005 - Projekte in Verantwortung von Harald H. Zimmermann - Adressen der Beiträgerinnen und Beiträger

Footnote

Rez. in Mitt. VÖB 59(2006) Nr.3, S.75-78 (O. Oberhauser): "Beim vorliegenden Buch handelt es sich um die Festschrift zum 65. Geburtstag des mit Ende des Sommersemesters 2006 in den Ruhestand getretenen Universitätsprofessors für Informationswissenschaft, Harald H. Zimmermann, jenes 1941 in Völklingen geborenen Computerlinguisten, der die Informationswissenschaft als akademische Disziplin in Deutschland mitbegründet und seit 1980 an der Universität des Saarlandes vertreten hat. Die insgesamt 26 Beiträge des von Professor Zimmermanns Mitarbeitern betreuten, optisch gediegen anmutenden Saur-Bandes gliedern sich - so das Inhaltsverzeichnis - in vier Themenschwerpunkte: - Information und Kommunikation - Sprache und Computer, insbesondere Information Retrieval und Automatische Indexierung - Analysen und Entwicklungen - Persönliches Die Aufsätze selbst variieren, wie bei Festschriften üblich bzw. unvermeidbar, hinsichtlich Länge, Stil, thematischem Detail und Anspruchsniveau. Neben wissenschaftlichen Beiträgen findet man hier auch Reminiszenzen und Literarisches. Die nachfolgende Auswahl zeigt, was mich selbst an diesem Buch interessiert hat:
In Information und kulturelles Gedächtnis (S. 7-15) plädiert der Kommunikationswissenschaftler Winfried Lenders (Bonn) dafür, Information nicht mit dem zu identifizieren, was heute als (kulturelles) Gedächtnis bezeichnet wird. Information ist ein Prozess bzw. Vorgang und kein manifestes Substrat; sie setzt aber ein solches Substrat, nämlich das im (kulturellen) Gedächtnis abgespeicherte Wissen, voraus. Allerdings führt nicht jedes Informieren zu einer Vermehrung des kulturellen Gedächtnisses - das notwendige Auswahlkriterium liegt jedoch nicht in der grundsätzliche Möglichkeit zum Speichern von Inhalten. Es liegt auch nicht ausschliesslich in formalisierten Aussonderungsmechanismen wie Skartieren, Zitationsindizes und Relevanzrangreihen, sondern in der gesellschaftlichen Kommunikation schlechthin. Auch an die Verfügbarkeit des Schriftlichen ist das kulturelle Gedächtnis nicht gebunden, zumal ja auch in Kulturen der Oralität gesellschaftlich Wichtiges aufbewahrt wird. Rainer Hammwöhner (Regensburg) geht in Anmerkungen zur Grundlegung der Informationsethik (S. 17-27) zunächst auf die "Überversorgung" des Informationssektors mit Spezialethiken ein, wobei er neben der (als breiter angesehenen) Informationsethik konkurrierende Bereichsethiken wie Medienethik, Computerethik und Netzethik/Cyberethik thematisiert und Überlappungen, Abgrenzung, Hierarchisierung etc. diskutiert. Versuche einer diskursethischen wie einer normenethischen Begründung der Informationsethik sind nach Hammwöhner zum Scheitern verurteilt, sodass er einen pragmatistischen Standpunkt einnimmt, wonach Informationsethik ganz einfach "die Analyse und Systematisierung der im Zusammenhang der digitalen Kommunikation etablierten normativen Handlungsmuster" zu leisten habe. In diesem Konnex werden Fragen wie jene nach dem Guten, aber auch Aspekte wie die Bewahrung des kulturellen Erbes für spätere Generationen und der Erhalt der kulturellen Mannigfaltigkeit angesprochen. Der Beitrag des vor kurzem verstorbenen Gründungsvaters der deutschen Informationswissenschaft, Gernot Wersig (Berlin), ist mit Vereinheitlichte Medientheorie und ihre Sicht auf das Internet (S. 35-46) überschrieben. Der Autor gibt darin einen kurzen Überblick über bisherige medientheoretische Ansätze und versucht sodann - ausgehend von den Werken Niklas Luhmanns und Herbert Stachowiaks - eine "vereinheitlichte Medientheorie" zu entwickeln. Dabei werden die Faktoren Kommunikation, Medien, Medienplattformen und -typologien, Medienevolution und schließlich die digitale Revolution diskutiert. Das Internet, so folgert Wersig, sei eine Medienplattform mit dem Potential, eine ganze Epoche zu gestalten. In Anlehnung an den bekannten Begriff "Gutenberg-Galaxis" spricht er hier auch von einer "Internet-Galaxie". Obwohl dieser Artikel viele interessante Gedanken enthält, erschließt er sich dem Leser leider nur schwer, da vieles vorausgesetzt wird und auch der gewählte Soziologenjargon nicht jedermanns Sache ist.
In Thesauri, Semantische Netze, Frames, Topic Maps, Taxonomien, Ontologien - begriffliche Verwirrung oder konzeptionelle Vielfalt? (S. 139-151) gibt Jiri Panyr (München/Saarbrücken) eine gut lesbare und nützliche Übersicht über die im Titel des Beitrags genannten semantischen Repräsentationsformen, die im Zusammenhang mit dem Internet und insbesondere mit dem vorgeschlagenen Semantic Web immer wieder - und zwar häufig unpräzise oder gar unrichtig - Anwendung finden. Insbesondere die Ausführungen zum Modebegriff Ontologie zeigen, dass dieser nicht leichtfertig als Quasi-Synonym zu Thesaurus oder Klassifikation verwendet werden darf. Panyrs Beitrag ist übrigens thematisch verwandt mit jenem von K.-D. Schmitz (Köln), Wörterbuch, Thesaurus, Terminologie, Ontologie (S. 129-137). Abgesehen von dem einfallslosen Titel Wer suchet, der findet? (S. 107- 118) - zum Glück mit dem Untertitel Verbesserung der inhaltlichen Suchmöglichkeiten im Informationssystem Der Deutschen Bibliothek versehen - handelt es sich bei diesem Artikel von Elisabeth Niggemann (Frankfurt am Main) zwar um keinen wissenschaftlichen, doch sicherlich den praktischsten, lesbarsten und aus bibliothekarischer Sicht interessantesten des Buches. Niggemann gibt einen Überblick über die bisherige sachliche Erschliessung der bibliographischen Daten der inzwischen zur Deutschen Nationalbibliothek mutierten DDB, sowie einen Statusbericht nebst Ausblick über gegenwärtige bzw. geplante Verbesserungen der inhaltlichen Suche. Dazu zählen der breite Einsatz eines automatischen Indexierungsverfahrens (MILOS/IDX) ebenso wie Aktivitäten im klassifikatorischen Bereich (DDC), die Vernetzung nationaler Schlagwortsysteme (Projekt MACS) sowie die Beschäftigung mit Crosskonkordanzen (CARMEN) und Ansätzen zur Heterogenitätsbehandlung. Das hier von zentraler Stelle deklarierte "commitment" hinsichtlich der Verbesserung der sachlichen Erschließung des nationalen Online-Informationssystems erfüllt den eher nur Kleinmut und Gleichgültigkeit gewohnten phäakischen Beobachter mit Respekt und wehmutsvollem Neid.
Mit automatischer Indexierung beschäftigen sich auch zwei weitere Beiträge. Indexieren mit AUTINDEX von H.-D. Mass (Saarbrücken) ist leider knapp und ohne didaktische Ambition verfasst, sodass man sich nicht wirklich vorstellen kann, wie dieses System funktioniert. Übersichtlicher stellt sich der Werkstattbericht Automatische Indexierung des Reallexikons zur deutschen Kunstgeschichte von K. Lepsky (Köln) dar, der zeigt, welche Probleme und Schritte bei der Digitalisierung, Indexierung und Web-Präsentation der Volltexte eines grossen fachlichen Nachschlagewerkes anfallen. Weitere interessante Beiträge befassen sich z.B. mit Summarizing-Leistungen im Rahmen eines e-Learning-Projektes (R. Kuhlen), mit dem Schalenmodell und dem Semantischen Web (J. Krause; aus nicht näher dargelegten Gründen in englischer Sprache) und mit der Akkreditierung/ Evaluierung von Hochschullehre und -forschung in Großbritannien (T. Seeger). In Summe liegt hier eine würdige Festschrift vor, über die sich der Gefeierte sicherlich gefreut haben wird. Für informationswissenschaftliche Spezialsammlungen und größere Bibliotheken ist der Band allemal eine Bereicherung. Ein Wermutstropfen aber doch: Obzwar mit Information und Sprache ein optisch ansprechend gestaltetes Buch produziert wurde, enthüllt eine nähere Betrachtung leider allzu viele Druckfehler, mangelhafte Worttrennungen, unkorrigierte grammatikalische Fehler, sowie auch Inkonsistenzen bei Kursivdruck und Satzzeichen. Lektoren und Korrektoren sind, so muss man wieder einmal schmerzlich zur Kenntnis nehmen, ein aussterbender Berufsstand."

Sprachtechnologie für die multilinguale Kommunikation : Textproduktion, Recherche, Übersetzung, Lokalisierung. Beiträge der GLDV-Frühjahrstagung 2003 (2003) 0.01

0.010022382 = product of:
  0.10022382 = sum of:
    0.10022382 = weight(_text_:kommunikation in 4042) [ClassicSimilarity], result of:
      0.10022382 = score(doc=4042,freq=2.0), product of:
        0.14706601 = queryWeight, product of:
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.028611459 = queryNorm
        0.68148863 = fieldWeight in 4042, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.09375 = fieldNorm(doc=4042)
  0.1 = coord(1/10)

Hausser, R.: Grundlagen der Computerlinguistik : Mensch-Maschine-Kommunikation in natürlicher Sprache; mit 772 Übungen (2000) 0.01
```
0.009449192 = product of:
  0.09449192 = sum of:
    0.09449192 = weight(_text_:kommunikation in 5352) [ClassicSimilarity], result of:
      0.09449192 = score(doc=5352,freq=4.0), product of:
        0.14706601 = queryWeight, product of:
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.028611459 = queryNorm
        0.64251363 = fieldWeight in 5352, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.0625 = fieldNorm(doc=5352)
  0.1 = coord(1/10)
```
Abstract

Die zentrale Aufgabe einer zukunftsorientierten Computerlinguistik ist die Entwicklung kognitiver Maschinen, mit denen Menschen in ihrer jeweiligen Sprache frei reden können. Für die natürlichsprachliche Kommunikation wird nicht nur Sprachverarbeitung, sondern auch nichtsprachliche Wahrnehmung und Handlung benötigt. Deshalb ist der Inhalt dieses Lehrbuchs als Sprachtheorie für die Konstruktion sprechender Roboter organisiert.

Bian, G.-W.; Chen, H.-H.: Cross-language information access to multilingual collections on the Internet (2000) 0.01

0.007264202 = product of:
  0.03632101 = sum of:
    0.028568096 = weight(_text_:web in 4436) [ClassicSimilarity], result of:
      0.028568096 = score(doc=4436,freq=4.0), product of:
        0.0933738 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.028611459 = queryNorm
        0.3059541 = fieldWeight in 4436, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.046875 = fieldNorm(doc=4436)
    0.0077529154 = product of:
      0.023258746 = sum of:
        0.023258746 = weight(_text_:22 in 4436) [ClassicSimilarity], result of:
          0.023258746 = score(doc=4436,freq=2.0), product of:
            0.10019246 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.028611459 = queryNorm
            0.23214069 = fieldWeight in 4436, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.046875 = fieldNorm(doc=4436)
      0.33333334 = coord(1/3)
  0.2 = coord(2/10)

Abstract: Language barrier is the major problem that people face in searching for, retrieving, and understanding multilingual collections on the Internet. This paper deals with query translation and document translation in a Chinese-English information retrieval system called MTIR. Bilingual dictionary and monolingual corpus-based approaches are adopted to select suitable tranlated query terms. A machine transliteration algorithm is introduced to resolve proper name searching. We consider several design issues for document translation, including which material is translated, what roles the HTML tags play in translation, what the tradeoff is between the speed performance and the translation performance, and what from the translated result is presented in. About 100.000 Web pages translated in the last 4 months of 1997 are used for quantitative study of online and real-time Web page translation
Date: 16. 2.2000 14:22:39

Melzer, C.: ¬Der Maschine anpassen : PC-Spracherkennung - Programme sind mittlerweile alltagsreif (2005) 0.01
```
0.006750896 = product of:
  0.03375448 = sum of:
    0.029231945 = weight(_text_:kommunikation in 4044) [ClassicSimilarity], result of:
      0.029231945 = score(doc=4044,freq=2.0), product of:
        0.14706601 = queryWeight, product of:
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.028611459 = queryNorm
        0.19876751 = fieldWeight in 4044, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.02734375 = fieldNorm(doc=4044)
    0.004522534 = product of:
      0.013567602 = sum of:
        0.013567602 = weight(_text_:22 in 4044) [ClassicSimilarity], result of:
          0.013567602 = score(doc=4044,freq=2.0), product of:
            0.10019246 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.028611459 = queryNorm
            0.1354154 = fieldWeight in 4044, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.02734375 = fieldNorm(doc=4044)
      0.33333334 = coord(1/3)
  0.2 = coord(2/10)
```
Content

"Der Spracherkennung am Computer schien vor wenigen Jahren die Zukunft zu gehören. Geradezu euphorisch waren viele Computernutzer, als sich auf den Bildschirmen die ersten gesprochenen Sätze als Text darstellten. Doch die Spracherkennung erwies sich als anfällig, die Nachbearbeitung nahm manchmal mehr Zeit in Anspruch als gespart wurde. Dabei ist die Kommunikation des Menschen mit der Maschine über die Tastatur eigentlich höchst kompliziert - selbst geübte Schreiber sprechen schneller als sie tippen. Deshalb hat sich inzwischen viel getan: Im Preis und in der Genauigkeit sind viele Spracherkennungsprogramme heute alltagsreif. Die besten Systeme kosten aber noch immer mehrere hundert Euro, die günstigsten weisen Lücken auf. Letztlich gilt: Respektable Ergebnisse sind erreichbar, wenn sich der Mensch der Maschine anpasst. Die Stiftung Warentest in Berlin hat die sechs gängigsten Systeme auf den Prüfstand gestellt. Die ersten Ergebnisse waren ernüchternd: Das deutlich gesprochene "Johann Wolfgang von Goethe" wurde als "Juan Wolf kann Mohnblüte", "Jaun Wolfgang von Göbel" oder "Johann-Wolfgang Wohngüte" geschrieben. Grundsätzlich gilt: Bei einem einfachen Basiswortschatz sind die Ergebnisse genau, sobald es etwas spezieller wird, wird die Software erfinderisch. "Zweiter Weltkrieg" kann dann zu "Zeit für Geld kriegt" werden. Doch ebenso wie der Nutzer lernt auch das System. Bei der Software ist Lernfähigkeit Standard. Ohnehin muss der Benutzer das System einrichten, indem er vorgegebene Texte liest. Dabei wird das Programm der Stimme und der Sprechgeschwindigkeit angepasst. Hier gilt, dass der Anwender deutlich, aber ganz normal vorlesen sollte. Wer akzentuiert und übertrieben betont, wird später mit ungenauen Ausgaben bestraft. Erkennt das System auch nach dem Training einzelne Wörter nicht, können sie nachträglich eingefügt werden. Gleiches gilt für kompliziertere Orts- oder Eigennamen. Wie gut das funktioniert, beweist ein Gegentest: Liest ein anderer den selben Text vor, sinkt das Erkennungsniveau rapide. Die beste Lernfähigkeit attestierten die Warentester dem System "Voice Pro 10" von linguatec. Das war das mit Abstand vielseitigste, mit fast 200 Euro jedoch auch das teuerste Programm.

Date

3. 5.1997 8:44:22
Khoo, C.S.G.; Dai, D.; Loh, T.E.: Using statistical and contextual information to identify two- and three-character words in Chinese text (2002) 0.01
```
0.006491486 = product of:
  0.06491486 = sum of:
    0.06491486 = weight(_text_:log in 5206) [ClassicSimilarity], result of:
      0.06491486 = score(doc=5206,freq=2.0), product of:
        0.18335998 = queryWeight, product of:
          6.4086204 = idf(docFreq=197, maxDocs=44218)
          0.028611459 = queryNorm
        0.3540296 = fieldWeight in 5206, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          6.4086204 = idf(docFreq=197, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5206)
  0.1 = coord(1/10)
```
Abstract

Khoo, Dai, and Loh examine new statistical methods for the identification of two and three character words in Chinese text. Some meaningful Chinese words are simple (independent units of one or more characters in a sentence that have independent meaning) but others are compounds of two or more simple words. In their segmentation they utilize the Modern Chinese Word Segmentation for Application of Information Processing, with some modifications to focus on meaningful words to do manual segmentation. About 37% of meaningful words are longer than 2 characters indicating a need to handle three and four character words. Four hundred sentences from news articles were manually broken into overlapping bi-grams and tri-grams. Using logistic regression, the log of the odds that such bi/tri-grams were meaningful words was calculated. Variables like relative frequency, document frequency, local frequency, and contextual and positional information, were incorporated in the model only if the concordance measure improved by at least 2% with their addition. For two- and three-character words relative frequency of adjacent characters and document frequency of overlapping bi-grams were found to be significant. Using measures of recall and precision where correct automatic segmentation is normalized either by manual segmentation or by automatic segmentation, the contextual information formula for 2 character words provides significantly better results than previous formulations and using both the 2 and 3 character formulations in combination significantly improves the 2 character results.
Yang, C.C.; Luk, J.: Automatic generation of English/Chinese thesaurus based on a parallel corpus in laws (2003) 0.01
```
0.0056180023 = product of:
  0.028090011 = sum of:
    0.023567477 = weight(_text_:web in 1616) [ClassicSimilarity], result of:
      0.023567477 = score(doc=1616,freq=8.0), product of:
        0.0933738 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.028611459 = queryNorm
        0.25239927 = fieldWeight in 1616, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.02734375 = fieldNorm(doc=1616)
    0.004522534 = product of:
      0.013567602 = sum of:
        0.013567602 = weight(_text_:22 in 1616) [ClassicSimilarity], result of:
          0.013567602 = score(doc=1616,freq=2.0), product of:
            0.10019246 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.028611459 = queryNorm
            0.1354154 = fieldWeight in 1616, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.02734375 = fieldNorm(doc=1616)
      0.33333334 = coord(1/3)
  0.2 = coord(2/10)
```
Abstract

The information available in languages other than English in the World Wide Web is increasing significantly. According to a report from Computer Economics in 1999, 54% of Internet users are English speakers ("English Will Dominate Web for Only Three More Years," Computer Economics, July 9, 1999, http://www.computereconomics. com/new4/pr/pr990610.html). However, it is predicted that there will be only 60% increase in Internet users among English speakers verses a 150% growth among nonEnglish speakers for the next five years. By 2005, 57% of Internet users will be non-English speakers. A report by CNN.com in 2000 showed that the number of Internet users in China had been increased from 8.9 million to 16.9 million from January to June in 2000 ("Report: China Internet users double to 17 million," CNN.com, July, 2000, http://cnn.org/2000/TECH/computing/07/27/ china.internet.reut/index.html). According to Nielsen/ NetRatings, there was a dramatic leap from 22.5 millions to 56.6 millions Internet users from 2001 to 2002. China had become the second largest global at-home Internet population in 2002 (US's Internet population was 166 millions) (Robyn Greenspan, "China Pulls Ahead of Japan," Internet.com, April 22, 2002, http://cyberatias.internet.com/big-picture/geographics/article/0,,5911_1013841,00. html). All of the evidences reveal the importance of crosslingual research to satisfy the needs in the near future. Digital library research has been focusing in structural and semantic interoperability in the past. Searching and retrieving objects across variations in protocols, formats and disciplines are widely explored (Schatz, B., & Chen, H. (1999). Digital libraries: technological advances and social impacts. IEEE Computer, Special Issue an Digital Libraries, February, 32(2), 45-50.; Chen, H., Yen, J., & Yang, C.C. (1999). International activities: development of Asian digital libraries. IEEE Computer, Special Issue an Digital Libraries, 32(2), 48-49.). However, research in crossing language boundaries, especially across European languages and Oriental languages, is still in the initial stage. In this proposal, we put our focus an cross-lingual semantic interoperability by developing automatic generation of a cross-lingual thesaurus based an English/Chinese parallel corpus. When the searchers encounter retrieval problems, Professional librarians usually consult the thesaurus to identify other relevant vocabularies. In the problem of searching across language boundaries, a cross-lingual thesaurus, which is generated by co-occurrence analysis and Hopfield network, can be used to generate additional semantically relevant terms that cannot be obtained from dictionary. In particular, the automatically generated cross-lingual thesaurus is able to capture the unknown words that do not exist in a dictionary, such as names of persons, organizations, and events. Due to Hong Kong's unique history background, both English and Chinese are used as official languages in all legal documents. Therefore, English/Chinese cross-lingual information retrieval is critical for applications in courts and the government. In this paper, we develop an automatic thesaurus by the Hopfield network based an a parallel corpus collected from the Web site of the Department of Justice of the Hong Kong Special Administrative Region (HKSAR) Government. Experiments are conducted to measure the precision and recall of the automatic generated English/Chinese thesaurus. The result Shows that such thesaurus is a promising tool to retrieve relevant terms, especially in the language that is not the same as the input term. The direct translation of the input term can also be retrieved in most of the cases.

Footnote

Teil eines Themenheftes: "Web retrieval and mining: A machine learning perspective"

Zhang, C.; Zeng, D.; Li, J.; Wang, F.-Y.; Zuo, W.: Sentiment analysis of Chinese documents : from sentence to document level (2009) 0.01

0.005604797 = product of:
  0.028023984 = sum of:
    0.020200694 = weight(_text_:web in 3296) [ClassicSimilarity], result of:
      0.020200694 = score(doc=3296,freq=2.0), product of:
        0.0933738 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.028611459 = queryNorm
        0.21634221 = fieldWeight in 3296, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.046875 = fieldNorm(doc=3296)
    0.007823291 = product of:
      0.023469873 = sum of:
        0.023469873 = weight(_text_:29 in 3296) [ClassicSimilarity], result of:
          0.023469873 = score(doc=3296,freq=2.0), product of:
            0.10064617 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.028611459 = queryNorm
            0.23319192 = fieldWeight in 3296, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.046875 = fieldNorm(doc=3296)
      0.33333334 = coord(1/3)
  0.2 = coord(2/10)

Abstract: User-generated content on the Web has become an extremely valuable source for mining and analyzing user opinions on any topic. Recent years have seen an increasing body of work investigating methods to recognize favorable and unfavorable sentiments toward specific subjects from online text. However, most of these efforts focus on English and there have been very few studies on sentiment analysis of Chinese content. This paper aims to address the unique challenges posed by Chinese sentiment analysis. We propose a rule-based approach including two phases: (1) determining each sentence's sentiment based on word dependency, and (2) aggregating sentences to predict the document sentiment. We report the results of an experimental study comparing our approach with three machine learning-based approaches using two sets of Chinese articles. These results illustrate the effectiveness of our proposed method and its advantages against learning-based approaches.
Date: 2. 2.2010 19:29:56

Kim, W.; Wilbur, W.J.: Corpus-based statistical screening for content-bearing terms (2001) 0.01
```
0.0051931893 = product of:
  0.05193189 = sum of:
    0.05193189 = weight(_text_:log in 5188) [ClassicSimilarity], result of:
      0.05193189 = score(doc=5188,freq=2.0), product of:
        0.18335998 = queryWeight, product of:
          6.4086204 = idf(docFreq=197, maxDocs=44218)
          0.028611459 = queryNorm
        0.2832237 = fieldWeight in 5188, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          6.4086204 = idf(docFreq=197, maxDocs=44218)
          0.03125 = fieldNorm(doc=5188)
  0.1 = coord(1/10)
```
Abstract

Kim and Wilber present three techniques for the algorithmic identification in text of content bearing terms and phrases intended for human use as entry points or hyperlinks. Using a set of 1,075 terms from MEDLINE evaluated on a zero to four, stop word to definite content word scale, they evaluate the ranked lists of their three methods based on their placement of content words in the top ranks. Data consist of the natural language elements of 304,057 MEDLINE records from 1996, and 173,252 Wall Street Journal records from the TIPSTER collection. Phrases are extracted by breaking at punctuation marks and stop words, normalized by lower casing, replacement of nonalphanumerics with spaces, and the reduction of multiple spaces. In the ``strength of context'' approach each document is a vector of binary values for each word or word pair. The words or word pairs are removed from all documents, and the Robertson, Spark Jones relevance weight for each term computed, negative weights replaced with zero, those below a randomness threshold ignored, and the remainder summed for each document, to yield a score for the document and finally to assign to the term the average document score for documents in which it occurred. The average of these word scores is assigned to the original phrase. The ``frequency clumping'' approach defines a random phrase as one whose distribution among documents is Poisson in character. A pvalue, the probability that a phrase frequency of occurrence would be equal to, or less than, Poisson expectations is computed, and a score assigned which is the negative log of that value. In the ``database comparison'' approach if a phrase occurring in a document allows prediction that the document is in MEDLINE rather that in the Wall Street Journal, it is considered to be content bearing for MEDLINE. The score is computed by dividing the number of occurrences of the term in MEDLINE by occurrences in the Journal, and taking the product of all these values. The one hundred top and bottom ranked phrases that occurred in at least 500 documents were collected for each method. The union set had 476 phrases. A second selection was made of two word phrases occurring each in only three documents with a union of 599 phrases. A judge then ranked the two sets of terms as to subject specificity on a 0 to 4 scale. Precision was the average subject specificity of the first r ranks and recall the fraction of the subject specific phrases in the first r ranks and eleven point average precision was used as a summary measure. The three methods all move content bearing terms forward in the lists as does the use of the sum of the logs of the three methods.
Rahmstorf, G.: Rückkehr von Ordnung in die Informationstechnik? (2000) 0.01
```
0.005011191 = product of:
  0.05011191 = sum of:
    0.05011191 = weight(_text_:kommunikation in 5504) [ClassicSimilarity], result of:
      0.05011191 = score(doc=5504,freq=2.0), product of:
        0.14706601 = queryWeight, product of:
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.028611459 = queryNorm
        0.34074432 = fieldWeight in 5504, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.046875 = fieldNorm(doc=5504)
  0.1 = coord(1/10)
```
Abstract

Im Zuge der aktuellen Informationstechnik, der weltweiten Kommunikation und des elektronischen Publizierens scheinen die herkömmlichen Instrumente der Ordnungsstiftung - bibliothekarische Klassifikationssysteme und Thesauren - an den Rand gedrängt zu werden oder sogar ganz zu verschwinden. Andererseits sind die Endbenutzer oft unzufrieden mit dem Ergebnis des Recherchierens im Bestand des unabsehbar wachsenden Informationsangebotes. Ist eine präzise und vollständige Recherche bei den gegebenen technischen und Ökonomischen Verhältnissen überhaupt noch realisierbar'?
Schmitz, K.-D.: Projektforschung und Infrastrukturen im Bereich der Terminologie : Wie kann die Wirtschaft davon profitieren? (2000) 0.01
```
0.005011191 = product of:
  0.05011191 = sum of:
    0.05011191 = weight(_text_:kommunikation in 5568) [ClassicSimilarity], result of:
      0.05011191 = score(doc=5568,freq=2.0), product of:
        0.14706601 = queryWeight, product of:
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.028611459 = queryNorm
        0.34074432 = fieldWeight in 5568, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.046875 = fieldNorm(doc=5568)
  0.1 = coord(1/10)
```
Abstract

In der heutigen Informationsgesellschaft bieten sich der Industrie neue Perspektiven für Kommunikation und Handel auf dem europäischen und internationalen Markt; beide Märkte sind von einer großen sprachlichen, kulturellen und gesellschaftlichen Vielfalt geprägt. Uni Nutzen aus diesen neuen Möglichkeiten zu ziehen und um weiterhin konkurrenzfähig zu bleiben, muß die Industrie spezifische und adäquate Lösungen zur Überwindung der Sprachbarrieren finden. Voraussetzung hierfür ist die genaue Definition, systematische Ordnung und exakte Benennung der Begriffe innerhalb der jeweiligen Fachgebiete, in der eigenen Sprache ebenso wie in den Fremdsprachen. Genau dies sind die Themenbereiche, mit dem sich die Terminologiewissenschaft und die praktische Temninologiearbeit beschäftigen. Die Ergebnisse der Terminologiearbeit im Unternehmen beeinflussen Konstruktion, Produktion, Einkauf, Marketing und Verkauf, Vertragswesen, technische Dokumentation und Übersetzung

Wagner, J.: Mensch - Computer - Interaktion : Sprachwissenschaftliche Aspekte (2002) 0.01

0.005011191 = product of:
  0.05011191 = sum of:
    0.05011191 = weight(_text_:kommunikation in 1102) [ClassicSimilarity], result of:
      0.05011191 = score(doc=1102,freq=2.0), product of:
        0.14706601 = queryWeight, product of:
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.028611459 = queryNorm
        0.34074432 = fieldWeight in 1102, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.046875 = fieldNorm(doc=1102)
  0.1 = coord(1/10)

Content: Aus dem Inhalt. Sprachliche Aspekte der MenschComputer-Interaktion - Interface-Sprache und Sprach-Design - Interaktion und Technik- Misslingende Kommunikation an der Mensch-Computer-Schnittstelle.

Susen, A.: Spracherkennung : Aktuelle Einsatzmöglichkeiten im Bereich der Telekommunikation (2000) 0.00
```
0.004175992 = product of:
  0.04175992 = sum of:
    0.04175992 = weight(_text_:kommunikation in 5555) [ClassicSimilarity], result of:
      0.04175992 = score(doc=5555,freq=2.0), product of:
        0.14706601 = queryWeight, product of:
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.028611459 = queryNorm
        0.28395358 = fieldWeight in 5555, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5555)
  0.1 = coord(1/10)
```
Abstract

Das Thema der Sprachverarbeitung und insbesondere der Spracherkennung erhitzt schon seit vielen Jahren die Gemüter der Forscher und der Entwickler. Schon zu Beginn des Coniputerzeitalters wurde prophezeit, daß auch der Computer bald menschliche Sprache verstehen wird. Dabei wurde aber die Leistung des Gehirns bei der Erkennung unterschätzt. Erst durch die Vervielfältigung von Speicherkapazität und Rechnergeschwindigkeit, wurden vor ca. 20 Jahren ernstzunehmende Verfahren entwickelt, die eine minimale Sprachbeherrschung ermöglichten. Inzwischen ist die Entwicklung soweit fortgeschritten, daß wir uns über Produkte unterhalten können, die schon im Markt eingeführt sind. Die wahrscheinlich bekanntesten Beispiele für den Einsatz von Spracherkennung sind, neben Diktiersystemen, die sogenannten Telefonsprachcomputer in Firmen, die den Anrufer ohne den Einsatz der klassischen Telefonzentrale mit der gewünschten Abteilung verbinden. Die Spracherkennung ist für die Telekommunikation von besonderer Bedeutung, da der Bereich der Kommunikation größten Veränderungen unterworfen ist. Die Menge der Informationen, welche täglich abrufbereit zur Verfügung steht, ist inzwischen schon so unübersehbar gross geworden, daß eine intelligente Organisation für den sinnvollen Umgang erforderlich ist. Brauchbare Inhalte können nur mit neuen Werkzeugen und weiteren Hilfsmitteln herausgefiltert und weiter verarbeitet werden. Verschiedene bekannte Variationen können hier nur kurzfristigen Erfolg bringen, z.B. die erhöhte Erreichbarkeit durch Mobilfunk. Bei genauer Betrachtung der Einsatzmöglichkeiten von Spracherkennung in der Telekommunikation ist es zunächst erforderlich, den Userkreis genauer zu definieren. Eine erste Unterteilung ergibt der Einsatz im privaten oder geschäftlichen Bereich
Erbach, G.: Sprachdialogsysteme für Telefondienste : Stand der Technik und zukünftige Entwicklungen (2000) 0.00
```
0.004175992 = product of:
  0.04175992 = sum of:
    0.04175992 = weight(_text_:kommunikation in 5556) [ClassicSimilarity], result of:
      0.04175992 = score(doc=5556,freq=2.0), product of:
        0.14706601 = queryWeight, product of:
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.028611459 = queryNorm
        0.28395358 = fieldWeight in 5556, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.140109 = idf(docFreq=703, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5556)
  0.1 = coord(1/10)
```
Abstract

Trotz des ungebrernsten Wachstums des Internet wird das Telefon auch weiterhin eines der wichtigsten Medien für die Kommunikation zwischen Unternehmen und ihren Kunden bleiben. Die Bedeutung der gesprochenen Sprache wird durch die rasante Verbreitung von Mobiltelefonen noch verstärkt. Fast alle großen Unternehmen betreiben oder beauftragen Call Centers, um ihren Kunden telefonisch zu Diensten zu stehen. Oft sind Call Centers mit sogenannten IVR-Systemen (Interactive Voice Response) ausgestattet, die dem Benutzer eine eingeschränkte Menüauswahl über die Telefontasten oder eine rudimentäre Spracheingabe bieten. Diese Art der Eingabe wird aber bei mehr als fünf Wahlmöglichkeiten als lästig empfunden. Hier bietet sich ein großes Potenzial für automatische Spracherkennung und Sprachdialogsysteme. In diesem Artikel werden die technischen Grundlagen sowie die derzeitigen Möglichkeiten und Grenzen der automatischen Spracherkennungstechnologie dargestellt. Wir berichten über Erfahrungen mit einem System für telefonische Posttarifauskünfte, das am Forschungszentrum Telekommunikation Wien (FTW) in Zusammenarbeit mit Philips Speech Processing und der Österreichischen Post AG realisiert und erprobt wurde. Der Stand der Technik in Sprachausgabe und Sprechererkennung wird kurz dargestellt. Zum Abschluss wird ein Ausblick auf die Rolle von Sprachdialogen in zukünftigen mobilen Multirnedia-Anwendungen gegeben

Search (77 results, page 1 of 4)

Authors

Languages

Types

Themes

Subjects

Classifications