Search (5 results, page 1 of 1)

  • × author_ss:"Strötgen, R."
  1. Strötgen, R.; Kokkelink, S.: Metadatenextraktion aus Internetquellen : Heterogenitätsbehandlung im Projekt CARMEN (2001) 0.02
    0.01620115 = product of:
      0.09720689 = sum of:
        0.07501655 = weight(_text_:verteilte in 5808) [ClassicSimilarity], result of:
          0.07501655 = score(doc=5808,freq=2.0), product of:
            0.21036641 = queryWeight, product of:
              6.45514 = idf(docFreq=188, maxDocs=44218)
              0.032588977 = queryNorm
            0.35659945 = fieldWeight in 5808, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              6.45514 = idf(docFreq=188, maxDocs=44218)
              0.0390625 = fieldNorm(doc=5808)
        0.022190342 = weight(_text_:internet in 5808) [ClassicSimilarity], result of:
          0.022190342 = score(doc=5808,freq=4.0), product of:
            0.09621047 = queryWeight, product of:
              2.9522398 = idf(docFreq=6276, maxDocs=44218)
              0.032588977 = queryNorm
            0.23064373 = fieldWeight in 5808, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.9522398 = idf(docFreq=6276, maxDocs=44218)
              0.0390625 = fieldNorm(doc=5808)
      0.16666667 = coord(2/12)
    
    Abstract
    Die Sonderfördermaßnahme CARMEN (Content Analysis, Retrieval and Metadata: Effective Networking) zielt im Rahmen des vom BMB+F geförderten Programms GLOBAL INFO darauf ab, in der heutigen dezentralen Informationsweit geeignete Informationssysteme für die verteilten Datenbestände in Bibliotheken, Fachinformationszentren und im Internet zu schaffen. Diese Zusammenführung ist weniger technisch als inhaltlich und konzeptuell problematisch. Heterogenität tritt beispielsweise auf, wenn unterschiedliche Datenbestände zur Inhaltserschließung verschiedene Thesauri oder Klassifikationen benutzen, wenn Metadaten unterschiedlich oder überhaupt nicht erfasst werden oder wenn intellektuell aufgearbeitete Quellen mit in der Regel vollständig unerschlossenen Internetdokumenten zusammentreffen. Im Projekt CARMEN wird dieses Problem mit mehreren Methoden angegangen: Über deduktiv-heuristische Verfahren werden Metadaten automatisch aus Dokumenten generiert, außerdem lassen sich mit statistisch-quantitativen Methoden die unterschiedlichen Verwendungen von Termen in den verschiedenen Beständen aufeinander abbilden, und intellektuell erstellte Crosskonkordanzen schaffen sichere Übergänge von einer Dokumentationssprache in eine andere. Für die Extraktion von Metadaten gemäß Dublin Core (v. a. Autor, Titel, Institution, Abstract, Schlagworte) werden anhand typischer Dokumente (Dissertationen aus Math-Net im PostScript-Format und verschiedenste HTML-Dateien von WWW-Servern deutscher sozialwissenschaftlicher Institutionen) Heuristiken entwickelt. Die jeweilige Wahrscheinlichkeit, dass die so gewonnenen Metadaten korrekt und vertrauenswürdig sind, wird über Gewichte den einzelnen Daten zugeordnet. Die Heuristiken werden iterativ in ein Extraktionswerkzeug implementiert, getestet und verbessert, um die Zuverlässigkeit der Verfahren zu erhöhen. Derzeit werden an der Universität Osnabrück und im InformationsZentrum Sozialwissenschaften Bonn anhand mathematischer und sozialwissenschaftlicher Datenbestände erste Prototypen derartiger Transfermodule erstellt
    Theme
    Internet
    Verteilte bibliographische Datenbanken
  2. Hellweg, H.; Krause, J.; Mandl, T.; Marx, J.; Müller, M.N.O.; Mutschke, P.; Strötgen, R.: Treatment of semantic heterogeneity in information retrieval (2001) 0.01
    0.010002207 = product of:
      0.120026484 = sum of:
        0.120026484 = weight(_text_:verteilte in 6560) [ClassicSimilarity], result of:
          0.120026484 = score(doc=6560,freq=2.0), product of:
            0.21036641 = queryWeight, product of:
              6.45514 = idf(docFreq=188, maxDocs=44218)
              0.032588977 = queryNorm
            0.57055914 = fieldWeight in 6560, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              6.45514 = idf(docFreq=188, maxDocs=44218)
              0.0625 = fieldNorm(doc=6560)
      0.083333336 = coord(1/12)
    
    Theme
    Verteilte bibliographische Datenbanken
  3. Strötgen, R.; Mandl, T.; Schneider, R.: Entwicklung und Evaluierung eines Question Answering Systems im Rahmen des Cross Language Evaluation Forum (CLEF) (2006) 0.01
    0.0051553287 = product of:
      0.061863944 = sum of:
        0.061863944 = weight(_text_:systeme in 5981) [ClassicSimilarity], result of:
          0.061863944 = score(doc=5981,freq=2.0), product of:
            0.17439179 = queryWeight, product of:
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.032588977 = queryNorm
            0.35474116 = fieldWeight in 5981, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.046875 = fieldNorm(doc=5981)
      0.083333336 = coord(1/12)
    
    Abstract
    Question Answering Systeme versuchen, zu konkreten Fragen eine korrekte Antwort zu liefern. Dazu durchsuchen sie einen Dokumentenbestand und extrahieren einen Bruchteil eines Dokuments. Dieser Beitrag beschreibt die Entwicklung eines modularen Systems zum multilingualen Question Answering. Die Strategie bei der Entwicklung zielte auf eine schnellstmögliche Verwendbarkeit eines modularen Systems, das auf viele frei verfügbare Ressourcen zugreift. Das System integriert Module zur Erkennung von Eigennamen, zu Indexierung und Retrieval, elektronische Wörterbücher, Online-Übersetzungswerkzeuge sowie Textkorpora zu Trainings- und Testzwecken und implementiert eigene Ansätze zu den Bereichen der Frage- und AntwortTaxonomien, zum Passagenretrieval und zum Ranking alternativer Antworten.
  4. Strötgen, R.: Anfragetransfers zur Integration von Internetquellen in Digitalen Bibliotheken auf der Grundlage statistischer Termrelationen (2007) 0.00
    0.0034368858 = product of:
      0.04124263 = sum of:
        0.04124263 = weight(_text_:systeme in 588) [ClassicSimilarity], result of:
          0.04124263 = score(doc=588,freq=2.0), product of:
            0.17439179 = queryWeight, product of:
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.032588977 = queryNorm
            0.2364941 = fieldWeight in 588, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.3512506 = idf(docFreq=569, maxDocs=44218)
              0.03125 = fieldNorm(doc=588)
      0.083333336 = coord(1/12)
    
    Abstract
    In Digitalen Bibliotheken als integrierten Zugängen zu in der Regel mehreren verschiedenen Dokumentsammlungen tritt Heterogenität in vielerlei Spielarten auf: - als technische Heterogenität durch das Zusammenspiel verschiedener Betriebs-, Datenbank- oder Softwaresysteme, - als strukturelle Heterogenität durch das Auftreten verschiedener Dokumentstrukturen und Metadaten-Standards und schließlich - als semantische Heterogenität, wenn Dokumente mit Hilfe unterschiedlicher Ontologien (hier verwendet im weiteren Sinn von Dokumentationssprachen wie Thesauri und Klassifikationen) erschlossen wurden oder aber Dokumente überhaupt nicht mit Metadaten ausgezeichnet wurden. Semantische Heterogenität lässt sich behandeln, indem die Standardisierung von Metadaten (z.B. von der Dublin Core Metadata Initiative oder das Resource Description Framework (RDF) im Kontext des Semantic Web) vorangetrieben und ihre Verwendung gefördert wird. Allerdings besteht auf Grund der unterschiedlichen Interessen aller beteiligten Partner (u.a. Bibliotheken, Dokumentationsstellen, Datenbankproduzenten, "freie" Anbieter von Dokumentsammlungen und Datenbanken) kaum die Aussicht, dass sich durch diese Standardisierung semantische Heterogenität restlos beseitigen lässt. Insbesondere ist eine einheitliche Verwendung von Vokabularen und Ontologien nicht in Sicht. Im Projekt CARMEN wurde unter anderem das Problem der semantischen Heterogenität einerseits durch die automatische Extraktion von Metadaten aus Internetdokumenten und andererseits durch Systeme zur Transformation von Anfragen über Cross-Konkordanzen und statistisch erzeugte Relationen angegangen. Ein Teil der Ergebnisse der Arbeiten am IZ Sozialwissenschaften waren statistische Relationen zwischen Deskriptoren, die mittels Kookurrenzbeziehungen berechnet wurden. Diese Relationen wurden dann für die Übersetzung von Anfragen genutzt, um zwischen verschiedenen Ontologien oder auch Freitexttermen zu vermitteln. Das Ziel dieser Übersetzung ist die Verbesserung des (automatischen) Überstiegs zwischen unterschiedlich erschlossenen Dokumentbeständen, z.B. Fachdatenbanken und Internetdokumenten, als Lösungsansatz zur Behandlung semantischer Heterogenität.
  5. Strötgen, R.: Treatment of semantic heterogeneity using meta-data extraction and query translation (2002) 0.00
    0.0018306099 = product of:
      0.021967318 = sum of:
        0.021967318 = weight(_text_:internet in 3595) [ClassicSimilarity], result of:
          0.021967318 = score(doc=3595,freq=2.0), product of:
            0.09621047 = queryWeight, product of:
              2.9522398 = idf(docFreq=6276, maxDocs=44218)
              0.032588977 = queryNorm
            0.22832564 = fieldWeight in 3595, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.9522398 = idf(docFreq=6276, maxDocs=44218)
              0.0546875 = fieldNorm(doc=3595)
      0.083333336 = coord(1/12)
    
    Abstract
    The project CARMEN ("Content Analysis, Retrieval and Metadata: Effective Networking") aimed - among other goals - at improving the expansion of searches in bibliographic databases into Internet searches. We pursued a set of different approaches to the treatment of semantic heterogeneity (meta-data extraction, query translation using statistic relations and Cross-concordances). This paper describes the concepts and implementation of these approaches and the evaluation of the impact for the retrieval result.