Search (3 results, page 1 of 1)

  • × author_ss:"Lepsky, K."
  • × language_ss:"d"
  • × theme_ss:"Automatisches Indexieren"
  • × year_i:[2000 TO 2010}
  1. Lepsky, K.; Vorhauer, J.: Lingo - ein open source System für die Automatische Indexierung deutschsprachiger Dokumente (2006) 0.02
    0.01569825 = product of:
      0.039245624 = sum of:
        0.02620616 = weight(_text_:den in 3581) [ClassicSimilarity], result of:
          0.02620616 = score(doc=3581,freq=2.0), product of:
            0.10344325 = queryWeight, product of:
              2.866198 = idf(docFreq=6840, maxDocs=44218)
              0.036090754 = queryNorm
            0.25333852 = fieldWeight in 3581, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.866198 = idf(docFreq=6840, maxDocs=44218)
              0.0625 = fieldNorm(doc=3581)
        0.013039465 = product of:
          0.039118394 = sum of:
            0.039118394 = weight(_text_:22 in 3581) [ClassicSimilarity], result of:
              0.039118394 = score(doc=3581,freq=2.0), product of:
                0.12638368 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.036090754 = queryNorm
                0.30952093 = fieldWeight in 3581, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.0625 = fieldNorm(doc=3581)
          0.33333334 = coord(1/3)
      0.4 = coord(2/5)
    
    Abstract
    Lingo ist ein frei verfügbares System (open source) zur automatischen Indexierung der deutschen Sprache. Bei der Entwicklung von lingo standen hohe Konfigurierbarkeit und Flexibilität des Systems für unterschiedliche Einsatzmöglichkeiten im Vordergrund. Der Beitrag zeigt den Nutzen einer linguistisch basierten automatischen Indexierung für das Information Retrieval auf. Die für eine Retrievalverbesserung zur Verfügung stehende linguistische Funktionalität von lingo wird vorgestellt und an Beispielen erläutert: Grundformerkennung, Kompositumerkennung bzw. Kompositumzerlegung, Wortrelationierung, lexikalische und algorithmische Mehrwortgruppenerkennung, OCR-Fehlerkorrektur. Der offene Systemaufbau von lingo wird beschrieben, mögliche Einsatzszenarien und Anwendungsgrenzen werden benannt.
    Date
    24. 3.2006 12:22:02
  2. Lepsky, K.; Zimmermann, H.H.: Katalogerweiterung durch Scanning und automatische Dokumenterschließung : Ergebnisse des DFG-Projekts KASCADE (2000) 0.01
    0.0074122213 = product of:
      0.037061106 = sum of:
        0.037061106 = weight(_text_:den in 4966) [ClassicSimilarity], result of:
          0.037061106 = score(doc=4966,freq=4.0), product of:
            0.10344325 = queryWeight, product of:
              2.866198 = idf(docFreq=6840, maxDocs=44218)
              0.036090754 = queryNorm
            0.35827476 = fieldWeight in 4966, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.866198 = idf(docFreq=6840, maxDocs=44218)
              0.0625 = fieldNorm(doc=4966)
      0.2 = coord(1/5)
    
    Abstract
    Der Beitrag befasst sich mit den Zielen, Inhalten und Ergebnissen des von der DFG geförderten Projekts KASCADE. Für KASCADE wurden Katalogdaten aus dem Fachbereich Rechtswissenschafft um Inhaltsverzeichnisse angereichert. Die angereicherten Titeldaten wurden mit einem erweiterten MILOS-Verfahren automatisch indexiert sowie mit den beiden linguistisch und statistisch basierten Verfahren SELIX und THEAS zusätzlich erschlossen. In einem umfangreichen Retrievaltest wurden die Ergebnisse der automatischen Indexierung und Gewichtung untersucht
  3. Lepsky, K.: Automatische Indexierung des Reallexikons zur Deutschen Kunstgeschichte (2006) 0.01
    0.005127391 = product of:
      0.025636954 = sum of:
        0.025636954 = weight(_text_:den in 6080) [ClassicSimilarity], result of:
          0.025636954 = score(doc=6080,freq=10.0), product of:
            0.10344325 = queryWeight, product of:
              2.866198 = idf(docFreq=6840, maxDocs=44218)
              0.036090754 = queryNorm
            0.24783593 = fieldWeight in 6080, product of:
              3.1622777 = tf(freq=10.0), with freq of:
                10.0 = termFreq=10.0
              2.866198 = idf(docFreq=6840, maxDocs=44218)
              0.02734375 = fieldNorm(doc=6080)
      0.2 = coord(1/5)
    
    Abstract
    Seriöse Information darf erwarten, wer renommierte Nachschlagewerke befragt. Zumindest für die über die Primärordnung (Stichwort/Lemma) erschlossenen Sachverhalte ist für Buchausgaben ein gezielter Zugriff möglich, Verweisungen zwischen Artikeln sorgen für weitere Einstiege. Anzunehmen ist, dass sich der Nutzen von Nachschlagewerken in elektronischer Form noch deutlich erhöhen lässt: Produkte wie z.B. "Brockhaus multimedial" oder "Encyclopedia Britannica" sorgen mit leistungsfähigen Techniken über den wahlfreien Volltextzugriff hinaus für zahlreiche Navigations- und Recherchemöglichkeiten. Es liegt daher nahe, über eine Digitalisierung konventionell vorliegender Nachschlagewerke auch deren Anwendung zu verbessern, die im Print möglichen Zugriffsmöglichkeiten deutlich zu erweitern. Beispiele für diesen Ansatz sind die Digitalisierung der "Oekonomischen Encyklopädie" von Johann Georg Krünitz, die mit hohem Aufwand nicht maschinell (Scanning und OCR) sondern manuell realisiert wurde oder auch die im "Projekt Runeberg' , vorgenommenen zahlreichen Digitalisierungen u.a. auch von Nachschlagewerken. Ob die einfache Volltextindexierung derartig umfangreicher und - weil bereits als Nachschlagewerk konzipiert - gleichzeitig extrem verdichteter Quellen für einen größtmöglichen Nutzen der elektronischen Version ausreicht, darf zu Recht bezweifelt werden. In kommerziellen Produkten sorgen daher zusätzliche Techniken für einerseits thematisch gezielte Zugriffe auch über Nicht-Stichwörter, andererseits für Querverbindungen zu möglicherweise weiteren Artikeln von Interesse ("Wissensnetz" des Brockhaus, "Knowledge Navigator" der Britannica). Es darf angenommen werden, dass derartige Techniken dabei auf Informationen aufsetzen können (Strukturierung der Artikel, gekennzeichnete (getaggte) Personennamen, Querverweise etc.), die in den zu verarbeitenden Artikeln in nutzbarer Form vorliegen. Für digitalisierte Druckausgaben kommen derartige Verfahren nicht in Frage, weil lediglich flache, noch dazu in der Regel mit OCR-Fehlern behaftete Texte vorliegen. Die Zugriffsmöglichkeiten bewegen sich daher zwischen der 1:1-Umsetzung der Druckausgabe, d.h. dem Primärzugriff über Stichwort, und der Volltextsuche auf den vollständigen Lexikontext. Beides ist angesichts der im elektronischen Volltext liegenden Möglichkeiten sicher nicht die Methode der Wahl. Für die Digitalisierung des "Reallexikons zur Deutschen Kunstgeschichte" im Rahmen des von der Deutschen Forschungsgemeinschaft geförderten Projekts "RDKWeb" wird daher versucht, mit den Mitteln der Automatischen Indexierung eine Lösung zu erzielen, die über eine reine Volltextsuchmöglichkeit hinaus Suchunterstützungen bietet, die sich an den Fähigkeiten kommerzieller Produkte orientieren (nicht messen!).