Search (5 results, page 1 of 1)

  • × author_ss:"Lepsky, K."
  • × theme_ss:"Automatisches Indexieren"
  • × type_ss:"a"
  1. Lepsky, K.; Vorhauer, J.: Lingo - ein open source System für die Automatische Indexierung deutschsprachiger Dokumente (2006) 0.01
    0.014089733 = product of:
      0.049314063 = sum of:
        0.029683663 = product of:
          0.07420915 = sum of:
            0.029295133 = weight(_text_:retrieval in 3581) [ClassicSimilarity], result of:
              0.029295133 = score(doc=3581,freq=2.0), product of:
                0.109568894 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.03622214 = queryNorm
                0.26736724 = fieldWeight in 3581, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.0625 = fieldNorm(doc=3581)
            0.044914022 = weight(_text_:system in 3581) [ClassicSimilarity], result of:
              0.044914022 = score(doc=3581,freq=4.0), product of:
                0.11408355 = queryWeight, product of:
                  3.1495528 = idf(docFreq=5152, maxDocs=44218)
                  0.03622214 = queryNorm
                0.3936941 = fieldWeight in 3581, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  3.1495528 = idf(docFreq=5152, maxDocs=44218)
                  0.0625 = fieldNorm(doc=3581)
          0.4 = coord(2/5)
        0.0196304 = product of:
          0.0392608 = sum of:
            0.0392608 = weight(_text_:22 in 3581) [ClassicSimilarity], result of:
              0.0392608 = score(doc=3581,freq=2.0), product of:
                0.12684377 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.03622214 = queryNorm
                0.30952093 = fieldWeight in 3581, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.0625 = fieldNorm(doc=3581)
          0.5 = coord(1/2)
      0.2857143 = coord(2/7)
    
    Abstract
    Lingo ist ein frei verfügbares System (open source) zur automatischen Indexierung der deutschen Sprache. Bei der Entwicklung von lingo standen hohe Konfigurierbarkeit und Flexibilität des Systems für unterschiedliche Einsatzmöglichkeiten im Vordergrund. Der Beitrag zeigt den Nutzen einer linguistisch basierten automatischen Indexierung für das Information Retrieval auf. Die für eine Retrievalverbesserung zur Verfügung stehende linguistische Funktionalität von lingo wird vorgestellt und an Beispielen erläutert: Grundformerkennung, Kompositumerkennung bzw. Kompositumzerlegung, Wortrelationierung, lexikalische und algorithmische Mehrwortgruppenerkennung, OCR-Fehlerkorrektur. Der offene Systemaufbau von lingo wird beschrieben, mögliche Einsatzszenarien und Anwendungsgrenzen werden benannt.
    Date
    24. 3.2006 12:22:02
  2. Lepsky, K.; Müller, T.; Wille, J.: Metadata improvement for image information retrieval (2010) 0.00
    0.0036594293 = product of:
      0.025616003 = sum of:
        0.025616003 = product of:
          0.064040005 = sum of:
            0.036250874 = weight(_text_:retrieval in 4995) [ClassicSimilarity], result of:
              0.036250874 = score(doc=4995,freq=4.0), product of:
                0.109568894 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.03622214 = queryNorm
                0.33085006 = fieldWeight in 4995, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=4995)
            0.027789133 = weight(_text_:system in 4995) [ClassicSimilarity], result of:
              0.027789133 = score(doc=4995,freq=2.0), product of:
                0.11408355 = queryWeight, product of:
                  3.1495528 = idf(docFreq=5152, maxDocs=44218)
                  0.03622214 = queryNorm
                0.2435858 = fieldWeight in 4995, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.1495528 = idf(docFreq=5152, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=4995)
          0.4 = coord(2/5)
      0.14285715 = coord(1/7)
    
    Abstract
    This paper discusses the goals and results of the research project Perseus-a as an attempt to improve information retrieval of digital images by automatically connecting them with text-based descriptions. The development uses the image collection of prometheus, the distributed digital image archive for research and studies, the articles of the digitized Reallexikon zur Deutschen Kunstgeschichte, art historical terminological resources and classification data, and an open source system for linguistic and statistic automatic indexing called lingo.
  3. Lepsky, K.: Automatische Indexierung des Reallexikons zur Deutschen Kunstgeschichte (2006) 0.00
    0.0035581833 = product of:
      0.024907282 = sum of:
        0.024907282 = product of:
          0.049814563 = sum of:
            0.049814563 = weight(_text_:zugriff in 6080) [ClassicSimilarity], result of:
              0.049814563 = score(doc=6080,freq=2.0), product of:
                0.2160124 = queryWeight, product of:
                  5.963546 = idf(docFreq=308, maxDocs=44218)
                  0.03622214 = queryNorm
                0.23060973 = fieldWeight in 6080, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  5.963546 = idf(docFreq=308, maxDocs=44218)
                  0.02734375 = fieldNorm(doc=6080)
          0.5 = coord(1/2)
      0.14285715 = coord(1/7)
    
    Abstract
    Seriöse Information darf erwarten, wer renommierte Nachschlagewerke befragt. Zumindest für die über die Primärordnung (Stichwort/Lemma) erschlossenen Sachverhalte ist für Buchausgaben ein gezielter Zugriff möglich, Verweisungen zwischen Artikeln sorgen für weitere Einstiege. Anzunehmen ist, dass sich der Nutzen von Nachschlagewerken in elektronischer Form noch deutlich erhöhen lässt: Produkte wie z.B. "Brockhaus multimedial" oder "Encyclopedia Britannica" sorgen mit leistungsfähigen Techniken über den wahlfreien Volltextzugriff hinaus für zahlreiche Navigations- und Recherchemöglichkeiten. Es liegt daher nahe, über eine Digitalisierung konventionell vorliegender Nachschlagewerke auch deren Anwendung zu verbessern, die im Print möglichen Zugriffsmöglichkeiten deutlich zu erweitern. Beispiele für diesen Ansatz sind die Digitalisierung der "Oekonomischen Encyklopädie" von Johann Georg Krünitz, die mit hohem Aufwand nicht maschinell (Scanning und OCR) sondern manuell realisiert wurde oder auch die im "Projekt Runeberg' , vorgenommenen zahlreichen Digitalisierungen u.a. auch von Nachschlagewerken. Ob die einfache Volltextindexierung derartig umfangreicher und - weil bereits als Nachschlagewerk konzipiert - gleichzeitig extrem verdichteter Quellen für einen größtmöglichen Nutzen der elektronischen Version ausreicht, darf zu Recht bezweifelt werden. In kommerziellen Produkten sorgen daher zusätzliche Techniken für einerseits thematisch gezielte Zugriffe auch über Nicht-Stichwörter, andererseits für Querverbindungen zu möglicherweise weiteren Artikeln von Interesse ("Wissensnetz" des Brockhaus, "Knowledge Navigator" der Britannica). Es darf angenommen werden, dass derartige Techniken dabei auf Informationen aufsetzen können (Strukturierung der Artikel, gekennzeichnete (getaggte) Personennamen, Querverweise etc.), die in den zu verarbeitenden Artikeln in nutzbarer Form vorliegen. Für digitalisierte Druckausgaben kommen derartige Verfahren nicht in Frage, weil lediglich flache, noch dazu in der Regel mit OCR-Fehlern behaftete Texte vorliegen. Die Zugriffsmöglichkeiten bewegen sich daher zwischen der 1:1-Umsetzung der Druckausgabe, d.h. dem Primärzugriff über Stichwort, und der Volltextsuche auf den vollständigen Lexikontext. Beides ist angesichts der im elektronischen Volltext liegenden Möglichkeiten sicher nicht die Methode der Wahl. Für die Digitalisierung des "Reallexikons zur Deutschen Kunstgeschichte" im Rahmen des von der Deutschen Forschungsgemeinschaft geförderten Projekts "RDKWeb" wird daher versucht, mit den Mitteln der Automatischen Indexierung eine Lösung zu erzielen, die über eine reine Volltextsuchmöglichkeit hinaus Suchunterstützungen bietet, die sich an den Fähigkeiten kommerzieller Produkte orientieren (nicht messen!).
  4. Gödert, W.; Lepsky, K.: Semantische Umfeldsuche im Information Retrieval (1998) 0.00
    0.0010357393 = product of:
      0.007250175 = sum of:
        0.007250175 = product of:
          0.036250874 = sum of:
            0.036250874 = weight(_text_:retrieval in 606) [ClassicSimilarity], result of:
              0.036250874 = score(doc=606,freq=4.0), product of:
                0.109568894 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.03622214 = queryNorm
                0.33085006 = fieldWeight in 606, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=606)
          0.2 = coord(1/5)
      0.14285715 = coord(1/7)
    
    Theme
    Semantisches Umfeld in Indexierung u. Retrieval
  5. Lepsky, K.; Siepmann, J.; Zimmermann, A.: Automatische Indexierung für Online-Kataloge : Ergebnisse eines Retrievaltests (1996) 0.00
    7.323784E-4 = product of:
      0.0051266486 = sum of:
        0.0051266486 = product of:
          0.025633242 = sum of:
            0.025633242 = weight(_text_:retrieval in 3251) [ClassicSimilarity], result of:
              0.025633242 = score(doc=3251,freq=2.0), product of:
                0.109568894 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.03622214 = queryNorm
                0.23394634 = fieldWeight in 3251, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=3251)
          0.2 = coord(1/5)
      0.14285715 = coord(1/7)
    
    Abstract
    Examines the effectiveness of automated indexing and presents the results of a study of information retrieval from a segment (40.000 items) of the ULB Düsseldorf database. The segment was selected randomly and all the documents included were indexed automatically. The search topics included 50 subject areas ranging from economic growth to alternative energy sources. While there were 876 relevant documents in the database segment for each of the 50 search topics, the recall ranged from 1 to 244 references, with the average being 17.52 documents per topic. Therefore it seems that, in the immediate future, automatic indexing should be used in combination with intellectual indexing