Search (8 results, page 1 of 1)

  • × author_ss:"Lepsky, K."
  • × theme_ss:"Automatisches Indexieren"
  1. Lepsky, K.; Vorhauer, J.: Lingo - ein open source System für die Automatische Indexierung deutschsprachiger Dokumente (2006) 0.05
    0.05149707 = product of:
      0.10299414 = sum of:
        0.012957836 = weight(_text_:information in 3581) [ClassicSimilarity], result of:
          0.012957836 = score(doc=3581,freq=2.0), product of:
            0.08351069 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.047571484 = queryNorm
            0.1551638 = fieldWeight in 3581, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.0625 = fieldNorm(doc=3581)
        0.0900363 = sum of:
          0.038474064 = weight(_text_:retrieval in 3581) [ClassicSimilarity], result of:
            0.038474064 = score(doc=3581,freq=2.0), product of:
              0.1438997 = queryWeight, product of:
                3.024915 = idf(docFreq=5836, maxDocs=44218)
                0.047571484 = queryNorm
              0.26736724 = fieldWeight in 3581, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                3.024915 = idf(docFreq=5836, maxDocs=44218)
                0.0625 = fieldNorm(doc=3581)
          0.051562235 = weight(_text_:22 in 3581) [ClassicSimilarity], result of:
            0.051562235 = score(doc=3581,freq=2.0), product of:
              0.16658723 = queryWeight, product of:
                3.5018296 = idf(docFreq=3622, maxDocs=44218)
                0.047571484 = queryNorm
              0.30952093 = fieldWeight in 3581, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                3.5018296 = idf(docFreq=3622, maxDocs=44218)
                0.0625 = fieldNorm(doc=3581)
      0.5 = coord(2/4)
    
    Abstract
    Lingo ist ein frei verfügbares System (open source) zur automatischen Indexierung der deutschen Sprache. Bei der Entwicklung von lingo standen hohe Konfigurierbarkeit und Flexibilität des Systems für unterschiedliche Einsatzmöglichkeiten im Vordergrund. Der Beitrag zeigt den Nutzen einer linguistisch basierten automatischen Indexierung für das Information Retrieval auf. Die für eine Retrievalverbesserung zur Verfügung stehende linguistische Funktionalität von lingo wird vorgestellt und an Beispielen erläutert: Grundformerkennung, Kompositumerkennung bzw. Kompositumzerlegung, Wortrelationierung, lexikalische und algorithmische Mehrwortgruppenerkennung, OCR-Fehlerkorrektur. Der offene Systemaufbau von lingo wird beschrieben, mögliche Einsatzszenarien und Anwendungsgrenzen werden benannt.
    Date
    24. 3.2006 12:22:02
  2. Lepsky, K.; Müller, T.; Wille, J.: Metadata improvement for image information retrieval (2010) 0.02
    0.019919557 = product of:
      0.039839115 = sum of:
        0.016034503 = weight(_text_:information in 4995) [ClassicSimilarity], result of:
          0.016034503 = score(doc=4995,freq=4.0), product of:
            0.08351069 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.047571484 = queryNorm
            0.1920054 = fieldWeight in 4995, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.0546875 = fieldNorm(doc=4995)
        0.023804612 = product of:
          0.047609225 = sum of:
            0.047609225 = weight(_text_:retrieval in 4995) [ClassicSimilarity], result of:
              0.047609225 = score(doc=4995,freq=4.0), product of:
                0.1438997 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.047571484 = queryNorm
                0.33085006 = fieldWeight in 4995, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=4995)
          0.5 = coord(1/2)
      0.5 = coord(2/4)
    
    Abstract
    This paper discusses the goals and results of the research project Perseus-a as an attempt to improve information retrieval of digital images by automatically connecting them with text-based descriptions. The development uses the image collection of prometheus, the distributed digital image archive for research and studies, the articles of the digitized Reallexikon zur Deutschen Kunstgeschichte, art historical terminological resources and classification data, and an open source system for linguistic and statistic automatic indexing called lingo.
  3. Gödert, W.; Lepsky, K.: Semantische Umfeldsuche im Information Retrieval (1998) 0.02
    0.01757136 = product of:
      0.03514272 = sum of:
        0.011338106 = weight(_text_:information in 606) [ClassicSimilarity], result of:
          0.011338106 = score(doc=606,freq=2.0), product of:
            0.08351069 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.047571484 = queryNorm
            0.13576832 = fieldWeight in 606, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.0546875 = fieldNorm(doc=606)
        0.023804612 = product of:
          0.047609225 = sum of:
            0.047609225 = weight(_text_:retrieval in 606) [ClassicSimilarity], result of:
              0.047609225 = score(doc=606,freq=4.0), product of:
                0.1438997 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.047571484 = queryNorm
                0.33085006 = fieldWeight in 606, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=606)
          0.5 = coord(1/2)
      0.5 = coord(2/4)
    
    Theme
    Semantisches Umfeld in Indexierung u. Retrieval
  4. Lepsky, K.; Siepmann, J.; Zimmermann, A.: Automatische Indexierung für Online-Kataloge : Ergebnisse eines Retrievaltests (1996) 0.01
    0.014085256 = product of:
      0.028170511 = sum of:
        0.011338106 = weight(_text_:information in 3251) [ClassicSimilarity], result of:
          0.011338106 = score(doc=3251,freq=2.0), product of:
            0.08351069 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.047571484 = queryNorm
            0.13576832 = fieldWeight in 3251, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.0546875 = fieldNorm(doc=3251)
        0.016832404 = product of:
          0.033664808 = sum of:
            0.033664808 = weight(_text_:retrieval in 3251) [ClassicSimilarity], result of:
              0.033664808 = score(doc=3251,freq=2.0), product of:
                0.1438997 = queryWeight, product of:
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.047571484 = queryNorm
                0.23394634 = fieldWeight in 3251, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.024915 = idf(docFreq=5836, maxDocs=44218)
                  0.0546875 = fieldNorm(doc=3251)
          0.5 = coord(1/2)
      0.5 = coord(2/4)
    
    Abstract
    Examines the effectiveness of automated indexing and presents the results of a study of information retrieval from a segment (40.000 items) of the ULB Düsseldorf database. The segment was selected randomly and all the documents included were indexed automatically. The search topics included 50 subject areas ranging from economic growth to alternative energy sources. While there were 876 relevant documents in the database segment for each of the 50 search topics, the recall ranged from 1 to 244 references, with the average being 17.52 documents per topic. Therefore it seems that, in the immediate future, automatic indexing should be used in combination with intellectual indexing
  5. Lepsky, K.: Automatische Indexierung (2012) 0.01
    0.006478918 = product of:
      0.025915671 = sum of:
        0.025915671 = weight(_text_:information in 442) [ClassicSimilarity], result of:
          0.025915671 = score(doc=442,freq=2.0), product of:
            0.08351069 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.047571484 = queryNorm
            0.3103276 = fieldWeight in 442, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.125 = fieldNorm(doc=442)
      0.25 = coord(1/4)
    
    Source
    Grundlagen der praktischen Information und Dokumentation. 6. Aufl
  6. Lepsky, K.: Automatische Indexierung (2013) 0.00
    0.0040493235 = product of:
      0.016197294 = sum of:
        0.016197294 = weight(_text_:information in 720) [ClassicSimilarity], result of:
          0.016197294 = score(doc=720,freq=2.0), product of:
            0.08351069 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.047571484 = queryNorm
            0.19395474 = fieldWeight in 720, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.078125 = fieldNorm(doc=720)
      0.25 = coord(1/4)
    
    Source
    Grundlagen der praktischen Information und Dokumentation. Handbuch zur Einführung in die Informationswissenschaft und -praxis. 6., völlig neu gefaßte Ausgabe. Hrsg. von R. Kuhlen, W. Semar u. D. Strauch. Begründet von Klaus Laisiepen, Ernst Lutterbeck, Karl-Heinrich Meyer-Uhlenried
  7. Lepsky, K.: Automatische Indexierung zur Erschließung deutschsprachiger Dokumente (1999) 0.00
    0.003239459 = product of:
      0.012957836 = sum of:
        0.012957836 = weight(_text_:information in 4656) [ClassicSimilarity], result of:
          0.012957836 = score(doc=4656,freq=2.0), product of:
            0.08351069 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.047571484 = queryNorm
            0.1551638 = fieldWeight in 4656, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.0625 = fieldNorm(doc=4656)
      0.25 = coord(1/4)
    
    Source
    nfd Information - Wissenschaft und Praxis. 50(1999) H.6, S.325-330
  8. Lepsky, K.: Automatische Indexierung des Reallexikons zur Deutschen Kunstgeschichte (2006) 0.00
    0.003169097 = product of:
      0.012676388 = sum of:
        0.012676388 = weight(_text_:information in 6080) [ClassicSimilarity], result of:
          0.012676388 = score(doc=6080,freq=10.0), product of:
            0.08351069 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.047571484 = queryNorm
            0.1517936 = fieldWeight in 6080, product of:
              3.1622777 = tf(freq=10.0), with freq of:
                10.0 = termFreq=10.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.02734375 = fieldNorm(doc=6080)
      0.25 = coord(1/4)
    
    Abstract
    Digitalisierungsvorhaben sorgen für eine immer größere Verfügbarkeit von Inhalten bislang ausschließlich gedruckt vorliegender Werke, zunehmend auch von ganzen Büchern. Projekte wie "Google Print" versprechen die völlige elektronische Verfügbarkeit von Informationen nahezu unabhängig von Zeit und Ort und sorgen dafür, dass die Hüter der konventionellen Information, die Bibliotheken, in Angst und Schrecken versetzt werden angesichts des befürchteten Verlusts ihrer traditionellen Rolle. Die Debatte kreist dabei eher selten um die Frage, welcher Nutzen sich konkret aus dem elektronischen Volltext ergibt: Der Nutzen steht schlichtweg außer Frage, Volltexte gelten prinzipiell als nützlich. Das ist insofern zu optimistisch, als die reine Verfügbarkeit von Information noch lange nicht fir deren sinnvolle Verwertung sorgt - die bloße Verfügbarkeit des Volltexts von Kants "Kritik der reinen Vernunft" enthebt nicht der Notwendigkeit, das Werk zu lesen und verstehen zu wollen. Lesen wird man besser auch nicht am Bildschirm sondern in der (neu-deutsch) "PrintAusgabe". Elektronische Volltexte von Büchern dienen nicht der Lektüre. Falls ihr Sinn nicht ohnehin ein rein verkaufsfördernder ist (das "Publishers Program" von Google Print erweckt in der Tat diesen Eindruck), bleibt ihr potenzieller Nutzen als Nachschlageinstrument. Nur der Volltext bietet die Möglichkeit, Informationen in einem Werk zu finden, die nicht explizit erschlossen wurden, durch ein Inhaltsverzeichnis etwa oder, eine noch günstigere Ausgangslage, durch ein Sachregister. Allerdings sind die meisten Werke nicht für einen solchen Zweck verfasst worden, d.h. es ist nicht zu erwarten, dass ein Werk über die "Geschichte des Römischen Reiches" im Volltextzugriff zu einem Lexikon zur Geschichte des Römischen Reiches wird. Entspricht also die hinter Google Print und zahllosen anderen Digitalisierungsinitiativen stehende Auffassung einem doch sehr naiven Bild von der Nützlichkeit gedruckter Information?
    Seriöse Information darf erwarten, wer renommierte Nachschlagewerke befragt. Zumindest für die über die Primärordnung (Stichwort/Lemma) erschlossenen Sachverhalte ist für Buchausgaben ein gezielter Zugriff möglich, Verweisungen zwischen Artikeln sorgen für weitere Einstiege. Anzunehmen ist, dass sich der Nutzen von Nachschlagewerken in elektronischer Form noch deutlich erhöhen lässt: Produkte wie z.B. "Brockhaus multimedial" oder "Encyclopedia Britannica" sorgen mit leistungsfähigen Techniken über den wahlfreien Volltextzugriff hinaus für zahlreiche Navigations- und Recherchemöglichkeiten. Es liegt daher nahe, über eine Digitalisierung konventionell vorliegender Nachschlagewerke auch deren Anwendung zu verbessern, die im Print möglichen Zugriffsmöglichkeiten deutlich zu erweitern. Beispiele für diesen Ansatz sind die Digitalisierung der "Oekonomischen Encyklopädie" von Johann Georg Krünitz, die mit hohem Aufwand nicht maschinell (Scanning und OCR) sondern manuell realisiert wurde oder auch die im "Projekt Runeberg' , vorgenommenen zahlreichen Digitalisierungen u.a. auch von Nachschlagewerken. Ob die einfache Volltextindexierung derartig umfangreicher und - weil bereits als Nachschlagewerk konzipiert - gleichzeitig extrem verdichteter Quellen für einen größtmöglichen Nutzen der elektronischen Version ausreicht, darf zu Recht bezweifelt werden. In kommerziellen Produkten sorgen daher zusätzliche Techniken für einerseits thematisch gezielte Zugriffe auch über Nicht-Stichwörter, andererseits für Querverbindungen zu möglicherweise weiteren Artikeln von Interesse ("Wissensnetz" des Brockhaus, "Knowledge Navigator" der Britannica). Es darf angenommen werden, dass derartige Techniken dabei auf Informationen aufsetzen können (Strukturierung der Artikel, gekennzeichnete (getaggte) Personennamen, Querverweise etc.), die in den zu verarbeitenden Artikeln in nutzbarer Form vorliegen. Für digitalisierte Druckausgaben kommen derartige Verfahren nicht in Frage, weil lediglich flache, noch dazu in der Regel mit OCR-Fehlern behaftete Texte vorliegen. Die Zugriffsmöglichkeiten bewegen sich daher zwischen der 1:1-Umsetzung der Druckausgabe, d.h. dem Primärzugriff über Stichwort, und der Volltextsuche auf den vollständigen Lexikontext. Beides ist angesichts der im elektronischen Volltext liegenden Möglichkeiten sicher nicht die Methode der Wahl. Für die Digitalisierung des "Reallexikons zur Deutschen Kunstgeschichte" im Rahmen des von der Deutschen Forschungsgemeinschaft geförderten Projekts "RDKWeb" wird daher versucht, mit den Mitteln der Automatischen Indexierung eine Lösung zu erzielen, die über eine reine Volltextsuchmöglichkeit hinaus Suchunterstützungen bietet, die sich an den Fähigkeiten kommerzieller Produkte orientieren (nicht messen!).
    Source
    Information und Sprache: Beiträge zu Informationswissenschaft, Computerlinguistik, Bibliothekswesen und verwandten Fächern. Festschrift für Harald H. Zimmermann. Herausgegeben von Ilse Harms, Heinz-Dirk Luckhardt und Hans W. Giessen