Document (#31275)

Author: Parschik, T.
Title: Durchführung von Digitalisierungsprojekten in Bibliotheken
Source: Bibliotheksdienst. 40(2006) H.12, S.1421-1443
Year: 2006
Abstract: Der vorliegende Artikel entstand auf Grundlage einer Diplomarbeit, in der ein Konzept für ein Digitalisierungsprojekt im Ibero-Amerikanischen Institut entwickelt wurde. Das Institut plant die Digitalisierung einiger Sammlungen lateinamerikanischer Volksliteratur und Grafik. Auch wenn die Entwicklung momentan noch im Fluss ist, sollen im nachfolgenden Artikel für Digitalisierungsprojekte wichtige Aspekte wie Vorgänge, Techniken und Standards vorgestellt werden, allerdings unter Ausklammerung der umfassenden Themenkomplexe Metadaten und Präsentation der fertigen Ergebnisse im Internet.
Content: Darin: "6. Erschließung der Digitalisate Die Digitalisate sollten formal und inhaltlich erschlossen werden. Die formale Erschließung erfolgt i.d.R. nach den RAK-WB, v.a. wenn die Digitalisate im Bibliothekskatalog recherchierbar sein sollen. Die inhaltliche Erschließung trägt zur Schaffung eines Mehrwertes bei. Schon eine einfache inhaltliche Erschließung durch Vergabe von Suchkriterien erleichtert den Überblick über die Bestände zu einem bestimmten Thema. Eine sehr tiefgehende Form der Erschließung ist der Einsatz automatischer Texterkennung, der es möglich macht, mittels Volltextsuche große Bestandsmengen innerhalb von Sekunden auch nach nicht indexierten Begriffen zu durchsuchen. Der Mehrwert wächst mit dem Grad der Erschließung.` Man unterscheidet Digitalisate mit kodierten Informationen (Coded Information, CI) und Digitalisate mit nicht kodierten Informationen (Non Coded Information, NCI). Bei kodierten Digitalisaten ist jedes Schriftzeichen mit einem Code abgespeichert, der dem PC eine Interpretation ermöglicht. Speicherung im Volltext ermöglicht eine Volltextsuche. Für Text- und Metadaten haben sich XML-basierte Datenformate durchgesetzt, wobei von der DFG die Ausprägung METS (Metadata Encoding and Transmission Standard) empfohlen wird. Nicht kodierte Bild-Informationen können zum Beispiel in TIFF, JPG oder PDF vorliegen. Solche Digitalisate können vom PC nicht interpretiert werden." (S.1435)
6.1 Manuelle Indexierung Die qualitativ höchstwertige Erschließung ist die manuell vorgenommene Indexierung. Sie setzt ein inhaltliches Verständnis des digitalisierten Dokuments voraus. Dabei muss eine Indexierungssprache angewendet werden, in der die relevanten Inhalte des zu erschließenden Dokuments wiedergegeben werden." Das "DFGFörderprogramm retrospektive Digitalisierung" vertritt die Auffassung, dass die inhaltliche Erschließung der Digitalisate finanziell nachrangig zu behandeln sei. In einigen US-amerikanischen Digitalisierungsprojekten wurde ein Zeitraum von 15 Minuten für die manuelle Erschließung eines Dokumentes veranschlagt. (S.1436) 6.2 Automatische Schrifterkennung Eine preiswerte Erschließungsmöglichkeit bietet der Einsatz von Automatischer Schrifterkennung (Optical Character Recognition, OCR). Es handelt sich hierbei um ein automatisches Verfahren, das mittels Mustererkennung bildlich vorliegende alphanumerische Zeichen in codierte Daten umwandelt. (S.1436) ... 6.3 Statistische Indexierungsverfahren Statistische Indexierungsverfahren gehen davon aus, dass die Häufigkeit des Auftretens eines Wortes in einem Dokument Aufschluss über die Signifikanz desselben gibt (Zipfsches Gesetz). Ein Begriff, der in einem zu erschließenden Dokument häufig, im Gesamtbestand der Dokumente selten vorkommt, ist von inhaltlicher Relevanz. Ein Begriff, der in einem Dokument häufig und auch im Gesamtbestand der Dokumente häufig auftritt, ist nicht von inhaltlicher Relevanz. Da nicht alle Worte sinntragend und daher als Indexterme geeignet sind, muss eine Indexterminologie erstellt werden, in die nur geeignete Terme aufgenommen werden. Indexterme haben verschiedene Wertigkeiten. Folglich muss eine Gewichtung vorgenommen werden. (S.1438)
6.4 Linguistische Indexierungsverfahren Linguistische Verfahren können Flexionsformen erkennen (Maskulinum, Femininum, Neutrum, Singular, Plural). Eine Rechtschreibprüfung ermöglicht das Auffinden eines Begriffs auch bei falscher oder abweichender Schreibung bei der Recherche oder im digitalen Dokument. Man unterscheidet folgende Fehlerarten: - die Auslassung eines Zeichens, das in den Begriff gehört - die Einfügung eines Zeichens, das nicht in den Begriff gehört - die Substitution, also die Ersetzung eines Zeichens, das in den Begriff gehört, durch ein anderes Zeichen, das nicht in den Begriff gehört - die Vertauschung von Zeichen in ihrer Reihenfolge. Bei der syntaktischen Analyse werden Begriffe auf ihre Grundformen reduziert. Für jeden Begriff muss festgelegt werden, wie weit er reduziert werden soll. Wird der Stamm zu weit belassen, können bei der Recherche viele irrelevante Treffer angezeigt werden (Overstemming). Wird der Stamm zu knapp bemessen, werden evtl. relevante Dokumente nicht gefunden (Understemming). Zudem dient die syntaktische Analyse der Erkennung von Homographen, indem sie Mehrwortgruppen erkennt. Vor der Anwendung eines syntaktischen Verfahrens muss ein Wörterbuch erarbeitet werden. Informationslinguistische Indexsysteme werden in regelbasierte und wörterbuchbasierte Verfahren eingeteilt. Bei ersteren muss ein Regelwerk erstellt werden. Alle in den digitalisierten Dokumenten auftretenden Wörter werden gemäß diesem Regelwerk analysiert und bearbeitet. Dieses Verfahren ist fehlerbehaftet. Das regelbasierte Verfahren ist mit einem verhältnismäßig geringen Aufwand verbunden, da hierbei nicht jeder relevante Begriff einzeln bearbeitet wird. Wörterbuchbasierte Verfahren sind sehr zuverlässig. Sprachliche Unregelmäßigkeiten werden ausgeglichen. Die Erarbeitung von Wörterbüchern ist extrem arbeits-, zeit- und kostenaufwendig. Außerdem orientiert sich ein Wörterbuch zumeist an aktuellen sprachlichen und orthografischen Regelungen und erkennt alte Formen nicht. Morphologische Verfahren basieren auf den Gesetzmäßigkeiten von Wortstrukturen und der Bildung von Wortklassen. Man unterscheidet Flexionsmorphologie und Derivationsmorphologie. Bei der Flexionsmorphologie werden Wörter umgewandelt, um grammatikalische Kontraste innerhalb von Satzkonstruktionen auszudrücken. Die Derivationsmorphologie befasst sich mit Grundprinzipien der Konstruktion neuer Wörter." (S.1439)

Similar documents (content)

Mensing, P.: Beispielhafter Vergleich und Analyse online verfügbarer digitaler Bilddatenbanken aus dem Bereich der Pomologie (2010) 0.12

0.11589886 = sum of:
  0.11589886 = product of:
    0.48291194 = sum of:
      0.047639254 = weight(abstract_txt:metadaten in 3579) [ClassicSimilarity], result of:
        0.047639254 = score(doc=3579,freq=1.0), product of:
          0.119031504 = queryWeight, product of:
            1.0349226 = boost
            6.4035826 = idf(docFreq=198, maxDocs=44218)
            0.017961022 = queryNorm
          0.4002239 = fieldWeight in 3579, product of:
            1.0 = tf(freq=1.0), with freq of:
              1.0 = termFreq=1.0
            6.4035826 = idf(docFreq=198, maxDocs=44218)
            0.0625 = fieldNorm(doc=3579)
      0.053436615 = weight(abstract_txt:digitalisierung in 3579) [ClassicSimilarity], result of:
        0.053436615 = score(doc=3579,freq=1.0), product of:
          0.1285024 = queryWeight, product of:
            1.0753071 = boost
            6.653462 = idf(docFreq=154, maxDocs=44218)
            0.017961022 = queryNorm
          0.41584137 = fieldWeight in 3579, product of:
            1.0 = tf(freq=1.0), with freq of:
              1.0 = termFreq=1.0
            6.653462 = idf(docFreq=154, maxDocs=44218)
            0.0625 = fieldNorm(doc=3579)
      0.06028115 = weight(abstract_txt:umfassenden in 3579) [ClassicSimilarity], result of:
        0.06028115 = score(doc=3579,freq=1.0), product of:
          0.13925356 = queryWeight, product of:
            1.1193864 = boost
            6.926203 = idf(docFreq=117, maxDocs=44218)
            0.017961022 = queryNorm
          0.43288767 = fieldWeight in 3579, product of:
            1.0 = tf(freq=1.0), with freq of:
              1.0 = termFreq=1.0
            6.926203 = idf(docFreq=117, maxDocs=44218)
            0.0625 = fieldNorm(doc=3579)
      0.09350929 = weight(abstract_txt:präsentation in 3579) [ClassicSimilarity], result of:
        0.09350929 = score(doc=3579,freq=2.0), product of:
          0.14810798 = queryWeight, product of:
            1.1544261 = boost
            7.14301 = idf(docFreq=94, maxDocs=44218)
            0.017961022 = queryNorm
          0.63135886 = fieldWeight in 3579, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            7.14301 = idf(docFreq=94, maxDocs=44218)
            0.0625 = fieldNorm(doc=3579)
      0.072513394 = weight(abstract_txt:durchführung in 3579) [ClassicSimilarity], result of:
        0.072513394 = score(doc=3579,freq=1.0), product of:
          0.15750612 = queryWeight, product of:
            1.1904896 = boost
            7.3661537 = idf(docFreq=75, maxDocs=44218)
            0.017961022 = queryNorm
          0.4603846 = fieldWeight in 3579, product of:
            1.0 = tf(freq=1.0), with freq of:
              1.0 = termFreq=1.0
            7.3661537 = idf(docFreq=75, maxDocs=44218)
            0.0625 = fieldNorm(doc=3579)
      0.15553223 = weight(abstract_txt:digitalisierungsprojekten in 3579) [ClassicSimilarity], result of:
        0.15553223 = score(doc=3579,freq=1.0), product of:
          0.26195833 = queryWeight, product of:
            1.5352992 = boost
            9.499662 = idf(docFreq=8, maxDocs=44218)
            0.017961022 = queryNorm
          0.5937289 = fieldWeight in 3579, product of:
            1.0 = tf(freq=1.0), with freq of:
              1.0 = termFreq=1.0
            9.499662 = idf(docFreq=8, maxDocs=44218)
            0.0625 = fieldNorm(doc=3579)
    0.24 = coord(6/25)

Mühlberger, G.: Digitalisierung historischer Zeitungen aus dem Blickwinkel der automatisierten Text- und Strukturerkennung (OCR) (2011) 0.08

0.083424784 = sum of:
  0.083424784 = product of:
    0.5214049 = sum of:
      0.080154926 = weight(abstract_txt:digitalisierung in 4383) [ClassicSimilarity], result of:
        0.080154926 = score(doc=4383,freq=1.0), product of:
          0.1285024 = queryWeight, product of:
            1.0753071 = boost
            6.653462 = idf(docFreq=154, maxDocs=44218)
            0.017961022 = queryNorm
          0.6237621 = fieldWeight in 4383, product of:
            1.0 = tf(freq=1.0), with freq of:
              1.0 = termFreq=1.0
            6.653462 = idf(docFreq=154, maxDocs=44218)
            0.09375 = fieldNorm(doc=4383)
      0.09918158 = weight(abstract_txt:präsentation in 4383) [ClassicSimilarity], result of:
        0.09918158 = score(doc=4383,freq=1.0), product of:
          0.14810798 = queryWeight, product of:
            1.1544261 = boost
            7.14301 = idf(docFreq=94, maxDocs=44218)
            0.017961022 = queryNorm
          0.66965723 = fieldWeight in 4383, product of:
            1.0 = tf(freq=1.0), with freq of:
              1.0 = termFreq=1.0
            7.14301 = idf(docFreq=94, maxDocs=44218)
            0.09375 = fieldNorm(doc=4383)
      0.108770095 = weight(abstract_txt:durchführung in 4383) [ClassicSimilarity], result of:
        0.108770095 = score(doc=4383,freq=1.0), product of:
          0.15750612 = queryWeight, product of:
            1.1904896 = boost
            7.3661537 = idf(docFreq=75, maxDocs=44218)
            0.017961022 = queryNorm
          0.6905769 = fieldWeight in 4383, product of:
            1.0 = tf(freq=1.0), with freq of:
              1.0 = termFreq=1.0
            7.3661537 = idf(docFreq=75, maxDocs=44218)
            0.09375 = fieldNorm(doc=4383)
      0.23329835 = weight(abstract_txt:digitalisierungsprojekten in 4383) [ClassicSimilarity], result of:
        0.23329835 = score(doc=4383,freq=1.0), product of:
          0.26195833 = queryWeight, product of:
            1.5352992 = boost
            9.499662 = idf(docFreq=8, maxDocs=44218)
            0.017961022 = queryNorm
          0.89059335 = fieldWeight in 4383, product of:
            1.0 = tf(freq=1.0), with freq of:
              1.0 = termFreq=1.0
            9.499662 = idf(docFreq=8, maxDocs=44218)
            0.09375 = fieldNorm(doc=4383)
    0.16 = coord(4/25)

Rauch, W.; Schlögl, C.: Informationswissenschaft in Österreich (2009) 0.07

0.07265283 = sum of:
  0.07265283 = product of:
    0.45408022 = sum of:
      0.0537219 = weight(abstract_txt:konzept in 2767) [ClassicSimilarity], result of:
        0.0537219 = score(doc=2767,freq=1.0), product of:
          0.11113381 = queryWeight, product of:
            6.187499 = idf(docFreq=246, maxDocs=44218)
            0.017961022 = queryNorm
          0.48339838 = fieldWeight in 2767, product of:
            1.0 = tf(freq=1.0), with freq of:
              1.0 = termFreq=1.0
            6.187499 = idf(docFreq=246, maxDocs=44218)
            0.078125 = fieldNorm(doc=2767)
      0.085336804 = weight(abstract_txt:amerikanischen in 2767) [ClassicSimilarity], result of:
        0.085336804 = score(doc=2767,freq=1.0), product of:
          0.15129904 = queryWeight, product of:
            1.1667962 = boost
            7.2195506 = idf(docFreq=87, maxDocs=44218)
            0.017961022 = queryNorm
          0.56402737 = fieldWeight in 2767, product of:
            1.0 = tf(freq=1.0), with freq of:
              1.0 = termFreq=1.0
            7.2195506 = idf(docFreq=87, maxDocs=44218)
            0.078125 = fieldNorm(doc=2767)
      0.10031357 = weight(abstract_txt:entstand in 2767) [ClassicSimilarity], result of:
        0.10031357 = score(doc=2767,freq=1.0), product of:
          0.16852011 = queryWeight, product of:
            1.2314103 = boost
            7.61935 = idf(docFreq=58, maxDocs=44218)
            0.017961022 = queryNorm
          0.5952617 = fieldWeight in 2767, product of:
            1.0 = tf(freq=1.0), with freq of:
              1.0 = termFreq=1.0
            7.61935 = idf(docFreq=58, maxDocs=44218)
            0.078125 = fieldNorm(doc=2767)
      0.21470793 = weight(abstract_txt:institut in 2767) [ClassicSimilarity], result of:
        0.21470793 = score(doc=2767,freq=2.0), product of:
          0.2798835 = queryWeight, product of:
            2.2442982 = boost
            6.943297 = idf(docFreq=115, maxDocs=44218)
            0.017961022 = queryNorm
          0.7671332 = fieldWeight in 2767, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            6.943297 = idf(docFreq=115, maxDocs=44218)
            0.078125 = fieldNorm(doc=2767)
    0.16 = coord(4/25)

Holzner, S.: FIZ Wirtschaft - das Portal der Wirtschaftswissenschaften : Standard Thesaurus Wirtschaft als Basis für Wortschatzsynchronisierung (2001) 0.07

0.070440024 = sum of:
  0.070440024 = product of:
    0.44025016 = sum of:
      0.05954907 = weight(abstract_txt:wichtige in 5886) [ClassicSimilarity], result of:
        0.05954907 = score(doc=5886,freq=1.0), product of:
          0.119031504 = queryWeight, product of:
            1.0349226 = boost
            6.4035826 = idf(docFreq=198, maxDocs=44218)
            0.017961022 = queryNorm
          0.5002799 = fieldWeight in 5886, product of:
            1.0 = tf(freq=1.0), with freq of:
              1.0 = termFreq=1.0
            6.4035826 = idf(docFreq=198, maxDocs=44218)
            0.078125 = fieldNorm(doc=5886)
      0.07535143 = weight(abstract_txt:umfassenden in 5886) [ClassicSimilarity], result of:
        0.07535143 = score(doc=5886,freq=1.0), product of:
          0.13925356 = queryWeight, product of:
            1.1193864 = boost
            6.926203 = idf(docFreq=117, maxDocs=44218)
            0.017961022 = queryNorm
          0.54110956 = fieldWeight in 5886, product of:
            1.0 = tf(freq=1.0), with freq of:
              1.0 = termFreq=1.0
            6.926203 = idf(docFreq=117, maxDocs=44218)
            0.078125 = fieldNorm(doc=5886)
      0.090641744 = weight(abstract_txt:durchführung in 5886) [ClassicSimilarity], result of:
        0.090641744 = score(doc=5886,freq=1.0), product of:
          0.15750612 = queryWeight, product of:
            1.1904896 = boost
            7.3661537 = idf(docFreq=75, maxDocs=44218)
            0.017961022 = queryNorm
          0.57548076 = fieldWeight in 5886, product of:
            1.0 = tf(freq=1.0), with freq of:
              1.0 = termFreq=1.0
            7.3661537 = idf(docFreq=75, maxDocs=44218)
            0.078125 = fieldNorm(doc=5886)
      0.21470793 = weight(abstract_txt:institut in 5886) [ClassicSimilarity], result of:
        0.21470793 = score(doc=5886,freq=2.0), product of:
          0.2798835 = queryWeight, product of:
            2.2442982 = boost
            6.943297 = idf(docFreq=115, maxDocs=44218)
            0.017961022 = queryNorm
          0.7671332 = fieldWeight in 5886, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            6.943297 = idf(docFreq=115, maxDocs=44218)
            0.078125 = fieldNorm(doc=5886)
    0.16 = coord(4/25)

Fabian, C.: Anreicherung, Ausbau und internationale Vernetzung : zur Fortführung des Verzeichnisses der im deutschen Sprachbereich erschienenen Drucke des 16. Jahrhunderts (VD 16) (2010) 0.07

0.06561019 = sum of:
  0.06561019 = product of:
    0.5467516 = sum of:
      0.080154926 = weight(abstract_txt:digitalisierung in 4382) [ClassicSimilarity], result of:
        0.080154926 = score(doc=4382,freq=1.0), product of:
          0.1285024 = queryWeight, product of:
            1.0753071 = boost
            6.653462 = idf(docFreq=154, maxDocs=44218)
            0.017961022 = queryNorm
          0.6237621 = fieldWeight in 4382, product of:
            1.0 = tf(freq=1.0), with freq of:
              1.0 = termFreq=1.0
            6.653462 = idf(docFreq=154, maxDocs=44218)
            0.09375 = fieldNorm(doc=4382)
      0.23329835 = weight(abstract_txt:digitalisierungsprojekte in 4382) [ClassicSimilarity], result of:
        0.23329835 = score(doc=4382,freq=1.0), product of:
          0.26195833 = queryWeight, product of:
            1.5352992 = boost
            9.499662 = idf(docFreq=8, maxDocs=44218)
            0.017961022 = queryNorm
          0.89059335 = fieldWeight in 4382, product of:
            1.0 = tf(freq=1.0), with freq of:
              1.0 = termFreq=1.0
            9.499662 = idf(docFreq=8, maxDocs=44218)
            0.09375 = fieldNorm(doc=4382)
      0.23329835 = weight(abstract_txt:digitalisierungsprojekten in 4382) [ClassicSimilarity], result of:
        0.23329835 = score(doc=4382,freq=1.0), product of:
          0.26195833 = queryWeight, product of:
            1.5352992 = boost
            9.499662 = idf(docFreq=8, maxDocs=44218)
            0.017961022 = queryNorm
          0.89059335 = fieldWeight in 4382, product of:
            1.0 = tf(freq=1.0), with freq of:
              1.0 = termFreq=1.0
            9.499662 = idf(docFreq=8, maxDocs=44218)
            0.09375 = fieldNorm(doc=4382)
    0.12 = coord(3/25)