Search (94 results, page 1 of 5)

Wulf, F.: Bilder im Online-Zugriff : Datenbanktechnik für Bildagenturen (1994) 0.06

0.06488761 = product of:
  0.09733142 = sum of:
    0.06306415 = weight(_text_:im in 4832) [ClassicSimilarity], result of:
      0.06306415 = score(doc=4832,freq=2.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.4372462 = fieldWeight in 4832, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.109375 = fieldNorm(doc=4832)
    0.034267273 = product of:
      0.102801815 = sum of:
        0.102801815 = weight(_text_:online in 4832) [ClassicSimilarity], result of:
          0.102801815 = score(doc=4832,freq=4.0), product of:
            0.1548489 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.051022716 = queryNorm
            0.6638847 = fieldWeight in 4832, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.109375 = fieldNorm(doc=4832)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)

Source: Information und Medienvielfalt: 16. Online-Tagung der DGD, Frankfurt am Main, 17.-19.5.1994. Proceedings. Hrsg.: W. Neubauer u. R. Schmidt

Großmann, K.; Schaaf, T.: Datenbankbasiertes Dokumentenmanagementsystem im Versuchswesen (2001) 0.06
```
0.064314276 = product of:
  0.096471414 = sum of:
    0.054054987 = weight(_text_:im in 5868) [ClassicSimilarity], result of:
      0.054054987 = score(doc=5868,freq=18.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.37478244 = fieldWeight in 5868, product of:
          4.2426405 = tf(freq=18.0), with freq of:
            18.0 = termFreq=18.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.03125 = fieldNorm(doc=5868)
    0.042416424 = product of:
      0.063624635 = sum of:
        0.035973143 = weight(_text_:online in 5868) [ClassicSimilarity], result of:
          0.035973143 = score(doc=5868,freq=6.0), product of:
            0.1548489 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.051022716 = queryNorm
            0.23231125 = fieldWeight in 5868, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.03125 = fieldNorm(doc=5868)
        0.027651496 = weight(_text_:22 in 5868) [ClassicSimilarity], result of:
          0.027651496 = score(doc=5868,freq=2.0), product of:
            0.17867287 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.051022716 = queryNorm
            0.15476047 = fieldWeight in 5868, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.03125 = fieldNorm(doc=5868)
      0.6666667 = coord(2/3)
  0.6666667 = coord(2/3)
```
Abstract

Die Agrarproduktion wird in sehr komplexer Weise durch einen steten Wandel ihrer ökono-mischen und ökologischen Rahmenbedingungen beeinflusst. Aus diesem Prozess resultieren ständig neue Anforderungen an die Agrarforschung. Bei den Forschungs- und Untersuchungsarbeiten in der Pflanzen- und Tierproduktion, im Gartenbau und im Forstwesen nimmt dabei das Experiment eine zentrale Stelle ein. Der derzeitige Stand der Dokumentation und Präsentation von Ergebnissen der Versuchstätigkeit ist gekennzeichnet durch: - Die Existenz einer Vielzahl dezentraler Pools von Versuchsberichten, - hohe Aufwendungen für deren Publizierung, in der Regel im Selbstverlag, - steigende Versandkosten, - relativ kleiner Adressatenkreis, - nur punktuell webbasierte, statische Präsentationen, - kein umfassender Austausch und damit transparente Präsentation von Versuchsresultaten, - keine strukturiert unterstützte (Datenbank-)Recherche nach bestimmten Berichten/Dokumenten/Einrichtungen/Versuchskategorien usw. Das Projekt >Versuchsberichte im Internet< (VIP) soll für Einrichtungen der Beratung, Forschung, Lehre, Praxis und Verwaltung im Agrarbereich helfen, diese Mängel zu mindern und so einen Rationalisierungseffekt auslösen. Dieses Ziel soll im Einzelnen wie folgt realisiert werden: - Input der als verteilte Informationspools in Bund und Ländern vorliegenden Versuchsberichte in eine zentrale Dokumentendatenbank bei uneingeschränkter Verfügungsgewalt und vollen Urheberrechten der beteiligten Einrichtungen; - Bereitstellung einer Online-Lösung im Internet; - Integration eines Moduls für den internetgestützten Online-Input von Dokumenten; - Gewährleistung von Datenschutz; - Unterstützung des Versuchswesens in Bund und Ländern mit dem Ziel, Rationalisierungseffekte z. B. hinsichtlich der Versuchsplanung, Dokumentations- und Kommunikationsaufwendungen, Öffentlichkeitsarbeit, e-commerce zu erreichen. Über diese Funktionen hinaus werden in das Projekt weitere Informationspools, wie Adressen, bibliographische und wissenschaftliche Informationen, Diskussionslisten, Maps u. a. integriert. Entsprechend der föderalen Struktur der Bundesrepublik steht eine Beteiligung am Projekt allen interessierten Einrichtungen in Bund und Ländern offen

Date

16. 5.2001 12:22:23

Source

Information Research & Content Management: Orientierung, Ordnung und Organisation im Wissensmarkt; 23. DGI-Online-Tagung der DGI und 53. Jahrestagung der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis e.V. DGI, Frankfurt am Main, 8.-10.5.2001. Proceedings. Hrsg.: R. Schmidt
Rapke, K.: Automatische Indexierung von Volltexten für die Gruner+Jahr Pressedatenbank (2001) 0.06
```
0.06317672 = product of:
  0.09476508 = sum of:
    0.03901083 = weight(_text_:im in 5863) [ClassicSimilarity], result of:
      0.03901083 = score(doc=5863,freq=6.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.27047595 = fieldWeight in 5863, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5863)
    0.055754256 = product of:
      0.08363138 = sum of:
        0.025961377 = weight(_text_:online in 5863) [ClassicSimilarity], result of:
          0.025961377 = score(doc=5863,freq=2.0), product of:
            0.1548489 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.051022716 = queryNorm
            0.16765618 = fieldWeight in 5863, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.0390625 = fieldNorm(doc=5863)
        0.05767 = weight(_text_:retrieval in 5863) [ClassicSimilarity], result of:
          0.05767 = score(doc=5863,freq=10.0), product of:
            0.15433937 = queryWeight, product of:
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.051022716 = queryNorm
            0.37365708 = fieldWeight in 5863, product of:
              3.1622777 = tf(freq=10.0), with freq of:
                10.0 = termFreq=10.0
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.0390625 = fieldNorm(doc=5863)
      0.6666667 = coord(2/3)
  0.6666667 = coord(2/3)
```
Abstract

Retrievaltests sind die anerkannteste Methode, um neue Verfahren der Inhaltserschließung gegenüber traditionellen Verfahren zu rechtfertigen. Im Rahmen einer Diplomarbeit wurden zwei grundsätzlich unterschiedliche Systeme der automatischen inhaltlichen Erschließung anhand der Pressedatenbank des Verlagshauses Gruner + Jahr (G+J) getestet und evaluiert. Untersucht wurde dabei natürlichsprachliches Retrieval im Vergleich zu Booleschem Retrieval. Bei den beiden Systemen handelt es sich zum einen um Autonomy von Autonomy Inc. und DocCat, das von IBM an die Datenbankstruktur der G+J Pressedatenbank angepasst wurde. Ersteres ist ein auf natürlichsprachlichem Retrieval basierendes, probabilistisches System. DocCat demgegenüber basiert auf Booleschem Retrieval und ist ein lernendes System, das aufgrund einer intellektuell erstellten Trainingsvorlage indexiert. Methodisch geht die Evaluation vom realen Anwendungskontext der Textdokumentation von G+J aus. Die Tests werden sowohl unter statistischen wie auch qualitativen Gesichtspunkten bewertet. Ein Ergebnis der Tests ist, dass DocCat einige Mängel gegenüber der intellektuellen Inhaltserschließung aufweist, die noch behoben werden müssen, während das natürlichsprachliche Retrieval von Autonomy in diesem Rahmen und für die speziellen Anforderungen der G+J Textdokumentation so nicht einsetzbar ist

Source

Information Research & Content Management: Orientierung, Ordnung und Organisation im Wissensmarkt; 23. DGI-Online-Tagung der DGI und 53. Jahrestagung der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis e.V. DGI, Frankfurt am Main, 8.-10.5.2001. Proceedings. Hrsg.: R. Schmidt
Rapke, K.: Automatische Indexierung von Volltexten für die Gruner+Jahr Pressedatenbank (2001) 0.04
```
0.04232825 = product of:
  0.06349237 = sum of:
    0.03822265 = weight(_text_:im in 6386) [ClassicSimilarity], result of:
      0.03822265 = score(doc=6386,freq=4.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.26501122 = fieldWeight in 6386, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.046875 = fieldNorm(doc=6386)
    0.025269728 = product of:
      0.07580918 = sum of:
        0.07580918 = weight(_text_:retrieval in 6386) [ClassicSimilarity], result of:
          0.07580918 = score(doc=6386,freq=12.0), product of:
            0.15433937 = queryWeight, product of:
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.051022716 = queryNorm
            0.49118498 = fieldWeight in 6386, product of:
              3.4641016 = tf(freq=12.0), with freq of:
                12.0 = termFreq=12.0
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.046875 = fieldNorm(doc=6386)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)
```
Abstract

Retrieval Tests sind die anerkannteste Methode, um neue Verfahren der Inhaltserschließung gegenüber traditionellen Verfahren zu rechtfertigen. Im Rahmen einer Diplomarbeit wurden zwei grundsätzlich unterschiedliche Systeme der automatischen inhaltlichen Erschließung anhand der Pressedatenbank des Verlagshauses Gruner + Jahr (G+J) getestet und evaluiert. Untersucht wurde dabei natürlichsprachliches Retrieval im Vergleich zu Booleschem Retrieval. Bei den beiden Systemen handelt es sich zum einen um Autonomy von Autonomy Inc. und DocCat, das von IBM an die Datenbankstruktur der G+J Pressedatenbank angepasst wurde. Ersteres ist ein auf natürlichsprachlichem Retrieval basierendes, probabilistisches System. DocCat demgegenüber basiert auf Booleschem Retrieval und ist ein lernendes System, das auf Grund einer intellektuell erstellten Trainingsvorlage indexiert. Methodisch geht die Evaluation vom realen Anwendungskontext der Textdokumentation von G+J aus. Die Tests werden sowohl unter statistischen wie auch qualitativen Gesichtspunkten bewertet. Ein Ergebnis der Tests ist, dass DocCat einige Mängel gegenüber der intellektuellen Inhaltserschließung aufweist, die noch behoben werden müssen, während das natürlichsprachliche Retrieval von Autonomy in diesem Rahmen und für die speziellen Anforderungen der G+J Textdokumentation so nicht einsetzbar ist
Schlenkrich, C.: Aspekte neuer Regelwerksarbeit : Multimediales Datenmodell für ARD und ZDF (2003) 0.04
```
0.042326044 = product of:
  0.063489065 = sum of:
    0.031208664 = weight(_text_:im in 1515) [ClassicSimilarity], result of:
      0.031208664 = score(doc=1515,freq=6.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.21638076 = fieldWeight in 1515, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.03125 = fieldNorm(doc=1515)
    0.0322804 = product of:
      0.048420597 = sum of:
        0.0207691 = weight(_text_:online in 1515) [ClassicSimilarity], result of:
          0.0207691 = score(doc=1515,freq=2.0), product of:
            0.1548489 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.051022716 = queryNorm
            0.13412495 = fieldWeight in 1515, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.03125 = fieldNorm(doc=1515)
        0.027651496 = weight(_text_:22 in 1515) [ClassicSimilarity], result of:
          0.027651496 = score(doc=1515,freq=2.0), product of:
            0.17867287 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.051022716 = queryNorm
            0.15476047 = fieldWeight in 1515, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.03125 = fieldNorm(doc=1515)
      0.6666667 = coord(2/3)
  0.6666667 = coord(2/3)
```
Abstract

Wir sind mitten in der Arbeit, deshalb kann ich Ihnen nur Arbeitsstände weitergeben. Es ist im Fluss, und wir bemühen uns in der Tat, die "alten Regelwerke" fit zu machen und sie für den Multimediabereich aufzuarbeiten. Ganz kurz zur Arbeitsgruppe: Sie entstammt der AG Orgatec, der Schall- und Hörfunkarchivleiter- und der Fernseharchivleiterkonferenz zur Erstellung eines verbindlichen multimedialen Regelwerks. Durch die Digitalisierung haben sich die Aufgaben in den Archivbereichen eindeutig geändert. Wir versuchen, diese Prozesse abzufangen, und zwar vom Produktionsprozess bis hin zur Archivierung neu zu regeln und neu zu definieren. Wir haben mit unserer Arbeit begonnen im April letzten Jahres, sind also jetzt nahezu exakt ein Jahr zugange, und ich werde Ihnen im Laufe des kurzen Vortrages berichten können, wie wir unsere Arbeit gestaltet haben. Etwas zu den Mitgliedern der Arbeitsgruppe - ich denke, es ist ganz interessant, einfach mal zu sehen, aus welchen Bereichen und Spektren unsere Arbeitsgruppe sich zusammensetzt. Wir haben also Vertreter des Bayrischen Rundfunks, des Norddeutschen -, des Westdeutschen Rundfunks, des Mitteldeutschen von Ost nach West, von Süd nach Nord und aus den verschiedensten Arbeitsbereichen von Audio über Video bis hin zu Online- und Printbereichen. Es ist eine sehr bunt gemischte Truppe, aber auch eine hochspannenden Diskussion exakt eben aufgrund der Vielfalt, die wir abbilden wollen und abbilden müssen. Die Ziele: Wir wollen verbindlich ein multimediales Datenmodell entwickeln und verabschieden, was insbesondere den digitalen Produktionscenter und Archiv-Workflow von ARD und - da haben wir uns besonders gefreut - auch in guter alter Tradition in gemeinsamer Zusammenarbeit mit dem ZDF bildet. Wir wollen Erfassungs- und Erschließungsregeln definieren. Wir wollen Mittlerdaten generieren und bereitstellen, um den Produktions-Workflow abzubilden und zu gewährleisten, und das Datenmodell, das wir uns sozusagen als Zielstellung definiert haben, soll für den Programmaustausch Grundlagen schaffen, damit von System zu System intern und extern kommuniziert werden kann. Nun könnte man meinen, dass ein neues multimediales Datenmodell aus einem Mix der alten Regelwerke Fernsehen, Wort und Musik recht einfach zusammenzuführen sei. Man stellt einfach die Datenlisten der einzelnen Regelwerke synoptisch gegenüber, klärt Gemeinsames und Spezifisches ab, ergänzt Fehlendes, eliminiert eventuell nicht Benötigtes und stellt es einfach neu zusammen, fertig ist das neue Regelwerk. Leider ist es nicht ganz so einfach, denn es gibt dabei doch eine ganze Reihe von Aspekten zu berücksichtigen, die eine vorgelagerte Abstraktionsebene auch zwingend erforderlich machen.

Date

22. 4.2003 12:05:56

Ehrmann, S.: ¬Die Nadel im Bytehaufen : Finden statt suchen: Text Retrieval, Multimediadatenbanken, Dokumentenmanagement (2000) 0.04

0.041493133 = product of:
  0.062239695 = sum of:
    0.045045823 = weight(_text_:im in 5317) [ClassicSimilarity], result of:
      0.045045823 = score(doc=5317,freq=2.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.3123187 = fieldWeight in 5317, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.078125 = fieldNorm(doc=5317)
    0.017193872 = product of:
      0.051581617 = sum of:
        0.051581617 = weight(_text_:retrieval in 5317) [ClassicSimilarity], result of:
          0.051581617 = score(doc=5317,freq=2.0), product of:
            0.15433937 = queryWeight, product of:
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.051022716 = queryNorm
            0.33420905 = fieldWeight in 5317, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.078125 = fieldNorm(doc=5317)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)

Wandeler, J.: Comprenez-vous only Bahnhof? : Mehrsprachigkeit in der Mediendokumentation (2003) 0.04
```
0.037926123 = product of:
  0.056889184 = sum of:
    0.04767202 = weight(_text_:im in 1512) [ClassicSimilarity], result of:
      0.04767202 = score(doc=1512,freq=14.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.33052707 = fieldWeight in 1512, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.03125 = fieldNorm(doc=1512)
    0.009217165 = product of:
      0.027651496 = sum of:
        0.027651496 = weight(_text_:22 in 1512) [ClassicSimilarity], result of:
          0.027651496 = score(doc=1512,freq=2.0), product of:
            0.17867287 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.051022716 = queryNorm
            0.15476047 = fieldWeight in 1512, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.03125 = fieldNorm(doc=1512)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)
```
Abstract

Das Hauptthema dieser Tagung - Multimedia - beschäftigt sich mit der Vielfalt der Medien und Quellen, mit denen wir es heute zu tun haben. Da liegt es nahe, sich auch mit einer anderen Form der Vielfalt, dem Thema Mehrsprachigkeit zu beschäftigen. Und die Veranstalter dieser Tagung waren der Meinung, dass ein Schweizer dazu mit Sicherheit etwas zu sagen habe. Das ist insofern richtig, als wir in einem mehrsprachigen Land leben und mit diesem Problem im Alltag vertraut sind, sowohl im täglichen Leben, wie auch eben im dokumentarischen Alltag. Aus dieser praktischen Sicht und nicht als Sprachwissenschafter, der ich nicht bin, möchte ich mich dem Thema nähern. Die Vielfalt der deutschen Sprache: Wenn die Schweiz ein mehrsprachiges Land ist - ist dann Deutschland im Gegensatz dazu ein einsprachiges Land? Auf den ersten Blick sicher ja - in Deutschland spricht man deutsch - aber die Sache ist doch nicht so einfach. Natürlich leben auch hier, wie überall, Menschen aus anderen Ländern mit anderen Muttersprachen - in dieser Optik gibt es wohl fast nur mehrsprachige Länder. Aber auch wenn wir nur die einheimische Bevölkerung mit deutschem Pass betrachten, ist die Sache nicht so eindeutig. Zwar haben sie das Deutsche als gemeinsame Sprache, die von allen gesprochen und verstanden wird. Aber die eigentliche Muttersprache der Deutschen oder mindestens einer grossen Mehrheit ist nicht das Hochdeutsche, sondern einer der vielen Dialekte. Diese Dialekte sind ja höchst unterschiedlich und einem Bayern oder Schwaben geht es sicher nicht anders, als es mir vor Jahren ergangen ist, als ich in Norddeutschland erstmals plattdeutsch sprechen hörte: ich hab nicht mal mehr Bahnhof verstanden und benötigte einige Wochen, bis ich der Unterhaltung wenigstens in groben Zügen folgen konnte. Das Hochdeutsche ist da der gemeinsame Nenner und ermöglichst erst die Verständigung, auch wenn es mit vielfältigen Akzenten und regional eingefärbtem Vokabular gesprochen wird. In diesem Sinne ist die Situation nicht anders als in der deutschsprachigen Schweiz, wo auch ganz unterschiedliche Dialekte gesprochen werden. Allerdings gibt es doch einen wichtigen Unterschied: Hier in Deutschland ist Hochdeutsch die allgemeine Umgangssprache sowohl in der mündlichen wie in der schriftlichen Kommunikation. Dialekte werden im privaten Bereich gesprochen, aber im öffentlichen Bereich, im Geschäftsleben, in der Wissenschaft etc. ist Hochdeutsch die Umgangssprache.

Date

22. 4.2003 12:09:10
Dahmen, E.: Klassifikation als Ordnundssystem im elektronischen Pressearchiv (2003) 0.04
```
0.037926123 = product of:
  0.056889184 = sum of:
    0.04767202 = weight(_text_:im in 1513) [ClassicSimilarity], result of:
      0.04767202 = score(doc=1513,freq=14.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.33052707 = fieldWeight in 1513, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.03125 = fieldNorm(doc=1513)
    0.009217165 = product of:
      0.027651496 = sum of:
        0.027651496 = weight(_text_:22 in 1513) [ClassicSimilarity], result of:
          0.027651496 = score(doc=1513,freq=2.0), product of:
            0.17867287 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.051022716 = queryNorm
            0.15476047 = fieldWeight in 1513, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.03125 = fieldNorm(doc=1513)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)
```
Abstract

Elektronische Pressearchive bieten einen schnellen und bequemen Zugriff auf einzelne Presseartikel. Während die ersten elektronischen Pressearchive noch mit Referenzdatensätzen arbeiteten und den gesamten Text nur als Bilddatei ablegten, ermöglichen verbesserte Speicherkapazitäten heute die Archivierung vollständiger Texte, mit Hilfe einer guten OCR-Erkennung sind zudem alle Wörter des Textes im Volltext recherchierbar. Der punktuelle Zugriff auf ein spezielles Dokument ist also prinzipiell bereits ohne die Nutzung beschreibender Daten möglich. Je spezifischer, eindeutiger und seltener der gesuchte Begriff ist, desto schneller kann ein passendes Dokument gefunden werden - oft war dies in einer konventionellen Sammlung gerade nicht der Fall, hier mußte man manchmal mit Geduld die "Stecknadel im Heuhaufen" suchen. Sog. "Volltextarchive" finden sich in großer Zahl im Internet, jeder kann dort über die Eingabe eines oder mehrerer Wörter nach Presseartikeln suchen, wird aber schnell feststellen, daß die auf diesem Weg erzielte Treffermenge nicht zu vergleichen ist mit der Anordnung von Presseausschnitten, die mit Hilfe einer Klassifikation in eine Aufstellungssystematik gebracht wurden. Diese Zugriffsmöglichkeit wird in professionell arbeitenden Archiven verständlicherweise als unzureichend empfunden, und aus diesem Grund werden ausgewählte Presseartikel weiterhin inhaltlich erschlossen, es werden also zusätzliche rechercherelevante Daten produziert. Diese beim Indexat erstellten Metadaten setzen sich zusammen aus Formaldaten, evtl. künstlichen Ordnungsmerkmalen, Sachbegriffen und natürlich Eigennamen wie z.B. Namen von Personen, Körperschaften, Ländern, Sendetiteln und anderen Individualbegriffen. Präzise Begriffe mit eindeutiger Benennung und Eigennamen können im elektronischen Archiv hervorragend recherchiert werden, denn in einer elektronischen Datenbank funktioniert die Suche technisch ohnehin nur nach eindeutigen Schriftzeichen, also nach geordneten Buchstaben und Zahlen. Diese "rechnerimmanente" Technik hat die Vorstellung, alles über die bloße Eingabe von Wörtern zu suchen, möglicherweise noch voran getrieben. Auch die Popularisierung von Suchmaschinen im Internet hat dazu beigetragen, diese Suchmöglichkeit für die einzig wahre zu erachten. Wie steht es aber mit der thematischen Suche? Systematischer und alphabetischer Zugriff ist ja keine Entweder-Oder-Frage: es kommt auf die Suchanfrage an! Wir postulieren also: beides sollte möglich sein.
Die bis heute gültige Grundkonzeption einer Klassifikation für die elektronische Pressedatenbank im WDR wurde seit 1989 von Klaus Leesch und Mitarbeitern entwickelt. Die inhaltliche Ausgestaltung und Strukturierung erfolgte durch verschiedene Mitarbeiter des Pressearchivs. Mit Beginn der Digitalisierung 1993 kam die erste Klassifikation ("PARIS-Klassifikation") zum Einsatz, sie wurde in den folgenden Jahren von Dr. Bernhard Brandhofer mehrmals überarbeitet und hin zu einer archivübergreifenden Klassifikation ("D&A-Klassifikation") erweitert. Seit August 1999 ist diese Klassifikation die Grundlage der inhaltlichen Erschließung für die kooperierenden ARD-Pressearchive. Die letzte Überarbeitung fand 2000/2001 in der AG Erschließung des PAN (Presse-Archiv-Netzwerk der ARD) in Zusammenarbeit von Mitarbeitern des NDR, SWR und WDR statt und kommt ab Mai 2001 zum Einsatz (PAN-Klassifikation).

Date

28. 4.2003 13:35:22
Toebak, P.: ¬Das Dossier nicht die Klassifikation als Herzstück des Records Management (2009) 0.04
```
0.037711523 = product of:
  0.05656728 = sum of:
    0.045045823 = weight(_text_:im in 3220) [ClassicSimilarity], result of:
      0.045045823 = score(doc=3220,freq=8.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.3123187 = fieldWeight in 3220, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0390625 = fieldNorm(doc=3220)
    0.011521457 = product of:
      0.03456437 = sum of:
        0.03456437 = weight(_text_:22 in 3220) [ClassicSimilarity], result of:
          0.03456437 = score(doc=3220,freq=2.0), product of:
            0.17867287 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.051022716 = queryNorm
            0.19345059 = fieldWeight in 3220, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0390625 = fieldNorm(doc=3220)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)
```
Abstract

Die September/Oktober-Ausgabe 2009 der IWP ist eine Schwerpunktausgabe zum Records Management. Es ist interessant, dass einmal aus fachlich ganz anderer Perspektive auf diese Management- Disziplin geschaut wird. Viele Aspekte werden angesprochen: Terminologie, Rolle des Archivwesens, Interdisziplinarität, Langzeitaufbewahrung und Standardisierung. Im Artikel "Wissensorganisation und Records Management. Was ist der 'state of the art'?" steht die Wissensorganisation als Schwachstelle des Records Management zentral. Dies zu Recht: Das logische Datenmodell von DOMEA - das Gleiche gilt für GEVER und ELAK - entspricht beispielsweise nicht in allen Hinsichten der Geschäftsrealität. Daraus entstehen für die Mitarbeitenden im Arbeitsalltag öfters mehr Verständnisprobleme als sie bewältigen können oder wollen. Die systemische Unterstützung der eingesetzten EDRMS (nicht alle Produkte verdienen übrigens diesen Namen) wird dadurch geschwächt. Die Wissensorganisation genügt in vielen Fällen (noch) nicht. Das Problem liegt allerdings weniger bei der Klassifikation (Aktenplan), wie Ulrike Spree meint. Auch hier kommen Anomalien vor. Ein Ordnungssystem im Records Management umfasst mehr als nur die Klassifikation. Zudem dürfen die prinzipiellen, inhärenten Unterschiede zwischen Records Management einerseits und Wissens- und Informationsmanagement andererseits nicht vergessen gehen. Nicht die Klassifikation ist beim Records Management das zentrale Werkzeug der Informationsrepräsentation und -organisation, sondern die saubere Dossierbildung und die stringente, strukturstabile Umsetzung davon im Datenmodell. Hierauf geht die Autorin nicht ein. Ich werde aus dieser Sicht auf ihren Beitrag in der Schwerpunktausgabe reagieren.

Date

6.12.2009 17:22:17

Schöhl, W.; Vocke-Schöhl, K.: Umfassendes Wissensmanagement mit Datenbanken im Intranet, Internet und Online-Datenbanken (1999) 0.04

0.03707864 = product of:
  0.05561796 = sum of:
    0.03603666 = weight(_text_:im in 4092) [ClassicSimilarity], result of:
      0.03603666 = score(doc=4092,freq=2.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.24985497 = fieldWeight in 4092, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0625 = fieldNorm(doc=4092)
    0.0195813 = product of:
      0.058743894 = sum of:
        0.058743894 = weight(_text_:online in 4092) [ClassicSimilarity], result of:
          0.058743894 = score(doc=4092,freq=4.0), product of:
            0.1548489 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.051022716 = queryNorm
            0.37936267 = fieldWeight in 4092, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.0625 = fieldNorm(doc=4092)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)

Abstract: Vorgestellt wird ein umfassendes System für das Informations- und Wissensmanagement in Unternehmen und Organsationen, das u.a. auch Dokumente enthält, die von vielen professionellen Online-Datenbanken heruntergeladen werden können - so z.B. von Zeitungs- und Fachzeitschriftendatenbanken der Hosts GENIOS, DATA-STAR, DIALOG und LEXIS-NEXIS sowie vom Internet

Rickenbach, J.-P.: ¬Das multimediale Archivsystem der Neuen Zürcher Zeitung (2001) 0.03

0.033255152 = product of:
  0.049882725 = sum of:
    0.03603666 = weight(_text_:im in 5835) [ClassicSimilarity], result of:
      0.03603666 = score(doc=5835,freq=2.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.24985497 = fieldWeight in 5835, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.0625 = fieldNorm(doc=5835)
    0.013846068 = product of:
      0.0415382 = sum of:
        0.0415382 = weight(_text_:online in 5835) [ClassicSimilarity], result of:
          0.0415382 = score(doc=5835,freq=2.0), product of:
            0.1548489 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.051022716 = queryNorm
            0.2682499 = fieldWeight in 5835, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.0625 = fieldNorm(doc=5835)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)

Source: Information Research & Content Management: Orientierung, Ordnung und Organisation im Wissensmarkt; 23. DGI-Online-Tagung der DGI und 53. Jahrestagung der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis e.V. DGI, Frankfurt am Main, 8.-10.5.2001. Proceedings. Hrsg.: R. Schmidt

Mas, S.; Marleau, Y.: Proposition of a faceted classification model to support corporate information organization and digital records management (2009) 0.03

0.027012533 = product of:
  0.081037596 = sum of:
    0.081037596 = product of:
      0.24311279 = sum of:
        0.24311279 = weight(_text_:3a in 2918) [ClassicSimilarity], result of:
          0.24311279 = score(doc=2918,freq=2.0), product of:
            0.43257114 = queryWeight, product of:
              8.478011 = idf(docFreq=24, maxDocs=44218)
              0.051022716 = queryNorm
            0.56201804 = fieldWeight in 2918, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              8.478011 = idf(docFreq=24, maxDocs=44218)
              0.046875 = fieldNorm(doc=2918)
      0.33333334 = coord(1/3)
  0.33333334 = coord(1/3)

Footnote: Vgl.: http://ieeexplore.ieee.org/Xplore/login.jsp?reload=true&url=http%3A%2F%2Fieeexplore.ieee.org%2Fiel5%2F4755313%2F4755314%2F04755480.pdf%3Farnumber%3D4755480&authDecision=-203.

Huang, T.; Mehrotra, S.; Ramchandran, K.: Multimedia Access and Retrieval System (MARS) project (1997) 0.03

0.026800975 = product of:
  0.080402926 = sum of:
    0.080402926 = product of:
      0.12060438 = sum of:
        0.07221426 = weight(_text_:retrieval in 758) [ClassicSimilarity], result of:
          0.07221426 = score(doc=758,freq=8.0), product of:
            0.15433937 = queryWeight, product of:
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.051022716 = queryNorm
            0.46789268 = fieldWeight in 758, product of:
              2.828427 = tf(freq=8.0), with freq of:
                8.0 = termFreq=8.0
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.0546875 = fieldNorm(doc=758)
        0.048390117 = weight(_text_:22 in 758) [ClassicSimilarity], result of:
          0.048390117 = score(doc=758,freq=2.0), product of:
            0.17867287 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.051022716 = queryNorm
            0.2708308 = fieldWeight in 758, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0546875 = fieldNorm(doc=758)
      0.6666667 = coord(2/3)
  0.33333334 = coord(1/3)

Abstract: Reports results of the MARS project, conducted at Illinois University, to bring together researchers in the fields of computer vision, compression, information management and database systems with the goal of developing an effective multimedia database management system. Describes the first step, involving the design and implementation of an image retrieval system incorporating novel approaches to image segmentation, representation, browsing and information retrieval supported by the developed system. Points to future directions for the MARS project
Date: 22. 9.1997 19:16:05
Source: Digital image access and retrieval: Proceedings of the 1996 Clinic on Library Applications of Data Processing, 24-26 Mar 1996. Ed.: P.B. Heidorn u. B. Sandore

Boeri, R.J.; Hensel, M.: Set up a winning text retrieval system : carefully (1995) 0.03

0.025113732 = product of:
  0.075341195 = sum of:
    0.075341195 = product of:
      0.113011785 = sum of:
        0.0415382 = weight(_text_:online in 2809) [ClassicSimilarity], result of:
          0.0415382 = score(doc=2809,freq=2.0), product of:
            0.1548489 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.051022716 = queryNorm
            0.2682499 = fieldWeight in 2809, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.0625 = fieldNorm(doc=2809)
        0.07147358 = weight(_text_:retrieval in 2809) [ClassicSimilarity], result of:
          0.07147358 = score(doc=2809,freq=6.0), product of:
            0.15433937 = queryWeight, product of:
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.051022716 = queryNorm
            0.46309367 = fieldWeight in 2809, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.0625 = fieldNorm(doc=2809)
      0.6666667 = coord(2/3)
  0.33333334 = coord(1/3)

Abstract: Considers some of the practical issues involved when a company plans to develop an in house computerized document management system: conversion of paper to electronic form via optical character recognition (OCR) or rekeying; coding of document elements using SGML; indexing for information searching and retrieval (including proximity searching); and hybrid CD-ROM and online information retrieval systems

Behling, U.: Vom Medienarchiv zur Researchabteilung (2001) 0.02

0.024941362 = product of:
  0.037412044 = sum of:
    0.027027493 = weight(_text_:im in 5864) [ClassicSimilarity], result of:
      0.027027493 = score(doc=5864,freq=2.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.18739122 = fieldWeight in 5864, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.046875 = fieldNorm(doc=5864)
    0.010384551 = product of:
      0.031153653 = sum of:
        0.031153653 = weight(_text_:online in 5864) [ClassicSimilarity], result of:
          0.031153653 = score(doc=5864,freq=2.0), product of:
            0.1548489 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.051022716 = queryNorm
            0.20118743 = fieldWeight in 5864, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.046875 = fieldNorm(doc=5864)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)

Source: Information Research & Content Management: Orientierung, Ordnung und Organisation im Wissensmarkt; 23. DGI-Online-Tagung der DGI und 53. Jahrestagung der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis e.V. DGI, Frankfurt am Main, 8.-10.5.2001. Proceedings. Hrsg.: R. Schmidt

Hauer, M.: IC Individual News : multimediale Presseschau - Chancen und Grenzen (1998) 0.02

0.023000974 = product of:
  0.06900292 = sum of:
    0.06900292 = product of:
      0.103504375 = sum of:
        0.051922753 = weight(_text_:online in 3397) [ClassicSimilarity], result of:
          0.051922753 = score(doc=3397,freq=2.0), product of:
            0.1548489 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.051022716 = queryNorm
            0.33531237 = fieldWeight in 3397, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.078125 = fieldNorm(doc=3397)
        0.051581617 = weight(_text_:retrieval in 3397) [ClassicSimilarity], result of:
          0.051581617 = score(doc=3397,freq=2.0), product of:
            0.15433937 = queryWeight, product of:
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.051022716 = queryNorm
            0.33420905 = fieldWeight in 3397, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.078125 = fieldNorm(doc=3397)
      0.6666667 = coord(2/3)
  0.33333334 = coord(1/3)

Source: 20. Online-Tagung der DGD: Host Retrieval und Global Research, Frankfurt am Main, 5.-7.5.1998. Hrsg.: M. Ockenfeld u. R. Schmidt

Black, K.: ELISE: an online image retrieval system (1993) 0.02

0.022199143 = product of:
  0.066597424 = sum of:
    0.066597424 = product of:
      0.09989613 = sum of:
        0.0415382 = weight(_text_:online in 6631) [ClassicSimilarity], result of:
          0.0415382 = score(doc=6631,freq=2.0), product of:
            0.1548489 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.051022716 = queryNorm
            0.2682499 = fieldWeight in 6631, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.0625 = fieldNorm(doc=6631)
        0.058357935 = weight(_text_:retrieval in 6631) [ClassicSimilarity], result of:
          0.058357935 = score(doc=6631,freq=4.0), product of:
            0.15433937 = queryWeight, product of:
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.051022716 = queryNorm
            0.37811437 = fieldWeight in 6631, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.0625 = fieldNorm(doc=6631)
      0.6666667 = coord(2/3)
  0.33333334 = coord(1/3)

Abstract: Research at De Montfort Univ., Division of Learning Development, in Leicester, is focused on promoting the idea of the electronic library. Describes the Electronic Library Image Service for Europe (ELISE) project funded by the Commission for the European Communities, its overall aim and lists the 5 main challenges for the project team which include: identifying image bank technical requirements; exploring storage and retrieval mechanisms; exploring client needs and design user interfaces; the production of a pilot system; and devising a model for the international interconnection of systems

Jain, R.: Visual information retrieval in digital libraries (1997) 0.02

0.022100737 = product of:
  0.06630221 = sum of:
    0.06630221 = product of:
      0.09945331 = sum of:
        0.05106319 = weight(_text_:retrieval in 760) [ClassicSimilarity], result of:
          0.05106319 = score(doc=760,freq=4.0), product of:
            0.15433937 = queryWeight, product of:
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.051022716 = queryNorm
            0.33085006 = fieldWeight in 760, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.0546875 = fieldNorm(doc=760)
        0.048390117 = weight(_text_:22 in 760) [ClassicSimilarity], result of:
          0.048390117 = score(doc=760,freq=2.0), product of:
            0.17867287 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.051022716 = queryNorm
            0.2708308 = fieldWeight in 760, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0546875 = fieldNorm(doc=760)
      0.6666667 = coord(2/3)
  0.33333334 = coord(1/3)

Date: 22. 9.1997 19:16:05
Source: Digital image access and retrieval: Proceedings of the 1996 Clinic on Library Applications of Data Processing, 24-26 Mar 1996. Ed.: P.B. Heidorn u. B. Sandore

Lam-Adesina, A.M.; Jones, G.J.F.: Examining and improving the effectiveness of relevance feedback for retrieval of scanned text documents (2006) 0.02
```
0.020932764 = product of:
  0.06279829 = sum of:
    0.06279829 = product of:
      0.09419744 = sum of:
        0.025961377 = weight(_text_:online in 977) [ClassicSimilarity], result of:
          0.025961377 = score(doc=977,freq=2.0), product of:
            0.1548489 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.051022716 = queryNorm
            0.16765618 = fieldWeight in 977, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.0390625 = fieldNorm(doc=977)
        0.06823606 = weight(_text_:retrieval in 977) [ClassicSimilarity], result of:
          0.06823606 = score(doc=977,freq=14.0), product of:
            0.15433937 = queryWeight, product of:
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.051022716 = queryNorm
            0.442117 = fieldWeight in 977, product of:
              3.7416575 = tf(freq=14.0), with freq of:
                14.0 = termFreq=14.0
              3.024915 = idf(docFreq=5836, maxDocs=44218)
              0.0390625 = fieldNorm(doc=977)
      0.6666667 = coord(2/3)
  0.33333334 = coord(1/3)
```
Abstract

Important legacy paper documents are digitized and collected in online accessible archives. This enables the preservation, sharing, and significantly the searching of these documents. The text contents of these document images can be transcribed automatically using OCR systems and then stored in an information retrieval system. However, OCR systems make errors in character recognition which have previously been shown to impact on document retrieval behaviour. In particular relevance feedback query-expansion methods, which are often effective for improving electronic text retrieval, are observed to be less reliable for retrieval of scanned document images. Our experimental examination of the effects of character recognition errors on an ad hoc OCR retrieval task demonstrates that, while baseline information retrieval can remain relatively unaffected by transcription errors, relevance feedback via query expansion becomes highly unstable. This paper examines the reason for this behaviour, and introduces novel modifications to standard relevance feedback methods. These methods are shown experimentally to improve the effectiveness of relevance feedback for errorful OCR transcriptions. The new methods combine similar recognised character strings based on term collection frequency and a string edit-distance measure. The techniques are domain independent and make no use of external resources such as dictionaries or training data.
Peters, G.; Gaese, V.: ¬Das DocCat-System in der Textdokumentation von G+J (2003) 0.02
```
0.018156998 = product of:
  0.027235495 = sum of:
    0.01801833 = weight(_text_:im in 1507) [ClassicSimilarity], result of:
      0.01801833 = score(doc=1507,freq=2.0), product of:
        0.1442303 = queryWeight, product of:
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.051022716 = queryNorm
        0.12492748 = fieldWeight in 1507, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.8267863 = idf(docFreq=7115, maxDocs=44218)
          0.03125 = fieldNorm(doc=1507)
    0.009217165 = product of:
      0.027651496 = sum of:
        0.027651496 = weight(_text_:22 in 1507) [ClassicSimilarity], result of:
          0.027651496 = score(doc=1507,freq=2.0), product of:
            0.17867287 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.051022716 = queryNorm
            0.15476047 = fieldWeight in 1507, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.03125 = fieldNorm(doc=1507)
      0.33333334 = coord(1/3)
  0.6666667 = coord(2/3)
```
Abstract

Wir werden einmal die Grundlagen des Text-Mining-Systems bei IBM darstellen, dann werden wir das Projekt etwas umfangreicher und deutlicher darstellen, da kennen wir uns aus. Von daher haben wir zwei Teile, einmal Heidelberg, einmal Hamburg. Noch einmal zur Technologie. Text-Mining ist eine von IBM entwickelte Technologie, die in einer besonderen Ausformung und Programmierung für uns zusammengestellt wurde. Das Projekt hieß bei uns lange Zeit DocText Miner und heißt seit einiger Zeit auf Vorschlag von IBM DocCat, das soll eine Abkürzung für Document-Categoriser sein, sie ist ja auch nett und anschaulich. Wir fangen an mit Text-Mining, das bei IBM in Heidelberg entwickelt wurde. Die verstehen darunter das automatische Indexieren als eine Instanz, also einen Teil von Text-Mining. Probleme werden dabei gezeigt, und das Text-Mining ist eben eine Methode zur Strukturierung von und der Suche in großen Dokumentenmengen, die Extraktion von Informationen und, das ist der hohe Anspruch, von impliziten Zusammenhängen. Das letztere sei dahingestellt. IBM macht das quantitativ, empirisch, approximativ und schnell. das muss man wirklich sagen. Das Ziel, und das ist ganz wichtig für unser Projekt gewesen, ist nicht, den Text zu verstehen, sondern das Ergebnis dieser Verfahren ist, was sie auf Neudeutsch a bundle of words, a bag of words nennen, also eine Menge von bedeutungstragenden Begriffen aus einem Text zu extrahieren, aufgrund von Algorithmen, also im Wesentlichen aufgrund von Rechenoperationen. Es gibt eine ganze Menge von linguistischen Vorstudien, ein wenig Linguistik ist auch dabei, aber nicht die Grundlage der ganzen Geschichte. Was sie für uns gemacht haben, ist also die Annotierung von Pressetexten für unsere Pressedatenbank. Für diejenigen, die es noch nicht kennen: Gruner + Jahr führt eine Textdokumentation, die eine Datenbank führt, seit Anfang der 70er Jahre, da sind z.Z. etwa 6,5 Millionen Dokumente darin, davon etwas über 1 Million Volltexte ab 1993. Das Prinzip war lange Zeit, dass wir die Dokumente, die in der Datenbank gespeichert waren und sind, verschlagworten und dieses Prinzip haben wir auch dann, als der Volltext eingeführt wurde, in abgespeckter Form weitergeführt. Zu diesen 6,5 Millionen Dokumenten gehören dann eben auch ungefähr 10 Millionen Faksimileseiten, weil wir die Faksimiles auch noch standardmäßig aufheben.

Date

22. 4.2003 11:45:36

Search (94 results, page 1 of 5)

Authors

Years

Languages

Themes