Literatur zur Informationserschließung
Diese Datenbank enthält über 40.000 Dokumente zu Themen aus den Bereichen Formalerschließung – Inhaltserschließung – Information Retrieval.
© 2015 W. Gödert, TH Köln, Institut für Informationswissenschaft
/
Powered by litecat, BIS Oldenburg
(Stand: 28. April 2022)
Suche
Suchergebnisse
Treffer 1–6 von 6
sortiert nach:
-
1Peters, G. ; Gaese, V.: ¬Das DocCat-System in der Textdokumentation von G+J.
In: Medien-Informationsmanagement: Archivarische, dokumentarische, betriebswirtschaftliche, rechtliche und Berufsbild-Aspekte. Hrsg.: Marianne Englert u.a. Münster : LIT Verlag, 2003. S.123-133.
(Beiträge zur Mediendokumentation; Bd.6)
Abstract: Wir werden einmal die Grundlagen des Text-Mining-Systems bei IBM darstellen, dann werden wir das Projekt etwas umfangreicher und deutlicher darstellen, da kennen wir uns aus. Von daher haben wir zwei Teile, einmal Heidelberg, einmal Hamburg. Noch einmal zur Technologie. Text-Mining ist eine von IBM entwickelte Technologie, die in einer besonderen Ausformung und Programmierung für uns zusammengestellt wurde. Das Projekt hieß bei uns lange Zeit DocText Miner und heißt seit einiger Zeit auf Vorschlag von IBM DocCat, das soll eine Abkürzung für Document-Categoriser sein, sie ist ja auch nett und anschaulich. Wir fangen an mit Text-Mining, das bei IBM in Heidelberg entwickelt wurde. Die verstehen darunter das automatische Indexieren als eine Instanz, also einen Teil von Text-Mining. Probleme werden dabei gezeigt, und das Text-Mining ist eben eine Methode zur Strukturierung von und der Suche in großen Dokumentenmengen, die Extraktion von Informationen und, das ist der hohe Anspruch, von impliziten Zusammenhängen. Das letztere sei dahingestellt. IBM macht das quantitativ, empirisch, approximativ und schnell. das muss man wirklich sagen. Das Ziel, und das ist ganz wichtig für unser Projekt gewesen, ist nicht, den Text zu verstehen, sondern das Ergebnis dieser Verfahren ist, was sie auf Neudeutsch a bundle of words, a bag of words nennen, also eine Menge von bedeutungstragenden Begriffen aus einem Text zu extrahieren, aufgrund von Algorithmen, also im Wesentlichen aufgrund von Rechenoperationen. Es gibt eine ganze Menge von linguistischen Vorstudien, ein wenig Linguistik ist auch dabei, aber nicht die Grundlage der ganzen Geschichte. Was sie für uns gemacht haben, ist also die Annotierung von Pressetexten für unsere Pressedatenbank. Für diejenigen, die es noch nicht kennen: Gruner + Jahr führt eine Textdokumentation, die eine Datenbank führt, seit Anfang der 70er Jahre, da sind z.Z. etwa 6,5 Millionen Dokumente darin, davon etwas über 1 Million Volltexte ab 1993. Das Prinzip war lange Zeit, dass wir die Dokumente, die in der Datenbank gespeichert waren und sind, verschlagworten und dieses Prinzip haben wir auch dann, als der Volltext eingeführt wurde, in abgespeckter Form weitergeführt. Zu diesen 6,5 Millionen Dokumenten gehören dann eben auch ungefähr 10 Millionen Faksimileseiten, weil wir die Faksimiles auch noch standardmäßig aufheben.
Themenfeld: Data Mining ; Dokumentenmanagement
Objekt: DocCat
-
2Peters, G.: Verschlagwortung und automatische Verfahren in der G+J Dokumentation.
In: http://archiv.tu-chemnitz.de/pub/2003/0061/index.html.
Abstract: Wie man die Erarbeitung des Produkts Sacherschließung wirtschaftlicher gestalten kann, war Gegenstand des Referenten Günter Peters von der Gruner + Jahr-Dokumentation, Hamburg. Günter Peters berichtete unter anderem über das System DocCat, dem er eine erhebliche Kompetenz attestierte.
Anmerkung: Beitrag anläßlich der 27. Jahrestagung Gesellschaft für Klassifikation e.V. ;
Themenfeld: Automatisches Indexieren
Objekt: DocCat
-
3Hermes, H.-J.: Bibliothekarische Fortbildung (AG BIB) und AG Dezimalklassifikation.
In: Briefe zur Klassifikation. 2003, Nr.53, S.8-9.
Inhalt: "Erster Tag: Bibliothekarische Fortbildung zum Thema "Bibliothekarische Sacherschließung - können wir uns die noch leisten?" Der erste Veranstaltungstag in Cottbus (Dienstag) war für die traditionelle Bibliothekarische Fortbildung organisiert. Es ging diesmal um Kosten. Das Leitreferat lautete dementsprechend: "Bibliothekarische Sacherschließung - können wir uns die noch leisten?" Und der Leitreferent Dr. Klaus Ceynowa von der Staats- und Universitätsbibliothek Göttingen gab seine ExpertenAntwort mit dem ihm zu Gebote stehenden Mittel des Controlling. Heraus kam nach Abklärung der Prämissen ein "Prozesskostensatz" von 16,57 EURO pro Dokument bei einer Bearbeitungszeit von 18 Minuten im Fachreferat. Das alles berechnet nach beispielhaften Annahmen, die in der Realität einer Einzelbibliothek sicher ähnlich ausfallen würden. Eingedenk der stetig steigenden Kosten mögen in Zweifelsfällen die "Zuständigen" (die allemal in höheren Hierarchien angesiedelt sind als wir Bibliothekare) nun entscheiden, ob der Preis für das solchermaßen seriös berechnete Produkt Sacherschließung angemessen ist. Wobei zu bedenken sein würde, dass eine Literatur, die ohne sachliche Erschließung im Online-Katalog angeboten wird, noch teurer sein könnte. Man denke nur an vertane Suchzeiten am Katalog, Erhöhung der Mitarbeiterzahlen am Informationsdienst einer Bibliothek und an den worst case: Das einschlägige Buch bleibt unentdeckt im Regal stehen. Über das Produkt Sacherschließung selbst äußerte sich Dr. Holger Flachmann von der Universitäts- und Landesbibliothek Münster (Effiziente Sacherschließung als Kernaufgabe von Bibliotheken: Perspektiven und Probleme leistungsgerechter bibliothekarischer Produkte). In einem ersten Teil wurden verschiedene Ansatzmöglichkeiten vorgestellt, um die Frage nach der Effizienz der bibliothekarischen Sacherschließung zu präzisieren. Dem schloß sich als beispielhafter Anwendungsfall die Untersuchung der Effizienz eines konkreten Erschließungsverfahrens an, und zwar der verbalen Sacherschließung nach den Regeln für den Schlagwortkatalog (RSWK). Wie man die Erarbeitung des Produkts Sacherschließung wirtschaftlicher gestalten kann, war Gegenstand der Referenten Günter Peters von der Gruner + Jahr-Dokumentation, Hamburg, Prof. Dr. Harald Zimmermann, Universität des Saarlandes und Stefan Wolf vom Bibliotheksservice-Zentrum BadenWürttemberg (BSZ). Alle miteinander waren auf der Suche nach den zukunftsfähigen Erschließungsverfahren, die intellektuelle Leistungen einsparen helfen und trotzdem den Weg zur gewünschten Literatur öffnen können sollen. ; Günter Peters legte eine PowerPoint-Datei vor, die er krankheitshalber nicht erläutern konnte. Dem bei Gruner + Jahr eingesetzten System DocCat attestierte er eine erhebliche Kompetenz. Umso bedauerlicher, dass in seiner Abwesenheit in Cottbus lediglich einige seiner Folien mit laienhaftem Kommentar vorgestellt werden konnten. Unser Trost: Vielleicht wird DocCat im März 2004 in Dortmund vom Kollegen Peters vorgeführt. Prof. Zimmermann war einer der Beteiligten bei der Entwicklung des Systems Milos/KASCADE (das bei der Jahrestagung der GfKI in München schon vorgestellt wurde). In Cottbus lieferte Zimmermann Gedanken zur automatisierten verbalen Sacherschließung, wobei er kurz das Milos/KASCADE-Verfahren streifte und an das von Lustig und Knorz in den 80er Jahren entwickelte Verfahren Air/Phys erinnerte. Dort "lernt" das System mit dem Anwachsen eines lexikalischen Inventars (ISBN 3-48707825-2). Leider ist die Weiterentwicklung von Air/Phys aber unterblieben. Stefan Wolf vom BSZ berichtete über den anderen Weg, Sacherschließung zu erleichtern, nämlich durch Übernahme von Fremdleistungen. Aktuelle Maßnahme hierzu war die Übernahme von Erschließungsdaten sowohl klassifikatorischer als auch verbaler Art aus dem Bibliotheks-Verbund Bayern (BVB) in die Titelaufnahmen, die der Südwestverbund vorhält. Im Frühjahr 2002 verfügte der Südwestverbund über 1,6 Millionen Schlagwortketten an 1,3 Millionen Titeln. Bei der klassifikatorischen Sacherschließung durch die Regensburger Verbundklassifikation (RVK) verfügte der Verbund über lediglich 2% Erschließung. Nach der Anreicherung der Titeldaten durch Übernahme von Bayerischen Sacherschließungsdaten im Laufe des Jahres 2002 verfügten nunmehr 2.4 Millionen Titelaufnahmen über verbale Erschließung (24,9 % von derzeit 9,6 Millionen Titeln Gesamtbestand) und über 18,2 % klassifikatorische Erschließung mit RVK. Dieser Zugang an intellektueller Indexierung fließt derzeit in die Online-Kataloge der angeschlossenen Bibliotheken und eröffnet dort den Nutzern die sachlichen Zugänge zu ihren Schätzen. Abgerundet wurde die Thematik durch Berichte aus Bibliotheken und einer sachlich nahestehenden Einrichtung, so von Jiri Pika von der ETH-Bibliothek in Zürich, Kerstin Zimmerman vom Forschungszentrum Telekommunikation Wien, Horst Lindner von der Universitätsbibliothek der Brandenburgischen Technischen Universität Cottbus und Dörte Braune-Egloff von der UB der Freien Universität Berlin. Wobei Frau Braune-Egloff deutlich machte, dass die von Ihr vertretene Bibliothek zwar zentrale Aufgaben im Bereich der SWD-Kooperation im Kooperativen Bibliotheksverbund Berlin-Brandenburg (KOBV). wahrnimmt, allerdings nicht komplett diejenigen einer "Verbundzentrale Sacherschliessung" im herkömmlichen Sinn. Die Vorträge bzw. Power-Point-Präsentationen von Cottbus werden bei Erscheinen des Mitgliederbriefes bereits auf dem Archivserver MONARCH der TU Chemnitz verfügbar sein. Die Adresse: http://archiv.tu-chemnitz.de. In der Sache ein klares Eingeständnis: Noch sind wir nicht so weit, dass sich beispielsweise eine Scan-Apparatur gleichsam in ein Buch versenkt und anschließend dem Online Katalog der besitzenden Bibliothek einen oder mehrere Erschließungsdatensätze hinzufügt. Zum Glück nicht, denn dann könnten die Bibliothekare die Reise nach Dortmund von vornherein unterlassen. So wie die Dinge liegen, gibt es noch viel Neues zu entdecken und Gedanken darüber auszutauschen. Daher schon jetzt mein Aufruf: Die Dortmunder Tagung vom Dienstag, 9. bis Donnerstag, 11. März 2004 vormerken!"
Objekt: DocCat ; MILOS ; KASCADE ; AIR/PHYS ; RSWK ; BSZ ; KOBV ; RVK
-
4Englert, M. u.a. (Hrsg.): Medien-Informationsmanagement : Archivarische, dokumentarische, betriebswirtschaftliche, rechtliche und Berufsbild-Aspekte ; [Frühjahrstagung der Fachgruppe 7 im Jahr 2000 in Weimar und Folgetagung 2001 in Köln].
Münster : LIT Verlag, 2003. 276 S.
ISBN 3-8258-6655-6
(Beiträge zur Mediendokumentation; Bd.6)
Abstract: Als in den siebziger Jahren des vergangenen Jahrhunderts immer häufiger die Bezeichnung Informationsmanager für Leute propagiert wurde, die bis dahin als Dokumentare firmierten, wurde dies in den etablierten Kreisen der Archivare und Bibliothekare gelegentlich belächelt und als Zeichen einer Identitätskrise oder jedenfalls einer Verunsicherung des damit überschriebenen Berufsbilds gewertet. Für den Berufsstand der Medienarchivare/Mediendokumentare, die sich seit 1960 in der Fachgruppe 7 des Vereins, später Verbands deutscher Archivare (VdA) organisieren, gehörte diese Verortung im Zeichen neuer inhaltlicher Herausforderungen (Informationsflut) und Technologien (EDV) allerdings schon früh zu den Selbstverständlichkeiten des Berufsalltags. "Halt, ohne uns geht es nicht!" lautete die Überschrift eines Artikels im Verbandsorgan "Info 7", der sich mit der Einrichtung von immer mächtigeren Leitungsnetzen und immer schnelleren Datenautobahnen beschäftigte. Information, Informationsgesellschaft: diese Begriffe wurden damals fast nur im technischen Sinne verstanden. Die informatisierte, nicht die informierte Gesellschaft stand im Vordergrund - was wiederum Kritiker auf den Plan rief, von Joseph Weizenbaum in den USA bis hin zu den Informations-Ökologen in Bremen. Bei den nationalen, manchmal auch nur regionalen Projekten und Modellversuchen mit Datenautobahnen - auch beim frühen Btx - war nie so recht deutlich geworden, welche Inhalte in welcher Gestalt durch diese Netze und Straßen gejagt werden sollten und wer diese Inhalte eigentlich selektieren, portionieren, positionieren, kurz: managen sollte. Spätestens mit dem World Wide Web sind diese Projekte denn auch obsolet geworden, jedenfalls was die Hardware und Software anging. Geblieben ist das Thema Inhalte (neudeutsch: Content). Und - immer drängender im nicht nur technischen Verständnis - das Thema Informationsmanagement. MedienInformationsManagement war die Frühjahrstagung der Fachgruppe 7 im Jahr 2000 in Weimar überschrieben, und auch die Folgetagung 2001 in Köln, die der multimedialen Produktion einen dokumentarischen Pragmatismus gegenüber stellte, handelte vom Geschäftsfeld Content und von Content-Management-Systemen. Die in diesem 6. Band der Reihe Beiträge zur Mediendokumentation versammelten Vorträge und Diskussionsbeiträge auf diesen beiden Tagungen beleuchten das Titel-Thema aus den verschiedensten Blickwinkeln: archivarischen, dokumentarischen, kaufmännischen, berufsständischen und juristischen. Deutlich wird dabei, daß die Berufsbezeichnung Medienarchivarln/Mediendokumentarln ziemlich genau für all das steht, was heute mit sog. alten wie neuen Medien im organisatorischen, d.h. ordnenden und vermittelnden Sinne geschieht. Im besonderen Maße trifft dies auf das Internet und die aus ihm geborenen Intranets zu. Beide bedürfen genauso der ordnenden Hand, die sich an den alten Medien, an Buch, Zeitung, Tonträger, Film etc. geschult hat, denn sie leben zu großen Teilen davon. Daß das Internet gleichwohl ein Medium sui generis ist und die alten Informationsberufe vor ganz neue Herausforderungen stellt - auch das durchzieht die Beiträge von Weimar und Köln. ; Vorliegender Band umgreift den gegenwärtigen Stand der Diskussion um das Handling von Informationen in und mit Hilfe von neuen und alten Medien und liefert außerdem dem Verein Fortbildung für Medienarchivare/ Mediendokumentare (VFM), der seit dem 5. Band die Reihe herausgibt, eine weitere Handreichung für die zusammen mit dem Deutschen Institut, für publizistische Bildungsarbeit in Hagen veranstalteten Seminare. Im Anhang sind außer den vollständigen Programmen der beiden Frühjahrstagungen die Namen und institutionellen Anbindungen der Referenten nachzulesen. Allen Autoren des Bandes sei für ihre Bereitschaft, an dieser Publikation mitzuwirken, gedankt, insbesondere denen, die sich auch noch der Mühe unterziehen mußten, das Transkript ihres in freier Rede gehaltenen Vortrags in eine lesbare Fassung zu bringen. Manche Eigentümlichkeiten des Stils sind dieser freien Rede geschuldet - oder vielleicht auch gedankt, denn sie geben damit umso lebendiger die Atmosphäre jener Frühlingstage in Weimar und Köln wieder.
Inhalt: Enthält u.a. die Beiträge (Dokumentarische Aspekte): Günter Perers/Volker Gaese: Das DocCat-System in der Textdokumentation von Gr+J (Weimar 2000) Thomas Gerick: Finden statt suchen. Knowledge Retrieval in Wissensbanken. Mit organisiertem Wissen zu mehr Erfolg (Weimar 2000) Winfried Gödert: Aufbereitung und Rezeption von Information (Weimar 2000) Elisabeth Damen: Klassifikation als Ordnungssystem im elektronischen Pressearchiv (Köln 2001) Clemens Schlenkrich: Aspekte neuer Regelwerksarbeit - Multimediales Datenmodell für ARD und ZDF (Köln 2001) Josef Wandeler: Comprenez-vous only Bahnhof'? - Mehrsprachigkeit in der Mediendokumentation (Köln 200 1)
Themenfeld: Data Mining ; Dokumentenmanagement
Objekt: DocCat
LCSH: Mass media / Archival resources / Congresses ; Audio / visual archives / Congresses ; Information technology / Management / Congresses
RSWK: Mediendokumentation / Aufsatzsammlung ; Medien / Informationsmanagement / Aufsatzsammlung ; Pressearchiv / Aufsatzsammlung (HBZ) ; Rundfunkarchiv / Aufsatzsammlung (HBZ)
BK: 06.35 / Informationsmanagement ; 06.44 / IuD-Einrichtungen ; 05.30 / Massenkommunikation / Massenmedien: Allgemeines
GHBS: KKV (SI) ; AYW (HA) ; BAQC (FH K)
LCC: P96.A72M43 2002
RVK: AN 92650 ; AP 11500 Allgemeines / Medien- und Kommunikationswissenschaften, Kommunikationsdesign / Bibliographien und Sammelschriften / Tagungs- und Kongreßberichte (CSN)
-
5Rapke, K.: Automatische Indexierung von Volltexten für die Gruner+Jahr Pressedatenbank.
In: Information Research & Content Management: Orientierung, Ordnung und Organisation im Wissensmarkt; 23. DGI-Online-Tagung der DGI und 53. Jahrestagung der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis e.V. DGI, Frankfurt am Main, 8.-10.5.2001. Proceedings. Hrsg.: R. Schmidt. Frankfurt am Main : DGI, 2001. S.321-342.
(Tagungen der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis; 4)
Abstract: Retrievaltests sind die anerkannteste Methode, um neue Verfahren der Inhaltserschließung gegenüber traditionellen Verfahren zu rechtfertigen. Im Rahmen einer Diplomarbeit wurden zwei grundsätzlich unterschiedliche Systeme der automatischen inhaltlichen Erschließung anhand der Pressedatenbank des Verlagshauses Gruner + Jahr (G+J) getestet und evaluiert. Untersucht wurde dabei natürlichsprachliches Retrieval im Vergleich zu Booleschem Retrieval. Bei den beiden Systemen handelt es sich zum einen um Autonomy von Autonomy Inc. und DocCat, das von IBM an die Datenbankstruktur der G+J Pressedatenbank angepasst wurde. Ersteres ist ein auf natürlichsprachlichem Retrieval basierendes, probabilistisches System. DocCat demgegenüber basiert auf Booleschem Retrieval und ist ein lernendes System, das aufgrund einer intellektuell erstellten Trainingsvorlage indexiert. Methodisch geht die Evaluation vom realen Anwendungskontext der Textdokumentation von G+J aus. Die Tests werden sowohl unter statistischen wie auch qualitativen Gesichtspunkten bewertet. Ein Ergebnis der Tests ist, dass DocCat einige Mängel gegenüber der intellektuellen Inhaltserschließung aufweist, die noch behoben werden müssen, während das natürlichsprachliche Retrieval von Autonomy in diesem Rahmen und für die speziellen Anforderungen der G+J Textdokumentation so nicht einsetzbar ist
Themenfeld: Dokumentenmanagement ; Automatisches Indexieren ; Computerlinguistik ; Retrievalstudien
Objekt: Gruner+Jahr ; DocCat ; Autonomy ; DigDok
Land/Ort: D
-
6Rapke, K.: Automatische Indexierung von Volltexten für die Gruner+Jahr Pressedatenbank.
In: nfd Information - Wissenschaft und Praxis. 52(2001) H.5, S.251-262.
Abstract: Retrieval Tests sind die anerkannteste Methode, um neue Verfahren der Inhaltserschließung gegenüber traditionellen Verfahren zu rechtfertigen. Im Rahmen einer Diplomarbeit wurden zwei grundsätzlich unterschiedliche Systeme der automatischen inhaltlichen Erschließung anhand der Pressedatenbank des Verlagshauses Gruner + Jahr (G+J) getestet und evaluiert. Untersucht wurde dabei natürlichsprachliches Retrieval im Vergleich zu Booleschem Retrieval. Bei den beiden Systemen handelt es sich zum einen um Autonomy von Autonomy Inc. und DocCat, das von IBM an die Datenbankstruktur der G+J Pressedatenbank angepasst wurde. Ersteres ist ein auf natürlichsprachlichem Retrieval basierendes, probabilistisches System. DocCat demgegenüber basiert auf Booleschem Retrieval und ist ein lernendes System, das auf Grund einer intellektuell erstellten Trainingsvorlage indexiert. Methodisch geht die Evaluation vom realen Anwendungskontext der Textdokumentation von G+J aus. Die Tests werden sowohl unter statistischen wie auch qualitativen Gesichtspunkten bewertet. Ein Ergebnis der Tests ist, dass DocCat einige Mängel gegenüber der intellektuellen Inhaltserschließung aufweist, die noch behoben werden müssen, während das natürlichsprachliche Retrieval von Autonomy in diesem Rahmen und für die speziellen Anforderungen der G+J Textdokumentation so nicht einsetzbar ist
Themenfeld: Automatisches Indexieren ; Retrievalstudien ; Computerlinguistik ; Dokumentenmanagement
Objekt: Gruner+Jahr ; DocCat ; Autonomy ; DigDok