Literatur zur Informationserschließung
Diese Datenbank enthält über 40.000 Dokumente zu Themen aus den Bereichen Formalerschließung – Inhaltserschließung – Information Retrieval.
© 2015 W. Gödert, TH Köln, Institut für Informationswissenschaft
/
Powered by litecat, BIS Oldenburg
(Stand: 03. März 2020)
Suche
Suchergebnisse
Treffer 1–8 von 8
sortiert nach:
-
1Groß, T.: Automatische Indexierung von Dokumenten in einer wissenschaftlichen Bibliothek : Implementierung und Evaluierung am Beispiel der Deutschen Zentralbibliothek für Wirtschaftswissenschaften.
Hamburg : Diplomica Verlag, 2011. IV, 88 S.
ISBN 978-3-84285801-5
Abstract: Die Bewertung der Indexierungsqualität bzw. -güte ist ein grundlegendes Problem von intellektuellen und automatischen Indexierungsverfahren. Letztere werden aber gerade im digitalen Zeitalter als einzige Möglichkeit angesehen, den zunehmenden Schwierigkeiten bibliothekarischer Informationsstrukturierung gerecht zu werden. Diese Studie befasst sich mit der Funktionsweise, Implementierung und Evaluierung der Sacherschließungssoftware MindServer Categorizer der Firma Recommind an der Deutschen Zentralbibliothek für Wirtschaftswissenschaften. Grundlage der maschinellen Sacherschließung und anschließenden quantitativen und qualitativen Auswertung bilden rund 39.000 wirtschaftswissenschaftliche Dokumente aus den Datenbanken Econis und EconStor. Unter Zuhilfenahme des rund 6.000 Schlagwörter umfassenden Standard-Thesaurus Wirtschaft wird der ursprünglich rein statistische Indexierungsansatz des MindServer Categorizer zu einem begriffsorientierten Verfahren weiterentwickelt und zur Inhaltserschließung digitaler Informationsressourcen eingesetzt. Der zentrale Fokus dieser Studie liegt vor allem auf der Evaluierung der maschinell beschlagworteten Titel, in Anlehnung an die hierzu von Stock und Lancaster vorgeschlagenen Kriterien: Indexierungskonsistenz, -tiefe, -breite, -spezifität, -effektivität. Weiterhin wird die Belegungsbilanz des STW evaluiert und es erfolgt zusätzlich eine qualitative, stichprobenartige Bewertung der Ergebnisse seitens der zuständigen Fachreferenten und -referentinnen.
Inhalt: Vgl. die zugrunde liegende Masterarbeit unter: http://edoc.hu-berlin.de/series/berliner-handreichungen/2010-284/PDF/284.pdf.
Themenfeld: Automatisches Indexieren
Wissenschaftsfach: Wirtschaftswissenschaften
Objekt: MindServer Categorizer
RSWK: Automatische Indexierung / Dokument / Wissenschaftliche Bibliothek
BK: 06.41 Wissenschaftliche Bibliotheken ; 06.54 Bibliotheksautomatisierung ; 06.70 Katalogisierung, Bestandserschließung
RVK: AN 95300
-
2Gödert, W. ; Lepsky, K. ; Nagelschmidt, M.: Informationserschließung und Automatisches Indexieren : ein Lehr- und Arbeitsbuch.
Berlin : Springer, 2011. XIV, 434 S.
ISBN 978-3-642-23512-2
Abstract: Das Buch vermittelt Kenntnisse über die Modellierung dokumentbezogener Metadaten durch praktische Aufgabenstellungen, begleitende theoretische Erläuterungen sowie ergänzende Übungen. Als Beispiele dienen Bilddokumente und bibliografische Daten. Es wird vermittelt, wie entsprechende Datenbanken aufgebaut und mit geeigneten Suchumgebungen ausgestattet werden. Es wird dargestellt und praktisch geübt, wie Kenntnisse über die Struktur der Daten zum Import von Fremddaten genutzt werden können. Zielvorstellung ist der Aufbau von Datenbanken zur formalen und inhaltlichen Erschließung und die Gestaltung von Retrievalumgebungen, für bibliografische Daten auch die Erstellung von Bibliografien. Als Methoden zur inhaltlichen Erschließung werden besonders die semantische Strukturierung von Themenfeldern am Beispiel des aspektorientierten Thesaurus-Konzepts und das Automatische Indexieren bibliografischer Daten behandelt. Abgerundet wird die Darstellung durch die Diskussion von Bezügen zum Aufbau relationaler Datenbanken für bibliografische Daten sowie Hintergründe der Zeichencodierung und Ordnungsfragen.
Inhalt: Vgl. auch: http://www.springerlink.com/content/978-3-642-23512-2/#section=967982&page=1.
Anmerkung: Rez. in: ABI Technik 32(2012) H.2, S.113-114 (F. Förster)
Themenfeld: Grundlagen u. Einführungen: Allgemeine Literatur
LCSH: Computer science ; Database management ; Information storage and retrieval systems ; Computational linguistics ; Library science
RSWK: Bilddatenbank ; Literaturdatenbank ; Relationale Datenbank ; Datenorganisation ; Bibliografische Beschreibung ; Inhaltserschließung ; Automatische Indexierung ; Information Retrieval
BK: 06.70 (Katalogisierung / Bestandserschließung) ; 06.74 (Informationssysteme)
DDC: 025.30285 / ddc22ger ; 025.04 / ddc22ger
GHBS: BCA (FHK) ; AVJ (W)
LCC: Z695.92 ; QA76.9
RVK: AN 73400 ; AN 95300 ; ST 265 ; ST 270 ; AN 95100
-
3Harms, I. u.a. (Hrsg.): Information und Sprache : Beiträge zu Informationswissenschaft, Computerlinguistik, Bibliothekswesen und verwandten Fächern. Festschrift für Harald H. Zimmermann. Herausgegeben von Ilse Harms, Heinz-Dirk Luckhardt und Hans W. Giessen.
München : Saur, 2006. VI, 290 S.
ISBN 3-598-11754-X
Abstract: Der vorliegende Band enthält Beiträge namhafter Autoren aus den Bereichen Informationswissenschaft, Computerlinguistik, Kommunikationswissenschaft, Bibliothekswesen und verwandten Fächern. Es werden sowohl aktuelle theoretische Themen behandelt, etwa zu Medientheorie und Internet, zum Verhältnis von Information und kulturellem Gedächtnis oder über Information im Museum, als auch praktische Anwendungen und Vorschläge gegeben, wie z.B. zur Automatischen Indexierung und zur Wissensrepräsentation.
Inhalt: Inhalt: Information und Sprache und mehr - eine Einleitung - Information und Kommunikation Wolf Rauch: Auch Information ist eine Tochter der Zeit Winfried Lenders: Information und kulturelles Gedächtnis Rainer Hammwöhner: Anmerkungen zur Grundlegung der Informationsethik Hans W. Giessen: Ehrwürdig stille Informationen Gernot Wersig: Vereinheitlichte Medientheorie und ihre Sicht auf das Internet Johann Haller, Anja Rütten: Informationswissenschaft und Translationswissenschaft: Spielarten oder Schwestern? Rainer Kuhlen: In Richtung Summarizing für Diskurse in K3 Werner Schweibenz: Sprache, Information und Bedeutung im Museum. Narrative Vermittlung durch Storytelling - Sprache und Computer, insbesondere Information Retrieval und Automatische Indexierung Manfred Thiel: Bedingt wahrscheinliche Syntaxbäume Jürgen Krause: Shell Model, Semantic Web and Web Information Retrieval Elisabeth Niggemann: Wer suchet, der findet? Verbesserung der inhaltlichen Suchmöglichkeiten im Informationssystem Der Deutschen Bibliothek Christa Womser-Hacker: Zur Rolle von Eigennamen im Cross-Language Information Retrieval Klaus-Dirk Schmitz: Wörterbuch, Thesaurus, Terminologie, Ontologie. Was tragen Terminologiewissenschaft und Informationswissenschaft zur Wissensordnung bei? ; Jiri Panyr: Thesauri, Semantische Netze, Frames, Topic Maps, Taxonomien, Ontologien - begriffliche Verwirrung oder konzeptionelle Vielfalt? Heinz-Dieter Maas: Indexieren mit AUTINDEX Wilhelm Gaus, Rainer Kaluscha: Maschinelle inhaltliche Erschließung von Arztbriefen und Auswertung von Reha-Entlassungsberichten Klaus Lepsky: Automatische Indexierung des Reallexikons zur Deutschen Kunstgeschichte - Analysen und Entwicklungen Ilse Harms: Die computervermittelte Kommunikation als ein Instrument des Wissensmanagements in Organisationen August- Wilhelm Scheer, Dirk Werth: Geschäftsregel-basiertes Geschäftsprozessmanagement Thomas Seeger: Akkreditierung und Evaluierung von Hochschullehre und -forschung in Großbritannien. Hinweise für die Situation in Deutschland Bernd Hagenau: Gehabte Sorgen hab' ich gern? Ein Blick zurück auf die Deutschen Bibliothekartage 1975 bis 1980 - Persönliches Jorgo Chatzimarkakis: Sprache und Information in Europa Alfred Gulden: 7 Briefe und eine Anmerkung Günter Scholdt: Der Weg nach Europa im Spiegel von Mundartgedichten Alfred Guldens Wolfgang Müller: Prof. Dr. Harald H. Zimmermann - Seit 45 Jahren der Universität des Saarlandes verbunden Heinz-Dirk Luckhardt: Computerlinguistik und Informationswissenschaft: Facetten des wissenschaftlichen Wirkens von Harald H. Zimmermann Schriftenverzeichnis Harald H. Zimmermanns 1967-2005 - Projekte in Verantwortung von Harald H. Zimmermann - Adressen der Beiträgerinnen und Beiträger
Anmerkung: Rez. in Mitt. VÖB 59(2006) Nr.3, S.75-78 (O. Oberhauser): "Beim vorliegenden Buch handelt es sich um die Festschrift zum 65. Geburtstag des mit Ende des Sommersemesters 2006 in den Ruhestand getretenen Universitätsprofessors für Informationswissenschaft, Harald H. Zimmermann, jenes 1941 in Völklingen geborenen Computerlinguisten, der die Informationswissenschaft als akademische Disziplin in Deutschland mitbegründet und seit 1980 an der Universität des Saarlandes vertreten hat. Die insgesamt 26 Beiträge des von Professor Zimmermanns Mitarbeitern betreuten, optisch gediegen anmutenden Saur-Bandes gliedern sich - so das Inhaltsverzeichnis - in vier Themenschwerpunkte: - Information und Kommunikation - Sprache und Computer, insbesondere Information Retrieval und Automatische Indexierung - Analysen und Entwicklungen - Persönliches Die Aufsätze selbst variieren, wie bei Festschriften üblich bzw. unvermeidbar, hinsichtlich Länge, Stil, thematischem Detail und Anspruchsniveau. Neben wissenschaftlichen Beiträgen findet man hier auch Reminiszenzen und Literarisches. Die nachfolgende Auswahl zeigt, was mich selbst an diesem Buch interessiert hat: ; In Information und kulturelles Gedächtnis (S. 7-15) plädiert der Kommunikationswissenschaftler Winfried Lenders (Bonn) dafür, Information nicht mit dem zu identifizieren, was heute als (kulturelles) Gedächtnis bezeichnet wird. Information ist ein Prozess bzw. Vorgang und kein manifestes Substrat; sie setzt aber ein solches Substrat, nämlich das im (kulturellen) Gedächtnis abgespeicherte Wissen, voraus. Allerdings führt nicht jedes Informieren zu einer Vermehrung des kulturellen Gedächtnisses - das notwendige Auswahlkriterium liegt jedoch nicht in der grundsätzliche Möglichkeit zum Speichern von Inhalten. Es liegt auch nicht ausschliesslich in formalisierten Aussonderungsmechanismen wie Skartieren, Zitationsindizes und Relevanzrangreihen, sondern in der gesellschaftlichen Kommunikation schlechthin. Auch an die Verfügbarkeit des Schriftlichen ist das kulturelle Gedächtnis nicht gebunden, zumal ja auch in Kulturen der Oralität gesellschaftlich Wichtiges aufbewahrt wird. Rainer Hammwöhner (Regensburg) geht in Anmerkungen zur Grundlegung der Informationsethik (S. 17-27) zunächst auf die "Überversorgung" des Informationssektors mit Spezialethiken ein, wobei er neben der (als breiter angesehenen) Informationsethik konkurrierende Bereichsethiken wie Medienethik, Computerethik und Netzethik/Cyberethik thematisiert und Überlappungen, Abgrenzung, Hierarchisierung etc. diskutiert. Versuche einer diskursethischen wie einer normenethischen Begründung der Informationsethik sind nach Hammwöhner zum Scheitern verurteilt, sodass er einen pragmatistischen Standpunkt einnimmt, wonach Informationsethik ganz einfach "die Analyse und Systematisierung der im Zusammenhang der digitalen Kommunikation etablierten normativen Handlungsmuster" zu leisten habe. In diesem Konnex werden Fragen wie jene nach dem Guten, aber auch Aspekte wie die Bewahrung des kulturellen Erbes für spätere Generationen und der Erhalt der kulturellen Mannigfaltigkeit angesprochen. Der Beitrag des vor kurzem verstorbenen Gründungsvaters der deutschen Informationswissenschaft, Gernot Wersig (Berlin), ist mit Vereinheitlichte Medientheorie und ihre Sicht auf das Internet (S. 35-46) überschrieben. Der Autor gibt darin einen kurzen Überblick über bisherige medientheoretische Ansätze und versucht sodann - ausgehend von den Werken Niklas Luhmanns und Herbert Stachowiaks - eine "vereinheitlichte Medientheorie" zu entwickeln. Dabei werden die Faktoren Kommunikation, Medien, Medienplattformen und -typologien, Medienevolution und schließlich die digitale Revolution diskutiert. Das Internet, so folgert Wersig, sei eine Medienplattform mit dem Potential, eine ganze Epoche zu gestalten. In Anlehnung an den bekannten Begriff "Gutenberg-Galaxis" spricht er hier auch von einer "Internet-Galaxie". Obwohl dieser Artikel viele interessante Gedanken enthält, erschließt er sich dem Leser leider nur schwer, da vieles vorausgesetzt wird und auch der gewählte Soziologenjargon nicht jedermanns Sache ist. ; In Thesauri, Semantische Netze, Frames, Topic Maps, Taxonomien, Ontologien - begriffliche Verwirrung oder konzeptionelle Vielfalt? (S. 139-151) gibt Jiri Panyr (München/Saarbrücken) eine gut lesbare und nützliche Übersicht über die im Titel des Beitrags genannten semantischen Repräsentationsformen, die im Zusammenhang mit dem Internet und insbesondere mit dem vorgeschlagenen Semantic Web immer wieder - und zwar häufig unpräzise oder gar unrichtig - Anwendung finden. Insbesondere die Ausführungen zum Modebegriff Ontologie zeigen, dass dieser nicht leichtfertig als Quasi-Synonym zu Thesaurus oder Klassifikation verwendet werden darf. Panyrs Beitrag ist übrigens thematisch verwandt mit jenem von K.-D. Schmitz (Köln), Wörterbuch, Thesaurus, Terminologie, Ontologie (S. 129-137). Abgesehen von dem einfallslosen Titel Wer suchet, der findet? (S. 107- 118) - zum Glück mit dem Untertitel Verbesserung der inhaltlichen Suchmöglichkeiten im Informationssystem Der Deutschen Bibliothek versehen - handelt es sich bei diesem Artikel von Elisabeth Niggemann (Frankfurt am Main) zwar um keinen wissenschaftlichen, doch sicherlich den praktischsten, lesbarsten und aus bibliothekarischer Sicht interessantesten des Buches. Niggemann gibt einen Überblick über die bisherige sachliche Erschliessung der bibliographischen Daten der inzwischen zur Deutschen Nationalbibliothek mutierten DDB, sowie einen Statusbericht nebst Ausblick über gegenwärtige bzw. geplante Verbesserungen der inhaltlichen Suche. Dazu zählen der breite Einsatz eines automatischen Indexierungsverfahrens (MILOS/IDX) ebenso wie Aktivitäten im klassifikatorischen Bereich (DDC), die Vernetzung nationaler Schlagwortsysteme (Projekt MACS) sowie die Beschäftigung mit Crosskonkordanzen (CARMEN) und Ansätzen zur Heterogenitätsbehandlung. Das hier von zentraler Stelle deklarierte "commitment" hinsichtlich der Verbesserung der sachlichen Erschließung des nationalen Online-Informationssystems erfüllt den eher nur Kleinmut und Gleichgültigkeit gewohnten phäakischen Beobachter mit Respekt und wehmutsvollem Neid. ; Mit automatischer Indexierung beschäftigen sich auch zwei weitere Beiträge. Indexieren mit AUTINDEX von H.-D. Mass (Saarbrücken) ist leider knapp und ohne didaktische Ambition verfasst, sodass man sich nicht wirklich vorstellen kann, wie dieses System funktioniert. Übersichtlicher stellt sich der Werkstattbericht Automatische Indexierung des Reallexikons zur deutschen Kunstgeschichte von K. Lepsky (Köln) dar, der zeigt, welche Probleme und Schritte bei der Digitalisierung, Indexierung und Web-Präsentation der Volltexte eines grossen fachlichen Nachschlagewerkes anfallen. Weitere interessante Beiträge befassen sich z.B. mit Summarizing-Leistungen im Rahmen eines e-Learning-Projektes (R. Kuhlen), mit dem Schalenmodell und dem Semantischen Web (J. Krause; aus nicht näher dargelegten Gründen in englischer Sprache) und mit der Akkreditierung/ Evaluierung von Hochschullehre und -forschung in Großbritannien (T. Seeger). In Summe liegt hier eine würdige Festschrift vor, über die sich der Gefeierte sicherlich gefreut haben wird. Für informationswissenschaftliche Spezialsammlungen und größere Bibliotheken ist der Band allemal eine Bereicherung. Ein Wermutstropfen aber doch: Obzwar mit Information und Sprache ein optisch ansprechend gestaltetes Buch produziert wurde, enthüllt eine nähere Betrachtung leider allzu viele Druckfehler, mangelhafte Worttrennungen, unkorrigierte grammatikalische Fehler, sowie auch Inkonsistenzen bei Kursivdruck und Satzzeichen. Lektoren und Korrektoren sind, so muss man wieder einmal schmerzlich zur Kenntnis nehmen, ein aussterbender Berufsstand."
Themenfeld: Computerlinguistik
RSWK: Informations- und Dokumentationswissenschaft / Aufsatzsammlung ; Information Retrieval / Aufsatzsammlung ; Automatische Indexierung / Aufsatzsammlung ; Linguistische Datenverarbeitung / Aufsatzsammlung ; Zimmermann, Harald H. / Bibliographie
BK: 06.30 Bibliothekswesen ; 17.46 Mathematische Linguistik ; 18.00 Einzelne Sprachen und Literaturen allgemein
-
4Stamou, G. u. S. Kollias (Hrsg.): Multimedia content and the Semantic Web : methods, standards, and tools.
Chichester : Wiley, 2005. XXII, 392 S.
ISBN 0-470-85753-6
Anmerkung: Rez. in: JASIST 58(2007) no.3, S.457-458 (A.M.A. Ahmad): "The concept of the semantic web has emerged because search engines and text-based searching are no longer adequate, as these approaches involve an extensive information retrieval process. The deployed searching and retrieving descriptors arc naturally subjective and their deployment is often restricted to the specific application domain for which the descriptors were configured. The new era of information technology imposes different kinds of requirements and challenges. Automatic extracted audiovisual features are required, as these features are more objective, domain-independent, and more native to audiovisual content. This book is a useful guide for researchers, experts, students, and practitioners; it is a very valuable reference and can lead them through their exploration and research in multimedia content and the semantic web. The book is well organized, and introduces the concept of the semantic web and multimedia content analysis to the reader through a logical sequence from standards and hypotheses through system examples, presenting relevant tools and methods. But in some chapters readers will need a good technical background to understand some of the details. Readers may attain sufficient knowledge here to start projects or research related to the book's theme; recent results and articles related to the active research area of integrating multimedia with semantic web technologies are included. This book includes full descriptions of approaches to specific problem domains such as content search, indexing, and retrieval. This book will be very useful to researchers in the multimedia content analysis field who wish to explore the benefits of emerging semantic web technologies in applying multimedia content approaches. The first part of the book covers the definition of the two basic terms multimedia content and semantic web. The Moving Picture Experts Group standards MPEG7 and MPEG21 are quoted extensively. In addition, the means of multimedia content description are elaborated upon and schematically drawn. This extensive description is introduced by authors who are actively involved in those standards and have been participating in the work of the International Organization for Standardization (ISO)/MPEG for many years. On the other hand, this results in bias against the ad hoc or nonstandard tools for multimedia description in favor of the standard approaches. This is a general book for multimedia content; more emphasis on the general multimedia description and extraction could be provided. ; Semantic web technologies are explained, and ontology representation is emphasized. There is an excellent summary of the fundamental theory behind applying a knowledge-engineering approach to vision problems. This summary represents the concept of the semantic web and multimedia content analysis. A definition of the fuzzy knowledge representation that can be used for realization in multimedia content applications has been provided, with a comprehensive analysis. The second part of the book introduces the multimedia content analysis approaches and applications. In addition, some examples of methods applicable to multimedia content analysis are presented. Multimedia content analysis is a very diverse field and concerns many other research fields at the same time; this creates strong diversity issues, as everything from low-level features (e.g., colors, DCT coefficients, motion vectors, etc.) up to the very high and semantic level (e.g., Object, Events, Tracks, etc.) are involved. The second part includes topics on structure identification (e.g., shot detection for video sequences), and object-based video indexing. These conventional analysis methods are supplemented by results on semantic multimedia analysis, including three detailed chapters on the development and use of knowledge models for automatic multimedia analysis. Starting from object-based indexing and continuing with machine learning, these three chapters are very logically organized. Because of the diversity of this research field, including several chapters of recent research results is not sufficient to cover the state of the art of multimedia. The editors of the book should write an introductory chapter about multimedia content analysis approaches, basic problems, and technical issues and challenges, and try to survey the state of the art of the field and thus introduce the field to the reader. ; The final part of the book discusses research in multimedia content management systems and the semantic web, and presents examples and applications for semantic multimedia analysis in search and retrieval systems. These chapters describe example systems in which current projects have been implemented, and include extensive results and real demonstrations. For example, real case scenarios such as ECommerce medical applications and Web services have been introduced. Topics in natural language, speech and image processing techniques and their application for multimedia indexing, and content-based retrieval have been elaborated upon with extensive examples and deployment methods. The editors of the book themselves provide the readers with a chapter about their latest research results on knowledge-based multimedia content indexing and retrieval. Some interesting applications for multimedia content and the semantic web are introduced. Applications that have taken advantage of the metadata provided by MPEG7 in order to realize advance-access services for multimedia content have been provided. The applications discussed in the third part of the book provide useful guidance to researchers and practitioners properly planning to implement semantic multimedia analysis techniques in new research and development projects in both academia and industry. A fourth part should be added to this book: performance measurements for integrated approaches of multimedia analysis and the semantic web. Performance of the semantic approach is a very sophisticated issue and requires extensive elaboration and effort. Measuring the semantic search is an ongoing research area; several chapters concerning performance measurement and analysis would be required to adequately cover this area and introduce it to readers."
Themenfeld: Semantic Web ; Multimedia
LCSH: Multimedia systems ; Semantic Web ; Information storage and retrieval systems
RSWK: Semantic Web / Multimedia / Automatische Indexierung / Information Retrieval ; Multimedia (BVB)
BK: 54.72 / Künstliche Intelligenz ; 06.74 / Informationssysteme
DDC: 006.7 22
LCC: QA76.575.M7915 2005
RVK: ST 325
-
5Witschel, H.F.: Terminologie-Extraktion : Möglichkeiten der Kombination statistischer uns musterbasierter Verfahren.
Würzburg : Ergon Verlag, 2004. 131 S.
ISBN 3-89913-408-7
(Content and communication; Bd.1)
Abstract: Die Suche nach Informationen in unstrukturierten natürlichsprachlichen Daten ist Gegenstand des sogenannten Text Mining. In dieser Arbeit wird ein Teilgebiet des Text Mining beleuchtet, nämlich die Extraktion domänenspezifischer Fachbegriffe aus Fachtexten der jeweiligen Domäne. Wofür überhaupt Terminologie-Extraktion? Die Antwort darauf ist einfach: der Schlüssel zum Verständnis vieler Fachgebiete liegt in der Kenntnis der zugehörigen Terminologie. Natürlich genügt es nicht, nur eine Liste der Fachtermini einer Domäne zu kennen, um diese zu durchdringen. Eine solche Liste ist aber eine wichtige Voraussetzung für die Erstellung von Fachwörterbüchern (man denke z.B. an Nachschlagewerke wie das klinische Wörterbuch "Pschyrembel"): zunächst muß geklärt werden, welche Begriffe in das Wörterbuch aufgenommen werden sollen, bevor man sich Gedanken um die genaue Definition der einzelnen Termini machen kann. Ein Fachwörterbuch sollte genau diejenigen Begriffe einer Domäne beinhalten, welche Gegenstand der Forschung in diesem Gebiet sind oder waren. Was liegt also näher, als entsprechende Fachliteratur zu betrachten und das darin enthaltene Wissen in Form von Fachtermini zu extrahieren? Darüberhinaus sind weitere Anwendungen der Terminologie-Extraktion denkbar, wie z.B. die automatische Beschlagwortung von Texten oder die Erstellung sogenannter Topic Maps, welche wichtige Begriffe zu einem Thema darstellt und in Beziehung setzt. Es muß also zunächst die Frage geklärt werden, was Terminologie eigentlich ist, vor allem aber werden verschiedene Methoden entwickelt, welche die Eigenschaften von Fachtermini ausnutzen, um diese aufzufinden. Die Verfahren werden aus den linguistischen und 'statistischen' Charakteristika von Fachbegriffen hergeleitet und auf geeignete Weise kombiniert.
Themenfeld: Computerlinguistik
LCSH: Computational linguistics ; Data processing ; Statistical methods ; Technology ; Terminology
RSWK: Terminologie ; Automatische Indexierung ; Sachtext / Text Mining
DDC: 020
GHBS: AZM (W) ; BHJ (FH K)
RVK: AN 93300
-
6Nohr, H.: Automatische Indexierung : Einführung in betriebliche Verfahren, Systeme und Anwendungen.
Berlin : Verlag für Berlin-Brandenburg, 2001. 108 S.
ISBN 3-935035-19-5
(Materialien zur Information und Dokumentation; Bd.13)
Abstract: Das vorliegende Buch zur automatischen Indexierung trägt dem Umstand Rechnung, dass ein ständig wachsender Berg von Dokumenten in Unternehmen, öffentlichen Verwaltungen, Einrichtungen der Fachinformation oder dem Internet entscheidungsrelevante Informationen enthält, die mit manuellen Mitteln und Methoden kaum mehr beherrschbar und erschließbar sind. Diese unstrukturierten Informationen sind in einer zunehmend von der schnellen Verarbeitung der Ressource Information abhängigen Wirtschaft von größter Bedeutung, ihre Beherrschung ist unabdingbar für den Wettbewerbserfolg. Verfahren der automatischen Indexierung von Dokumenten sind damit eine Basistechnik der betrieblichen Informationswirtschaft geworden. Trotz dieses Urnstandes, liegt bis auf den heutigen Tag keine einführende Darstellung in die Thematik vor. Die Zielsetzung dieses Buches ist es, einführend die Grundlagen sowie die verschiedenen Ansätze und Verfahren der automatischen Indexierung von Dokumenten vorzustellen. Die Darstellung verzichtet dabei bewusst auf die allzu detaillierte Tiefendarstellung einzelner Verfahren und Indexierungssysteme zugunsten einer Übersicht der grundsätzlichen Ansätze mit ihren jeweiligen Voraussetzungen, ihren Möglichkeiten und ihren Beschränkungen. Soweit einzelne Verfahren und Indexierungssysteme behandelt werden, besitzen diese beispielhaften Charakter für den behandelten Ansatz. Bei der Darstellung war ich stets uni eine verständliche Sprache bemüht. Der Text dieses Buches ist entstanden aus Vorlesungen in entsprechenden Lehrveranstaltungen im Studiengang Informationswirtschaft an der Fachhochschule Stuttgart. Die Darstellung richtet sich an Studierende und Lehrende der Informationswirtschaft, des Informationsmanagements, der Dokumentation sowie der Wirtschaftsinformatik, zugleich aber auch an die interessierten und mit der Thernatik konfrontierten Praktiker, die weniger an der technischen Seite der automatischen Indexierung, als vielmehr einen grundsätzlichen Informationsbedarf über die Möglichkeiten und die Schwierigkeiten des Einsatzes entsprechender Verfahren haben
Themenfeld: Automatisches Indexieren
RSWK: Automatische Indexierung
BK: 06.70 / Katalogisierung / Bestandserschließung
GHBS: AZE (HA) ; BCAO (FH K)
RVK: AN 95300 Allgemeines / Buch- und Bibliothekswesen, Informationswissenschaft / Informationswissenschaft / Informationspraxis / Automatisches Indexing (z.B. KWIC, KWOC)
-
7Jacquemin, C.: Spotting and discovering terms through natural language processing.
Cambridge, MA : MIT Press, 2001. VIII, 378 S.
ISBN 0-262-10085-1
Abstract: In this book Christian Jacquemin shows how the power of natural language processing (NLP) can be used to advance text indexing and information retrieval (IR). Jacquemin's novel tool is FASTR, a parser that normalizes terms and recognizes term variants. Since there are more meanings in a language than there are words, FASTR uses a metagrammar composed of shallow linguistic transformations that describe the morphological, syntactic, semantic, and pragmatic variations of words and terms. The acquired parsed terms can then be applied for precise retrieval and assembly of information. The use of a corpus-based unification grammar to define, recognize, and combine term variants from their base forms allows for intelligent information access to, or "linguistic data tuning" of, heterogeneous texts. FASTR can be used to do automatic controlled indexing, to carry out content-based Web searches through conceptually related alternative query formulations, to abstract scientific and technical extracts, and even to translate and collect terms from multilingual material. Jacquemin provides a comprehensive account of the method and implementation of this innovative retrieval technique for text processing.
Anmerkung: Rez. in: KO 28(2001) no.3, S.152-154 (L. Da Sylva)
Themenfeld: Computerlinguistik
Objekt: FASTR
LCSH: Language and languages / Variation / Data processing ; Terms and phrases / Data processing
RSWK: Automatische Indexierung / Computerlinguistik / Information Retrieval ; Syntaktische Analyse (GBV) ; Textverstehendes System (HBZ) ; Computerlinguistik / Sprachvariante (HBZ)
BK: 54.75 ; 18.04 ; 17.52 ; 17.46
DDC: 418
GHBS: BFP (FH K) ; BFP (DU) ; TZF (DU) ; TVV (DU)
LCC: P305.18.D38J33 2001
RVK: ES 965
-
8Lohmann, H.: KASCADE: Dokumentanreicherung und automatische Inhaltserschließung : Projektbericht und Ergebnisse des Retrievaltests.
Düsseldorf : Universitäts- und Landesbibliothek, 2000. 109 S.
(Schriften der Universitäts- und Landesbibliothek Düsseldorf; 31)
Abstract: Der Test hat gezeigt, dass die Ergänzung der bibliothekarischen Titelaufnahme um zusätzliche inhaltsrelevante Daten zu einer beeindruckenden Verbesserung der Suchergebnisse führt. Die Dokumentanreicherung sollte daher als Ziel bibliothekarischer Bemühungen um eine Verbesserung des OPAC-Retrievals weiterverfolgt werden. Der im Projekt eingeschlagene Weg, die Inhaltsverzeichnisse zu scannen, erwies sich allerdings als wenig sinnvoll. Zwar erzielte das Scanningverfahren gute Ergebnisse, auch arbeitete die Texterkennungssoftware sehr zuverlässig. Das Scanning bietet darüber hinaus die Möglichkeit, die dabei angefertigte Grafik-Datei mit dem Titelsatz im OPAC zu verknüpfen und so dem Nutzer als Entscheidungshilfe bei der Ergebnismengenbeurteilung an die Hand zu geben. Die Arbeiten am Aufbau der Testdatenbank brachten aber die Erkenntnis, dass die Anreicherung im Wege des Scanning technisch außerordentlich problematisch ist und einen nicht vorauszusehenden und letztlich auch nicht zu rechtfertigenden Aufwand erfordert. Diese Methode der Anreicherung kann daher für einen Praxiseinsatz nicht empfohlen werden. ; Verbesserungen des Gewichtungsverfahrens sollten schließlich unterstützt werden durch Maßnahmen zur Optimierung der Retrievalumgebung, etwa durch - den Einsatz von Hypertextwerkzeugen; - die Integration der THEAS-Komponente, mit der die automatische Mehrwortgruppengewinnung mit Hilfe eines Mehrwortgruppen-Parsers möglich ist; dies könnte im Rahmen der Dialogführung mit dem Nutzer eingesetzt werden, wenn dieser Teilkomponenten solcher Mehrwortgruppen im Retrieval verwendet. Mit THEAS wäre daneben der Einstieg in das Retrieval über das Register mit kanonischen Formen möglich; - die Integration von Wörterbuchfunktionen zur Benutzerunterstützung. Eine Weiterentwicklung des SELIX-Verfahrens könnte daneben in diese Richtungen erfolgen: - Bildung von Dokument-Clustern. Dabei werden Dokumente in einem Dokumenten-Raum einander in dem Maße zugeordnet, in dem ihre selektierten Grundformen übereinstimmen. - Errichtung von statistisch basierten semantischen Netzen, in denen Grundformen einander in einem Begriffs-Raum in dem Maße zugeordnet werden, in dem sie "gemeinsam" in Dokumenten auftreten. ; Abgesehen von diesen Überlegungen müssten für einen praktischen Einsatz der KASCADE-Entwicklungen weitere Voraussetzungen geschaffen werden. Erforderlich wäre zunächst die Optimierung und Rationalisierung der Verfahrensabläufe selbst. Die Teilprogramme unter KasKoll sollten in ein kompaktes Programm integriert werden. Die Sortiervorgänge könnten vereinfacht werden, indem die Deskriptoren in eine relationale Datenbank überführt werden. Letztendlich wirken sich diese Punkte aber vor allem auf die Dauer der Maschinenlaufzeiten aus, die bei der Frage nach den Implementierungskosten letztlich nur eine untergeordnete Rolle spielen. Optimiert werden sollte die Oberfläche zur Steuerung des Verfahrens. Bereits jetzt laufen einige der Programme unter einer menügeführten Windows-Schnittstelle (Kasadew) ab, was für alle Verfahrensteile erreicht werden sollte. Schließlich ist zu klären, unter welchen Bedingungen das Gewichtungsverfahren im Praxisbetrieb ablaufen kann. ; Da sich mit jedem Dokument, das zu dem im Gewichtungsverfahren befindlichen Gesamtbestand hinzukommt, die Werte aller bereits gewichteten Deskriptoren ändern können, müsste die Berechnung der Häufigkeitsverteilung jeder Grundform im Prinzip nach jeder Änderung im Dokumentbestand neu berechnet werden. Eine Online-Aktualisierung des Bestandes erscheint daher wenig sinnvoll. In der Praxis könnte eine Neuberechnung in bestimmten zeitlichen Abständen mit einem Abzug des OPAC-Bestandes unabhängig vom eigentlichen Betrieb des OPAC erfolgen, was auch insofern genügen würde, als die zugrunde liegenden Maße auf relativen Häufigkeiten basieren. Dadurch würde nur ein geringer Verzug in der Bereitstellung der aktuellen Gewichte eintreten. Außerdem würde der Zeitfaktor eine nur untergeordnete Rolle spielen, da ein offline ablaufender Gewichtungslauf erst bis zum nächsten Aktualisierungszeitpunkt abgeschlossen sein müsste. Denkbar wäre zusätzlich, für die Zeit zwischen zwei Aktualisierungen des OPACs für die in den Neuzugängen enthaltenen Begriffe Standardgewichte einzusetzen, soweit diese Begriffe bereits in dem Bestand auftreten. Bei entsprechender Optimierung und Rationalisierung der SELIX-Verfahrensabläufe, Nutzung der Gewichte auf der Retrievalseite für ein Ranking der auszugebenden Dokumente und Integration der THEAS-Komponente kann das Verfahren zu einem wirkungsvollen Instrument zur Verbesserung der Retrievaleffektivität weiterentwickelt werden.
Anmerkung: Zugl.: Köln, Fachhochsch., Fachbereich Bibliotheks- und Informationswesen, Hausarbeit
Themenfeld: Automatisches Indexieren ; Retrievalstudien ; Kataloganreicherung
Objekt: MILOS ; KASCADE
RSWK: Online-Katalog / Automatische Indexierung / Inhaltsverzeichnis / Scanning / Information Retrieval / Projekt
BK: 06.74 Informationssysteme
RVK: AN 80201 ; AN 74190