Search (50 results, page 2 of 3)

Lepsky, K.; Zimmermann, H.H.: Katalogerweiterung durch Scanning und automatische Dokumenterschließung : Ergebnisse des DFG-Projekts KASCADE (2000) 0.00
```
0.0040763565 = product of:
  0.03668721 = sum of:
    0.03668721 = weight(_text_:und in 4966) [ClassicSimilarity], result of:
      0.03668721 = score(doc=4966,freq=12.0), product of:
        0.07645438 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03449536 = queryNorm
        0.47985753 = fieldWeight in 4966, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0625 = fieldNorm(doc=4966)
  0.11111111 = coord(1/9)
```
Abstract

Der Beitrag befasst sich mit den Zielen, Inhalten und Ergebnissen des von der DFG geförderten Projekts KASCADE. Für KASCADE wurden Katalogdaten aus dem Fachbereich Rechtswissenschafft um Inhaltsverzeichnisse angereichert. Die angereicherten Titeldaten wurden mit einem erweiterten MILOS-Verfahren automatisch indexiert sowie mit den beiden linguistisch und statistisch basierten Verfahren SELIX und THEAS zusätzlich erschlossen. In einem umfangreichen Retrievaltest wurden die Ergebnisse der automatischen Indexierung und Gewichtung untersucht

Source

Zeitschrift für Bibliothekswesen und Bibliographie. 47(2000) H.4, S.305-316

Hlava, M.M.K.: Automatic indexing : comparing rule-based and statistics-based indexing systems (2005) 0.00

0.0036350572 = product of:
  0.032715514 = sum of:
    0.032715514 = product of:
      0.06543103 = sum of:
        0.06543103 = weight(_text_:22 in 6265) [ClassicSimilarity], result of:
          0.06543103 = score(doc=6265,freq=2.0), product of:
            0.120796874 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.03449536 = queryNorm
            0.5416616 = fieldWeight in 6265, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.109375 = fieldNorm(doc=6265)
      0.5 = coord(1/2)
  0.11111111 = coord(1/9)

Source: Information outlook. 9(2005) no.8, S.22-23

Gaus, W.; Kaluscha, R.: Maschinelle inhaltliche Erschließung von Arztbriefen und Auswertung von Reha-Entlassungsberichten (2006) 0.00
```
0.0036269645 = product of:
  0.03264268 = sum of:
    0.03264268 = weight(_text_:und in 6078) [ClassicSimilarity], result of:
      0.03264268 = score(doc=6078,freq=38.0), product of:
        0.07645438 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03449536 = queryNorm
        0.42695636 = fieldWeight in 6078, product of:
          6.164414 = tf(freq=38.0), with freq of:
            38.0 = termFreq=38.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=6078)
  0.11111111 = coord(1/9)
```
Abstract

Schon Hippokrates empfahl den Ärzten, Krankenakten zu führen. Heute ist die detaillierte Dokumentation eine Standespflicht der Ärzte [Gaus et al 1999]. Diese Dokumentationen medizinischer Behandlungen bergen einen riesigen und wertvollen Erfahrungsschatz. Informationen zu Therapien und Behandlungsergebnissen, die in Studien erst mühsam erhoben werden müssten, sind bereits in der Routinedokumentation wie Operations- und Entlassungsberichten oder Arztbriefen zahlreich vorhanden. Mit der Einführung der elektronischen Datenverarbeitung in der Medizin liegen diese Informationen seit einigen Jahren auch maschinenlesbar vor, so dass ein Haupthemmnis für die Nutzung dieser Dokumentationen, nämlich die mühsame manuelle Aufbereitung der Papierakten, entfällt. Während die formale Erschließung nach Patientenmerkmalen wie Name und Geburtsdatum von den Krankenhaus- bzw. Praxisinformationssystemen heutzutage gut gelöst ist, bleibt die inhaltliche Erschließung dieser Dokumentationen schwierig, da nur wenige Informationen in strukturierter oder intellektuell indexierter Form vorliegen [Leiner et al. 2003]. Auch wenn nach der Einführung der Fallpauschalen (diagnosis related groups, DRG) in den Krankenhäusern die Diagnosen nach ICD-10 verschlüsselt werden, besteht ein Großteil der Informationen weiterhin aus freiem Text, dessen computerbasierte Erschließung aufgrund der Komplexität menschlicher Sprache nicht trivial ist. Zu diesen medizinischen Texten gehören u.a. Gutachten, verbal beschriebene (Differential-) Diagnosen, vielfältige Untersuchungs- und Befundberichte, Visitenblätter, Operationsberichte und der Arztbrief bzw. Entlassungsbericht. Arztbrief und Entlassbericht dienen der Information des einweisenden oder weiterbehandelnden Arztes (z.B. Hausarzt) über das, was mit dem Patienten geschehen ist, und geben Empfehlungen zur Weiterbehandlung. Sie fassen eine (stationäre) Behandlung epikritisch - also nachdem die Krankheit überwunden ist, im Rückblick - zusammen und geben einen Überblick über Anamnese (Vorgeschichte), Beschwerden und Symptome, die eingesetzten diagnostischen Verfahren, die gestellte(n) Diagnose(n), Therapie, Verlauf, Komplikationen und das erzielte Ergebnis. Sie haben somit eine ähnliche Funktion wie das Abstract in der Literaturdokumentation, oft wird eine Kopie in der Krankenakte obenauf abgelegt. Zumindest in Universitätskliniken möchten wissenschaftlich arbeitende Ärzte auch unter inhaltlichen Gesichtspunkten auf die Krankenakten zugreifen können, z.B. die Krankenakten aller Patienten mit einer bestimmten Diagnose einsehen, exzerpieren und die exzerpierten Daten auswerten. Auch bei der Suche nach ähnlichen Fällen oder im Bereich der Aus- und Fortbildung hilft eine inhaltliche Erschließung weiter. So könnte etwa ein Assistenzarzt, der im Rahmen seiner Weiterbildung demnächst Sonografien des Kniegelenkes durchzuführen hat, sich vorhandene Berichte von solchen Sonografien anschauen und sich so über relevante Untersuchungstechniken und Befunde vorab informieren.

Source

Information und Sprache: Beiträge zu Informationswissenschaft, Computerlinguistik, Bibliothekswesen und verwandten Fächern. Festschrift für Harald H. Zimmermann. Herausgegeben von Ilse Harms, Heinz-Dirk Luckhardt und Hans W. Giessen
Schneider, A.: Moderne Retrievalverfahren in klassischen bibliotheksbezogenen Anwendungen : Projekte und Perspektiven (2008) 0.00
```
0.0034307651 = product of:
  0.030876886 = sum of:
    0.030876886 = weight(_text_:und in 4031) [ClassicSimilarity], result of:
      0.030876886 = score(doc=4031,freq=34.0), product of:
        0.07645438 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03449536 = queryNorm
        0.40386027 = fieldWeight in 4031, product of:
          5.8309517 = tf(freq=34.0), with freq of:
            34.0 = termFreq=34.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=4031)
  0.11111111 = coord(1/9)
```
Abstract

Die vorliegende Arbeit beschäftigt sich mit modernen Retrievalverfahren in klassischen bibliotheksbezogenen Anwendungen. Wie die Verbindung der beiden gegensätzlich scheinenden Wortgruppen im Titel zeigt, werden in der Arbeit Aspekte aus der Informatik bzw. Informationswissenschaft mit Aspekten aus der Bibliothekstradition verknüpft. Nach einer kurzen Schilderung der Ausgangslage, der so genannten Informationsflut, im ersten Kapitel stellt das zweite Kapitel eine Einführung in die Theorie des Information Retrieval dar. Im Einzelnen geht es um die Grundlagen von Information Retrieval und Information-Retrieval-Systemen sowie um die verschiedenen Möglichkeiten der Informationserschließung. Hier werden Formal- und Sacherschließung, Indexierung und automatische Indexierung behandelt. Des Weiteren werden im Rahmen der Theorie des Information Retrieval unterschiedliche Information-Retrieval-Modelle und die Evaluation durch Retrievaltests vorgestellt. Nach der Theorie folgt im dritten Kapitel die Praxis des Information Retrieval. Es werden die organisationsinterne Anwendung, die Anwendung im Informations- und Dokumentationsbereich sowie die Anwendung im Bibliotheksbereich unterschieden. Die organisationsinterne Anwendung wird durch das Beispiel der Datenbank KURS zur Aus- und Weiterbildung veranschaulicht. Die Anwendung im Bibliotheksbereich bezieht sich in erster Linie auf den OPAC als Kompromiss zwischen bibliothekarischer Indexierung und Endnutzeranforderungen und auf seine Anreicherung (sog. Catalogue Enrichment), um das Retrieval zu verbessern. Der Bibliotheksbereich wird ausführlicher behandelt, indem ein Rückblick auf abgeschlossene Projekte zu Informations- und Indexierungssystemen aus den Neunziger Jahren (OSIRIS, MILOS I und II, KASCADE) sowie ein Einblick in aktuelle Projekte gegeben werden. In den beiden folgenden Kapiteln wird je ein aktuelles Projekt zur Verbesserung des Retrievals durch Kataloganreicherung, automatische Erschließung und fortschrittliche Retrievalverfahren präsentiert: das Suchportal dandelon.com und das 180T-Projekt des Hochschulbibliothekszentrums des Landes Nordrhein-Westfalen. Hierbei werden jeweils Projektziel, Projektpartner, Projektorganisation, Projektverlauf und die verwendete Technologie vorgestellt. Die Projekte unterscheiden sich insofern, dass in dem einen Fall eine große Verbundzentrale die Projektkoordination übernimmt, im anderen Fall jede einzelne teilnehmende Bibliothek selbst für die Durchführung verantwortlich ist. Im sechsten und letzten Kapitel geht es um das Fazit und die Perspektiven. Es werden sowohl die beiden beschriebenen Projekte bewertet als auch ein Ausblick auf Entwicklungen bezüglich des Bibliothekskatalogs gegeben. Diese Veröffentlichung geht zurück auf eine Master-Arbeit im postgradualen Fernstudiengang Master of Arts (Library and Information Science) an der Humboldt-Universität zu Berlin.

Imprint

Berlin : Institut für Bibliotheks- und Informationswissenschaft der Humboldt-Universität zu Berlin
Ladewig, C.; Henkes, M.: Verfahren zur automatischen inhaltlichen Erschließung von elektronischen Texten : ASPECTIX (2001) 0.00
```
0.0033022263 = product of:
  0.029720036 = sum of:
    0.029720036 = weight(_text_:und in 5794) [ClassicSimilarity], result of:
      0.029720036 = score(doc=5794,freq=14.0), product of:
        0.07645438 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03449536 = queryNorm
        0.38872904 = fieldWeight in 5794, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.046875 = fieldNorm(doc=5794)
  0.11111111 = coord(1/9)
```
Abstract

Das Verfahren zur automatischen syntaktischen inhaltlichen Erschließung von elektronischen Texten, AspectiX, basiert auf einem Index, dessen Elemente mit einer universellen Aspekt-Klassifikation verknüpft sind, die es erlauben, ein syntaktisches Retrieval durchzuführen. Mit diesen, auf den jeweiligen Suchgegenstand inhaltlich bezogenen Klassifikationselementen, werden die Informationen in elektronischen Texten mit bekannten Suchalgorithmen abgefragt und die Ergebnisse entsprechend der Aspektverknüpfung ausgewertet. Mit diesen Aspekten ist es möglich, unbekannte Textdokumente automatisch fachgebiets- und sprachunabhängig nach Inhalten zu klassifizieren und beim Suchen in einem Textcorpus nicht nur auf die Verwendung von Zeichenfolgen angewiesen zu sein wie bei Suchmaschinen im WWW. Der Index kann bei diesen Vorgängen intellektuell und automatisch weiter ausgebaut werden und liefert Ergebnisse im Retrieval von nahezu 100 Prozent Precision, bei gleichzeitig nahezu 100 Prozent Recall. Damit ist das Verfahren AspectiX allen anderen Recherchetools um bis zu 40 Prozent an Precision bzw. Recall überlegen, wie an zahlreichen Recherchen in drei Datenbanken, die unterschiedlich groß und thematisch unähnlich sind, nachgewiesen wird

Source

nfd Information - Wissenschaft und Praxis. 52(2001) H.3, S.159-164
Bachfeld, S.: Möglichkeiten und Grenzen linguistischer Verfahren der automatischen Indexierung : Entwurf einer Simulation für den Einsatz im Grundstudium (2003) 0.00
```
0.0032226432 = product of:
  0.029003788 = sum of:
    0.029003788 = weight(_text_:und in 2827) [ClassicSimilarity], result of:
      0.029003788 = score(doc=2827,freq=30.0), product of:
        0.07645438 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03449536 = queryNorm
        0.3793607 = fieldWeight in 2827, product of:
          5.477226 = tf(freq=30.0), with freq of:
            30.0 = termFreq=30.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=2827)
  0.11111111 = coord(1/9)
```
Abstract

Die Arbeit entwirft ein Konzept für eine Simulation, die als Teil eines ELearning-Moduls die Probleme der automatischen Freitextindexierung und linguistische Verfahren zur Verbesserung der Indexierungsergebnisse veranschaulichen soll. Zielgruppe der Simulation sind die im Studierenden des Fachbereichs Bibliothek und Information der HAW Hamburg, die sich im Grundstudium befinden. Es wird ein inhaltliches Konzept dafür entwickelt, wie die Simulation Vor- und Nachteile regelbasierter und wörterbuchbasierte Indexierungsverfahren für das Grundstudium darstellen kann. Ziel ist zu zeigen, dass regelbasierte Verfahren in einer stark flektierenden und kompositareichen Sprache wie dem Deutschen zu zahlreichen Indexierungsfehlern führen können und dass wörterbuchbasierte Verfahren bessere Indexate liefern. Im zweiten Teil der Arbeit wird eine Informationsarchitektur für die Simulation entworfen und ein Prototyp programmiert, der eine Freitextindexierung und darauf aufbauend ein regelbasiertes Reduktionsverfahren darstellt. Ziel dabei ist insbesondere zu zeigen, dass regelbasierte Indexierungsverfahren für das Deutsche keine befriedigenden Ergebnisse erzielen, und dass wörterbuchbasierte Verfahren im Deutschen zu bevorzugen sind. Vor diesem Hintergrund wird im zweiten Teil der Arbeit ein Prototyp für die Simulation konzipiert, die elektronische Volltexte zunächst nach der Freitextmethode und danach mit linguistischen Verfahren indexiert. Es wird eine Informationsarchitektur entwickelt, die nicht nur anstrebt, der Zielgruppe gerecht zu werden, sondern auch die Vor- und Nachteile der linguistischen Indexierungsverfahren möglichst deutlich zu zeigen. Für die Freitextindexierung als einfachste Form der automatischen Indexierung und für das regelbasierte Verfahren wird auch schon der Programmcode geschrieben. Für die regelbasierte Wortformenreduktion greift die Autorin auf ein schon bestehendes Programm zurück, das Cornelie Ahlfeld 1995 im Rahmen ihrer Diplomarbeit entwickelt hat. Die Autorin versucht, dieses Programm durch eine Präsentation der Indexierungsergebnisse zu ergänzen, die es für den Einsatz in der Lehre nützlich machen.

Footnote

Hausarbeit zur Diplomprüfung an der HAW Hamburg, Fachbereich Bibliothek und Information

Imprint

Hamburg : HAW Hamburg, Fachbereich Bibliothek und Information

Hauer, M.: Automatische Indexierung (2000) 0.00

0.0031157632 = product of:
  0.02804187 = sum of:
    0.02804187 = product of:
      0.05608374 = sum of:
        0.05608374 = weight(_text_:22 in 5887) [ClassicSimilarity], result of:
          0.05608374 = score(doc=5887,freq=2.0), product of:
            0.120796874 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.03449536 = queryNorm
            0.46428138 = fieldWeight in 5887, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.09375 = fieldNorm(doc=5887)
      0.5 = coord(1/2)
  0.11111111 = coord(1/9)

Source: Wissen in Aktion: Wege des Knowledge Managements. 22. Online-Tagung der DGI, Frankfurt am Main, 2.-4.5.2000. Proceedings. Hrsg.: R. Schmidt

Nohr, H.: Automatische Indexierung : Einführung in betriebliche Verfahren, Systeme und Anwendungen (2001) 0.00
```
0.0030001174 = product of:
  0.027001057 = sum of:
    0.027001057 = weight(_text_:und in 2543) [ClassicSimilarity], result of:
      0.027001057 = score(doc=2543,freq=26.0), product of:
        0.07645438 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03449536 = queryNorm
        0.3531656 = fieldWeight in 2543, product of:
          5.0990195 = tf(freq=26.0), with freq of:
            26.0 = termFreq=26.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=2543)
  0.11111111 = coord(1/9)
```
Abstract

Das vorliegende Buch zur automatischen Indexierung trägt dem Umstand Rechnung, dass ein ständig wachsender Berg von Dokumenten in Unternehmen, öffentlichen Verwaltungen, Einrichtungen der Fachinformation oder dem Internet entscheidungsrelevante Informationen enthält, die mit manuellen Mitteln und Methoden kaum mehr beherrschbar und erschließbar sind. Diese unstrukturierten Informationen sind in einer zunehmend von der schnellen Verarbeitung der Ressource Information abhängigen Wirtschaft von größter Bedeutung, ihre Beherrschung ist unabdingbar für den Wettbewerbserfolg. Verfahren der automatischen Indexierung von Dokumenten sind damit eine Basistechnik der betrieblichen Informationswirtschaft geworden. Trotz dieses Urnstandes, liegt bis auf den heutigen Tag keine einführende Darstellung in die Thematik vor. Die Zielsetzung dieses Buches ist es, einführend die Grundlagen sowie die verschiedenen Ansätze und Verfahren der automatischen Indexierung von Dokumenten vorzustellen. Die Darstellung verzichtet dabei bewusst auf die allzu detaillierte Tiefendarstellung einzelner Verfahren und Indexierungssysteme zugunsten einer Übersicht der grundsätzlichen Ansätze mit ihren jeweiligen Voraussetzungen, ihren Möglichkeiten und ihren Beschränkungen. Soweit einzelne Verfahren und Indexierungssysteme behandelt werden, besitzen diese beispielhaften Charakter für den behandelten Ansatz. Bei der Darstellung war ich stets uni eine verständliche Sprache bemüht. Der Text dieses Buches ist entstanden aus Vorlesungen in entsprechenden Lehrveranstaltungen im Studiengang Informationswirtschaft an der Fachhochschule Stuttgart. Die Darstellung richtet sich an Studierende und Lehrende der Informationswirtschaft, des Informationsmanagements, der Dokumentation sowie der Wirtschaftsinformatik, zugleich aber auch an die interessierten und mit der Thernatik konfrontierten Praktiker, die weniger an der technischen Seite der automatischen Indexierung, als vielmehr einen grundsätzlichen Informationsbedarf über die Möglichkeiten und die Schwierigkeiten des Einsatzes entsprechender Verfahren haben

Classification

AN 95300 Allgemeines / Buch- und Bibliothekswesen, Informationswissenschaft / Informationswissenschaft / Informationspraxis / Automatisches Indexing (z.B. KWIC, KWOC)

RVK

AN 95300 Allgemeines / Buch- und Bibliothekswesen, Informationswissenschaft / Informationswissenschaft / Informationspraxis / Automatisches Indexing (z.B. KWIC, KWOC)

Series

Materialien zur Information und Dokumentation; Bd.13
Rapke, K.: Automatische Indexierung von Volltexten für die Gruner+Jahr Pressedatenbank (2001) 0.00
```
0.002941857 = product of:
  0.026476713 = sum of:
    0.026476713 = weight(_text_:und in 5863) [ClassicSimilarity], result of:
      0.026476713 = score(doc=5863,freq=16.0), product of:
        0.07645438 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03449536 = queryNorm
        0.34630734 = fieldWeight in 5863, product of:
          4.0 = tf(freq=16.0), with freq of:
            16.0 = termFreq=16.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5863)
  0.11111111 = coord(1/9)
```
Abstract

Retrievaltests sind die anerkannteste Methode, um neue Verfahren der Inhaltserschließung gegenüber traditionellen Verfahren zu rechtfertigen. Im Rahmen einer Diplomarbeit wurden zwei grundsätzlich unterschiedliche Systeme der automatischen inhaltlichen Erschließung anhand der Pressedatenbank des Verlagshauses Gruner + Jahr (G+J) getestet und evaluiert. Untersucht wurde dabei natürlichsprachliches Retrieval im Vergleich zu Booleschem Retrieval. Bei den beiden Systemen handelt es sich zum einen um Autonomy von Autonomy Inc. und DocCat, das von IBM an die Datenbankstruktur der G+J Pressedatenbank angepasst wurde. Ersteres ist ein auf natürlichsprachlichem Retrieval basierendes, probabilistisches System. DocCat demgegenüber basiert auf Booleschem Retrieval und ist ein lernendes System, das aufgrund einer intellektuell erstellten Trainingsvorlage indexiert. Methodisch geht die Evaluation vom realen Anwendungskontext der Textdokumentation von G+J aus. Die Tests werden sowohl unter statistischen wie auch qualitativen Gesichtspunkten bewertet. Ein Ergebnis der Tests ist, dass DocCat einige Mängel gegenüber der intellektuellen Inhaltserschließung aufweist, die noch behoben werden müssen, während das natürlichsprachliche Retrieval von Autonomy in diesem Rahmen und für die speziellen Anforderungen der G+J Textdokumentation so nicht einsetzbar ist

Series

Tagungen der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis; 4

Source

Information Research & Content Management: Orientierung, Ordnung und Organisation im Wissensmarkt; 23. DGI-Online-Tagung der DGI und 53. Jahrestagung der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis e.V. DGI, Frankfurt am Main, 8.-10.5.2001. Proceedings. Hrsg.: R. Schmidt

Bunk, T.: Deskriptoren Stoppwortlisten und kryptische Zeichen (2008) 0.00

0.002941857 = product of:
  0.026476713 = sum of:
    0.026476713 = weight(_text_:und in 2471) [ClassicSimilarity], result of:
      0.026476713 = score(doc=2471,freq=4.0), product of:
        0.07645438 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03449536 = queryNorm
        0.34630734 = fieldWeight in 2471, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.078125 = fieldNorm(doc=2471)
  0.11111111 = coord(1/9)

Source: Information - Wissenschaft und Praxis. 59(2008) H.5, S.285-292

Stock, W.G.: Textwortmethode (2000) 0.00

0.002941857 = product of:
  0.026476713 = sum of:
    0.026476713 = weight(_text_:und in 3408) [ClassicSimilarity], result of:
      0.026476713 = score(doc=3408,freq=4.0), product of:
        0.07645438 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03449536 = queryNorm
        0.34630734 = fieldWeight in 3408, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.078125 = fieldNorm(doc=3408)
  0.11111111 = coord(1/9)

Imprint: Düsseldorf : Universitäts- und Landesbibliothek
Series: Schriften der Universitäts- und Landesbibliothek Düsseldorf; 32

Schröther, C.: Automatische Indexierung, Kategorisierung und inhaltliche Erschließung von Textnachrichten (2003) 0.00

0.0029122897 = product of:
  0.026210608 = sum of:
    0.026210608 = weight(_text_:und in 521) [ClassicSimilarity], result of:
      0.026210608 = score(doc=521,freq=2.0), product of:
        0.07645438 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03449536 = queryNorm
        0.34282678 = fieldWeight in 521, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.109375 = fieldNorm(doc=521)
  0.11111111 = coord(1/9)

Yusuff, A.: Automatisches Indexing and Abstracting : Grundlagen und Beispiele (2002) 0.00

0.0029122897 = product of:
  0.026210608 = sum of:
    0.026210608 = weight(_text_:und in 1577) [ClassicSimilarity], result of:
      0.026210608 = score(doc=1577,freq=2.0), product of:
        0.07645438 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03449536 = queryNorm
        0.34282678 = fieldWeight in 1577, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.109375 = fieldNorm(doc=1577)
  0.11111111 = coord(1/9)

Stock, W.G.: Textwortmethode : Norbert Henrichs zum 65. (3) (2000) 0.00
```
0.0028824196 = product of:
  0.025941776 = sum of:
    0.025941776 = weight(_text_:und in 4891) [ClassicSimilarity], result of:
      0.025941776 = score(doc=4891,freq=6.0), product of:
        0.07645438 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03449536 = queryNorm
        0.33931053 = fieldWeight in 4891, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0625 = fieldNorm(doc=4891)
  0.11111111 = coord(1/9)
```
Abstract

Nur wenige Dokumentationsmethoden werden mit dem Namen ihrer Entwickler assoziiert. Ausnahmen sind Melvil Dewey (DDC), S.R. Ranganathan (Colon Classification) - und Norbert Henrichs. Seine Textwortmethode ermöglicht die Indexierung und das Retrieval von Literatur aus Fachgebieten, die keine allseits akzeptierte Fachterminologie vorweisen, also viele Sozial- und Geisteswissenschaften, vorneweg die Philosophie. Für den Einsatz in der elektronischen Philosophie-Dokumentation hat Henrichs in den späten sechziger Jahren die Textwortmethode entworfen. Er ist damit nicht nur einer der Pioniere der Anwendung der elektronischen Datenverarbeitung in der Informationspraxis, sondern auch der Pionier bei der Dokumentation terminologisch nicht starrer Fachsprachen
Maas, H.-D.: Indexieren mit AUTINDEX (2006) 0.00
```
0.0028198129 = product of:
  0.025378315 = sum of:
    0.025378315 = weight(_text_:und in 6077) [ClassicSimilarity], result of:
      0.025378315 = score(doc=6077,freq=30.0), product of:
        0.07645438 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03449536 = queryNorm
        0.33194062 = fieldWeight in 6077, product of:
          5.477226 = tf(freq=30.0), with freq of:
            30.0 = termFreq=30.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02734375 = fieldNorm(doc=6077)
  0.11111111 = coord(1/9)
```
Abstract

Wenn man ein Computerprogramm besitzt, das einem zu fast jedem Textwort dessen grammatische Merkmale bestimmt und außerdem noch seine interne Struktur und einige semantische Informationen liefert, dann fragt man sich irgendwann: Könnte ich nicht auf der Grundlage dieser Angaben einen Text global charakterisieren, etwa indem ich versuche, die wichtigen Wörter dieses Textes zu errechnen? Die häufigsten Textwörter können es nicht sein, denn gerade sie sind sehr nichtssagend. Die seltensten Textwörter sind zwar aussagekräftig, aber sie sind zu viele - die meisten Lemmata eines Textes erscheinen nur ein einziges Mal. Irgendwie müsste man den Wortschatz einschränken können. Die rettende Idee war: Wir tun so, als seien die semantischen Merkmale Wörter, denn dann enthält der Wortschatz dieser Sprache nur noch etwa hundert Elemente, weil unsere morphologische Analyse (Mpro) rund 100 semantische Features verwendet. Wir vermuteten nun, dass die häufig vorkommenden Features wichtig für den Text sind und die selteneren als Ausreißer betrachten werden können. Die Implementierung dieser Idee ist der Urahn unseres Programmpaketes AUTINDEX zur automatischen Indexierung von Texten. Dieses allererste Programm erstellte also zu einem Text eine Statistik der semantischen Merkmale und gab die drei häufigsten Klassen mit den zugehörigen Lemmata aus. Das Ergebnis war verblüffend: Auf den ersten Blick konnte man sehen, worum es in dem Text ging. Bei näherem Hinsehen wurden aber auch Unzulänglichkeiten deutlich. Einige der Schlagwörter waren doch ziemlich nichtssagend, andere hätte man gerne in der Liste gehabt, und schließlich hätte man sich noch eine ganz globale Charakterisierung des Textes durch die Angabe von Fachgebieten gewünscht, etwa in der Form: Der Text hat mit Politik oder Wirtschaft zu tun, er berichtet über einen Unfall, eine Feierlichkeit usw. Es wurde also sofort deutlich, dass das Programm ohne eine weitere Wissensquelle keine wirklich guten Ergebnisse würde liefern können. Man braucht also einen Thesaurus, ein Wörterbuch, in dem einzelne Lemmata und auch mehrwortige Ausdrücke mit zusätzlichen Informationen versehen sind.
Die erste Implementierung wurde in Zusammenarbeit mit dem Fachinformationszentrum Technik (Frankfurt) erstellt. Eine Kontrolle der manuell vergebenen Grob- und Feinklassifizierung der Lexikonartikel des Brockhaus Multimedial und anderer Brockhaus-Lexika wurde mit AUTINDEX in Zusammenarbeit mit BIFAB (Mannheim) durchgeführt. AUTINDEX ist auch Bestandteil des Indexierungs- und Retrievalsystems der Firma AGI (Neustadt/Weinstraße), das in der Landesbibliothek Vorarlberg eingesetzt wird. Weiterhin wird AUTINDEX im System LEWI verwendet, das zusammen mit BIFAB entwickelt wird. Dieses System erlaubt natürlichsprachliche Anfragen an den Brockhaus Multimedial und liefert als Antwort die relevanten Lexikonartikel. Im IAI selbst wurden große Textmengen indexiert (Brockhaus- und Dudenlexika, Zeitungstexte usw.), die man für die Weiterentwicklung diverser Thesauri und Wörterbücher nutzen kann. Beispielsweise kann man sich für ein Wort alle Texte ausgeben lassen, in denen dieses Wort wichtig ist. Dabei sind die Texte nach Wichtigkeit sortiert. Zu einem gegebenen Wort kann man sich auch die Assoziationen oder die möglichen Klassifikationen berechnen lassen. Auf diese Weise kann man einen Thesaurus halbautomatisch erweitern.

Source

Information und Sprache: Beiträge zu Informationswissenschaft, Computerlinguistik, Bibliothekswesen und verwandten Fächern. Festschrift für Harald H. Zimmermann. Herausgegeben von Ilse Harms, Heinz-Dirk Luckhardt und Hans W. Giessen
Rapke, K.: Automatische Indexierung von Volltexten für die Gruner+Jahr Pressedatenbank (2001) 0.00
```
0.0027908906 = product of:
  0.025118016 = sum of:
    0.025118016 = weight(_text_:und in 6386) [ClassicSimilarity], result of:
      0.025118016 = score(doc=6386,freq=10.0), product of:
        0.07645438 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03449536 = queryNorm
        0.328536 = fieldWeight in 6386, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.046875 = fieldNorm(doc=6386)
  0.11111111 = coord(1/9)
```
Abstract

Retrieval Tests sind die anerkannteste Methode, um neue Verfahren der Inhaltserschließung gegenüber traditionellen Verfahren zu rechtfertigen. Im Rahmen einer Diplomarbeit wurden zwei grundsätzlich unterschiedliche Systeme der automatischen inhaltlichen Erschließung anhand der Pressedatenbank des Verlagshauses Gruner + Jahr (G+J) getestet und evaluiert. Untersucht wurde dabei natürlichsprachliches Retrieval im Vergleich zu Booleschem Retrieval. Bei den beiden Systemen handelt es sich zum einen um Autonomy von Autonomy Inc. und DocCat, das von IBM an die Datenbankstruktur der G+J Pressedatenbank angepasst wurde. Ersteres ist ein auf natürlichsprachlichem Retrieval basierendes, probabilistisches System. DocCat demgegenüber basiert auf Booleschem Retrieval und ist ein lernendes System, das auf Grund einer intellektuell erstellten Trainingsvorlage indexiert. Methodisch geht die Evaluation vom realen Anwendungskontext der Textdokumentation von G+J aus. Die Tests werden sowohl unter statistischen wie auch qualitativen Gesichtspunkten bewertet. Ein Ergebnis der Tests ist, dass DocCat einige Mängel gegenüber der intellektuellen Inhaltserschließung aufweist, die noch behoben werden müssen, während das natürlichsprachliche Retrieval von Autonomy in diesem Rahmen und für die speziellen Anforderungen der G+J Textdokumentation so nicht einsetzbar ist

Source

nfd Information - Wissenschaft und Praxis. 52(2001) H.5, S.251-262
Kaufmann, E.: ¬Das Indexieren von natürlichsprachlichen Dokumenten und die inverse Seitenhäufigkeit (2001) 0.00
```
0.0027518552 = product of:
  0.024766697 = sum of:
    0.024766697 = weight(_text_:und in 318) [ClassicSimilarity], result of:
      0.024766697 = score(doc=318,freq=14.0), product of:
        0.07645438 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03449536 = queryNorm
        0.32394084 = fieldWeight in 318, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=318)
  0.11111111 = coord(1/9)
```
Abstract

Die Lizentiatsarbeit gibt im ersten theoretischen Teil einen Überblick über das Indexieren von Dokumenten. Sie zeigt die verschiedenen Typen von Indexen sowie die wichtigsten Aspekte bezüglich einer Indexsprache auf. Diverse manuelle und automatische Indexierungsverfahren werden präsentiert. Spezielle Aufmerksamkeit innerhalb des ersten Teils gilt den Schlagwortregistern, deren charakteristische Merkmale und Eigenheiten erörtert werden. Zusätzlich werden die gängigen Kriterien zur Bewertung von Indexen sowie die Masse zur Evaluation von Indexierungsverfahren und Indexierungsergebnissen vorgestellt. Im zweiten Teil der Arbeit werden fünf reale Bücher einer statistischen Untersuchung unterzogen. Zum einen werden die lexikalischen und syntaktischen Bestandteile der fünf Buchregister ermittelt, um den Inhalt von Schlagwortregistern zu erschliessen. Andererseits werden aus den Textausschnitten der Bücher Indexterme maschinell extrahiert und mit den Schlagworteinträgen in den Buchregistern verglichen. Das Hauptziel der Untersuchungen besteht darin, eine Indexierungsmethode, die auf linguistikorientierter Extraktion der Indexterme und Termhäufigkeitsgewichtung basiert, im Hinblick auf ihren Gebrauchswert für eine automatische Indexierung zu testen. Die Gewichtungsmethode ist die inverse Seitenhäufigkeit, eine Methode, welche von der inversen Dokumentfrequenz abgeleitet wurde, zur automatischen Erstellung von Schlagwortregistern für deutschsprachige Texte. Die Prüfung der Methode im statistischen Teil führte nicht zu zufriedenstellenden Resultaten.

Thirion, B.; Leroy, J.P.; Baudic, F.; Douyère, M.; Piot, J.; Darmoni, S.J.: SDI selecting, decribing, and indexing : did you mean automatically? (2001) 0.00

0.0026909842 = product of:
  0.024218857 = sum of:
    0.024218857 = product of:
      0.07265657 = sum of:
        0.07265657 = weight(_text_:f in 6198) [ClassicSimilarity], result of:
          0.07265657 = score(doc=6198,freq=2.0), product of:
            0.13749112 = queryWeight, product of:
              3.985786 = idf(docFreq=2232, maxDocs=44218)
              0.03449536 = queryNorm
            0.52844554 = fieldWeight in 6198, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.985786 = idf(docFreq=2232, maxDocs=44218)
              0.09375 = fieldNorm(doc=6198)
      0.33333334 = coord(1/3)
  0.11111111 = coord(1/9)

Halip, I.: Automatische Extrahierung von Schlagworten aus unstrukturierten Texten (2005) 0.00
```
0.0026312768 = product of:
  0.023681492 = sum of:
    0.023681492 = weight(_text_:und in 861) [ClassicSimilarity], result of:
      0.023681492 = score(doc=861,freq=20.0), product of:
        0.07645438 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03449536 = queryNorm
        0.3097467 = fieldWeight in 861, product of:
          4.472136 = tf(freq=20.0), with freq of:
            20.0 = termFreq=20.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=861)
  0.11111111 = coord(1/9)
```
Abstract

Durch die zunehmende Mediatisierung und Digitalisierung wird die moderne Gesellschaft immer mehr mit dem Thema der Informationsüberflutung konfrontiert. Erstaunlicherweise führt der Zuwachs an Informationen gleichzeitig zu einem Mangel an Wissen. Die Erklärung kann darin gefunden werden, dass ein großer Teil der existierenden Informationen nicht aufgefunden werden kann. Es handelt sich meistens um Informationen die auf semi- und nichtstrukturierte Daten beruhen. Schätzungen zufolge sind heute rund 80% der entscheidungsrelevanten Informationen in Unternehmen in unstrukturierter, d. h. meist textueller Form vorhanden. Die Unfähigkeit der Maschinen den Inhalt unstrukturierter Texte zu verstehen führt dazu, dass dokumentiertes Wissen schwer auffindbar ist und oft unentdeckt bleibt. Wegen des Informationsvolumens, das meistens zu groß ist, um gelesen, verstanden oder sogar benutzt zu werden, ergibt sich folgendes Problem, mit dem man konfrontiert wird: Informationen die nicht in Wissen umgewandelt werden können, bleiben als papiergebundene oder digitale Dokumente in Data-Repositories verschlossen. Angesichts der heute anfallenden Menge an Dokumenten erscheint eine manuelle Vergabe von Schlagworten nicht mehr realistisch. Deshalb entwickelt Wissensmanagement unterstützende Verfahren, die Informationen rechtzeitig, in der richtigen Qualität und den richtigen Personen verfügbar machen. Einige Schwerpunkte an denen zur Zeit geforscht wird, sind Modelle zur Repräsentation von Dokumenten, Methoden zur Ähnlichkeitsbestimmung von Anfragen zu Dokumenten und zur Indexierung von Dokumentenmengen, sowie die automatische Klassifikation. Vor diesem Hintergrund konzentriert sich diese Arbeit auf die unterschiedlichen Verfahren der automatischen Indexierung, hebt die algorithmischen Vor- und Nachteile hervor, mit dem Ziel die Funktionsweise im Bereich der unstrukturierten Texte zu analysieren. Hierfür erfolgt im 3. Kapitel eine genauere Untersuchung und Darstellung automatischer Indexierungsverfahren. Zuvor werden in Kapitel 2 grundlegende Begrifflichkeiten erklärt, eingeordnet und abgegrenzt. Abschließend werden anhand der theoretischen Darlegung Implementierungen der vorgestellten Verfahren kurz beschrieben. Die Ausarbeitung endet mit der Schlussfolgerung und dem Ausblick.

Content

Ausarbeitung im Rahmen des Seminars Suchmaschinen und Suchalgorithmen, Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft, Westfälische Wilhelms-Universität Münster

Maas, J.: Anforderungsanalyse für den Einsatz eines (semi)automatischen Indexierungsverfahrens in der Textdokumentation des ZDF (2002) 0.00

0.0024962483 = product of:
  0.022466235 = sum of:
    0.022466235 = weight(_text_:und in 1785) [ClassicSimilarity], result of:
      0.022466235 = score(doc=1785,freq=2.0), product of:
        0.07645438 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03449536 = queryNorm
        0.29385152 = fieldWeight in 1785, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.09375 = fieldNorm(doc=1785)
  0.11111111 = coord(1/9)

Imprint: Potsdam : Fachhochschule, Institut für Information und Dokumentation

Search (50 results, page 2 of 3)

Authors

Languages

Types

Themes

Subjects

Classifications