Search (67 results, page 3 of 4)

Hauer, M: Silicon Valley Vorarlberg : Maschinelle Indexierung und semantisches Retrieval verbessert den Katalog der Vorarlberger Landesbibliothek (2004) 0.00
```
0.0035052493 = product of:
  0.008763123 = sum of:
    0.0048162127 = weight(_text_:a in 2489) [ClassicSimilarity], result of:
      0.0048162127 = score(doc=2489,freq=4.0), product of:
        0.053464882 = queryWeight, product of:
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046368346 = queryNorm
        0.090081796 = fieldWeight in 2489, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.0390625 = fieldNorm(doc=2489)
    0.003946911 = product of:
      0.007893822 = sum of:
        0.007893822 = weight(_text_:information in 2489) [ClassicSimilarity], result of:
          0.007893822 = score(doc=2489,freq=2.0), product of:
            0.08139861 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.046368346 = queryNorm
            0.09697737 = fieldWeight in 2489, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.0390625 = fieldNorm(doc=2489)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Abstract

10 Jahre Internet haben die WeIt um die Bibliotheken herum stark geändert. Der Web-OPAC war eine Antwort der Bibliotheken. Doch reicht ein Web-OPAC im Zeitalter des Internets noch aus? Außer Web ist es doch der alte Katalog. Ca. 90% aller Bibliotheksrecherchen durch Benutzer sind Themenrecherchen. Ein Anteil dieser Recherchen bringt kein Ergebnis. Es kann leicht gemessen werden, dass null Medien gefunden wurden. Die Gründe hierfür wurden auch immer wieder untersucht: Plural- anstelle Singularformen, zu spezifische Suchbegriffe, Schreib- oder Bedienungsfehler. Zu wenig untersucht sind aber die Recherchen, die nicht mit einer Ausleihe enden, denn auch dann kann man in vielen Fällen von einem Retrieval-Mangel ausgehen. Schließlich: Von den ausgeliehenen Büchern werden nach Einschätzung vieler Bibliothekare 80% nicht weiter als bis zum Inhaltsverzeichnis gelesen (außer in Präsenzbibliotheken) - und erst nach Wochen zurückgegeben. Ein Politiker würde dies neudeutsch als "ein Vermittlungsproblem" bezeichnen. Ein Controller als nicht hinreichende Kapitalnutzung. Einfacher machen es sich immer mehr Studenten und Wissenschaftler, ihr Wissensaustausch vollzieht sich zunehmend an anderen Orten. Bibliotheken (als Funktion) sind unverzichtbar für die wissenschaftliche Kommunikation. Deshalb geht es darum, Wege zu finden und auch zu beschreiten, welche die Schätze von Bibliotheken (als Institution) effizienter an die Zielgruppe bringen. Der Einsatz von Information Retrieval-Technologie, neue Erschließungsmethoden und neuer Content sind Ansätze dazu. Doch die bisherigen Verbundstrukturen und Abhängigkeit haben das hier vorgestellte innovative Projekt keineswegs gefördert. Innovation entsteht wie die Innvoationsforschung zeigt eigentlich immer an der Peripherie: in Bregenz fing es an.

Location

A

Type

a
Tsai, C.-F.; McGarry, K.; Tait, J.: Qualitative evaluation of automatic assignment of keywords to images (2006) 0.00
```
0.0035052493 = product of:
  0.008763123 = sum of:
    0.0048162127 = weight(_text_:a in 963) [ClassicSimilarity], result of:
      0.0048162127 = score(doc=963,freq=4.0), product of:
        0.053464882 = queryWeight, product of:
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046368346 = queryNorm
        0.090081796 = fieldWeight in 963, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.0390625 = fieldNorm(doc=963)
    0.003946911 = product of:
      0.007893822 = sum of:
        0.007893822 = weight(_text_:information in 963) [ClassicSimilarity], result of:
          0.007893822 = score(doc=963,freq=2.0), product of:
            0.08139861 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.046368346 = queryNorm
            0.09697737 = fieldWeight in 963, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.0390625 = fieldNorm(doc=963)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Abstract

In image retrieval, most systems lack user-centred evaluation since they are assessed by some chosen ground truth dataset. The results reported through precision and recall assessed against the ground truth are thought of as being an acceptable surrogate for the judgment of real users. Much current research focuses on automatically assigning keywords to images for enhancing retrieval effectiveness. However, evaluation methods are usually based on system-level assessment, e.g. classification accuracy based on some chosen ground truth dataset. In this paper, we present a qualitative evaluation methodology for automatic image indexing systems. The automatic indexing task is formulated as one of image annotation, or automatic metadata generation for images. The evaluation is composed of two individual methods. First, the automatic indexing annotation results are assessed by human subjects. Second, the subjects are asked to annotate some chosen images as the test set whose annotations are used as ground truth. Then, the system is tested by the test set whose annotation results are judged against the ground truth. Only one of these methods is reported for most systems on which user-centred evaluation are conducted. We believe that both methods need to be considered for full evaluation. We also provide an example evaluation of our system based on this methodology. According to this study, our proposed evaluation methodology is able to provide deeper understanding of the system's performance.

Source

Information processing and management. 42(2006) no.1, S.136-154

Type

a
Lepsky, K.: Automatische Indexierung des Reallexikons zur Deutschen Kunstgeschichte (2006) 0.00
```
0.003424719 = product of:
  0.008561797 = sum of:
    0.0023839036 = weight(_text_:a in 6080) [ClassicSimilarity], result of:
      0.0023839036 = score(doc=6080,freq=2.0), product of:
        0.053464882 = queryWeight, product of:
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046368346 = queryNorm
        0.044588212 = fieldWeight in 6080, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.02734375 = fieldNorm(doc=6080)
    0.006177894 = product of:
      0.012355788 = sum of:
        0.012355788 = weight(_text_:information in 6080) [ClassicSimilarity], result of:
          0.012355788 = score(doc=6080,freq=10.0), product of:
            0.08139861 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.046368346 = queryNorm
            0.1517936 = fieldWeight in 6080, product of:
              3.1622777 = tf(freq=10.0), with freq of:
                10.0 = termFreq=10.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.02734375 = fieldNorm(doc=6080)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Abstract

Digitalisierungsvorhaben sorgen für eine immer größere Verfügbarkeit von Inhalten bislang ausschließlich gedruckt vorliegender Werke, zunehmend auch von ganzen Büchern. Projekte wie "Google Print" versprechen die völlige elektronische Verfügbarkeit von Informationen nahezu unabhängig von Zeit und Ort und sorgen dafür, dass die Hüter der konventionellen Information, die Bibliotheken, in Angst und Schrecken versetzt werden angesichts des befürchteten Verlusts ihrer traditionellen Rolle. Die Debatte kreist dabei eher selten um die Frage, welcher Nutzen sich konkret aus dem elektronischen Volltext ergibt: Der Nutzen steht schlichtweg außer Frage, Volltexte gelten prinzipiell als nützlich. Das ist insofern zu optimistisch, als die reine Verfügbarkeit von Information noch lange nicht fir deren sinnvolle Verwertung sorgt - die bloße Verfügbarkeit des Volltexts von Kants "Kritik der reinen Vernunft" enthebt nicht der Notwendigkeit, das Werk zu lesen und verstehen zu wollen. Lesen wird man besser auch nicht am Bildschirm sondern in der (neu-deutsch) "PrintAusgabe". Elektronische Volltexte von Büchern dienen nicht der Lektüre. Falls ihr Sinn nicht ohnehin ein rein verkaufsfördernder ist (das "Publishers Program" von Google Print erweckt in der Tat diesen Eindruck), bleibt ihr potenzieller Nutzen als Nachschlageinstrument. Nur der Volltext bietet die Möglichkeit, Informationen in einem Werk zu finden, die nicht explizit erschlossen wurden, durch ein Inhaltsverzeichnis etwa oder, eine noch günstigere Ausgangslage, durch ein Sachregister. Allerdings sind die meisten Werke nicht für einen solchen Zweck verfasst worden, d.h. es ist nicht zu erwarten, dass ein Werk über die "Geschichte des Römischen Reiches" im Volltextzugriff zu einem Lexikon zur Geschichte des Römischen Reiches wird. Entspricht also die hinter Google Print und zahllosen anderen Digitalisierungsinitiativen stehende Auffassung einem doch sehr naiven Bild von der Nützlichkeit gedruckter Information?
Seriöse Information darf erwarten, wer renommierte Nachschlagewerke befragt. Zumindest für die über die Primärordnung (Stichwort/Lemma) erschlossenen Sachverhalte ist für Buchausgaben ein gezielter Zugriff möglich, Verweisungen zwischen Artikeln sorgen für weitere Einstiege. Anzunehmen ist, dass sich der Nutzen von Nachschlagewerken in elektronischer Form noch deutlich erhöhen lässt: Produkte wie z.B. "Brockhaus multimedial" oder "Encyclopedia Britannica" sorgen mit leistungsfähigen Techniken über den wahlfreien Volltextzugriff hinaus für zahlreiche Navigations- und Recherchemöglichkeiten. Es liegt daher nahe, über eine Digitalisierung konventionell vorliegender Nachschlagewerke auch deren Anwendung zu verbessern, die im Print möglichen Zugriffsmöglichkeiten deutlich zu erweitern. Beispiele für diesen Ansatz sind die Digitalisierung der "Oekonomischen Encyklopädie" von Johann Georg Krünitz, die mit hohem Aufwand nicht maschinell (Scanning und OCR) sondern manuell realisiert wurde oder auch die im "Projekt Runeberg' , vorgenommenen zahlreichen Digitalisierungen u.a. auch von Nachschlagewerken. Ob die einfache Volltextindexierung derartig umfangreicher und - weil bereits als Nachschlagewerk konzipiert - gleichzeitig extrem verdichteter Quellen für einen größtmöglichen Nutzen der elektronischen Version ausreicht, darf zu Recht bezweifelt werden. In kommerziellen Produkten sorgen daher zusätzliche Techniken für einerseits thematisch gezielte Zugriffe auch über Nicht-Stichwörter, andererseits für Querverbindungen zu möglicherweise weiteren Artikeln von Interesse ("Wissensnetz" des Brockhaus, "Knowledge Navigator" der Britannica). Es darf angenommen werden, dass derartige Techniken dabei auf Informationen aufsetzen können (Strukturierung der Artikel, gekennzeichnete (getaggte) Personennamen, Querverweise etc.), die in den zu verarbeitenden Artikeln in nutzbarer Form vorliegen. Für digitalisierte Druckausgaben kommen derartige Verfahren nicht in Frage, weil lediglich flache, noch dazu in der Regel mit OCR-Fehlern behaftete Texte vorliegen. Die Zugriffsmöglichkeiten bewegen sich daher zwischen der 1:1-Umsetzung der Druckausgabe, d.h. dem Primärzugriff über Stichwort, und der Volltextsuche auf den vollständigen Lexikontext. Beides ist angesichts der im elektronischen Volltext liegenden Möglichkeiten sicher nicht die Methode der Wahl. Für die Digitalisierung des "Reallexikons zur Deutschen Kunstgeschichte" im Rahmen des von der Deutschen Forschungsgemeinschaft geförderten Projekts "RDKWeb" wird daher versucht, mit den Mitteln der Automatischen Indexierung eine Lösung zu erzielen, die über eine reine Volltextsuchmöglichkeit hinaus Suchunterstützungen bietet, die sich an den Fähigkeiten kommerzieller Produkte orientieren (nicht messen!).

Source

Information und Sprache: Beiträge zu Informationswissenschaft, Computerlinguistik, Bibliothekswesen und verwandten Fächern. Festschrift für Harald H. Zimmermann. Herausgegeben von Ilse Harms, Heinz-Dirk Luckhardt und Hans W. Giessen

Type

a

Rapke, K.: Automatische Indexierung von Volltexten für die Gruner+Jahr Pressedatenbank (2001) 0.00

0.002940995 = product of:
  0.007352487 = sum of:
    0.0034055763 = weight(_text_:a in 5863) [ClassicSimilarity], result of:
      0.0034055763 = score(doc=5863,freq=2.0), product of:
        0.053464882 = queryWeight, product of:
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046368346 = queryNorm
        0.06369744 = fieldWeight in 5863, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5863)
    0.003946911 = product of:
      0.007893822 = sum of:
        0.007893822 = weight(_text_:information in 5863) [ClassicSimilarity], result of:
          0.007893822 = score(doc=5863,freq=2.0), product of:
            0.08139861 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.046368346 = queryNorm
            0.09697737 = fieldWeight in 5863, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.0390625 = fieldNorm(doc=5863)
      0.5 = coord(1/2)
  0.4 = coord(2/5)

Source: Information Research & Content Management: Orientierung, Ordnung und Organisation im Wissensmarkt; 23. DGI-Online-Tagung der DGI und 53. Jahrestagung der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis e.V. DGI, Frankfurt am Main, 8.-10.5.2001. Proceedings. Hrsg.: R. Schmidt
Type: a

Gaus, W.; Kaluscha, R.: Maschinelle inhaltliche Erschließung von Arztbriefen und Auswertung von Reha-Entlassungsberichten (2006) 0.00
```
0.0028759525 = product of:
  0.007189881 = sum of:
    0.002724461 = weight(_text_:a in 6078) [ClassicSimilarity], result of:
      0.002724461 = score(doc=6078,freq=2.0), product of:
        0.053464882 = queryWeight, product of:
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046368346 = queryNorm
        0.050957955 = fieldWeight in 6078, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.03125 = fieldNorm(doc=6078)
    0.0044654203 = product of:
      0.0089308405 = sum of:
        0.0089308405 = weight(_text_:information in 6078) [ClassicSimilarity], result of:
          0.0089308405 = score(doc=6078,freq=4.0), product of:
            0.08139861 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.046368346 = queryNorm
            0.10971737 = fieldWeight in 6078, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.03125 = fieldNorm(doc=6078)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Abstract

Schon Hippokrates empfahl den Ärzten, Krankenakten zu führen. Heute ist die detaillierte Dokumentation eine Standespflicht der Ärzte [Gaus et al 1999]. Diese Dokumentationen medizinischer Behandlungen bergen einen riesigen und wertvollen Erfahrungsschatz. Informationen zu Therapien und Behandlungsergebnissen, die in Studien erst mühsam erhoben werden müssten, sind bereits in der Routinedokumentation wie Operations- und Entlassungsberichten oder Arztbriefen zahlreich vorhanden. Mit der Einführung der elektronischen Datenverarbeitung in der Medizin liegen diese Informationen seit einigen Jahren auch maschinenlesbar vor, so dass ein Haupthemmnis für die Nutzung dieser Dokumentationen, nämlich die mühsame manuelle Aufbereitung der Papierakten, entfällt. Während die formale Erschließung nach Patientenmerkmalen wie Name und Geburtsdatum von den Krankenhaus- bzw. Praxisinformationssystemen heutzutage gut gelöst ist, bleibt die inhaltliche Erschließung dieser Dokumentationen schwierig, da nur wenige Informationen in strukturierter oder intellektuell indexierter Form vorliegen [Leiner et al. 2003]. Auch wenn nach der Einführung der Fallpauschalen (diagnosis related groups, DRG) in den Krankenhäusern die Diagnosen nach ICD-10 verschlüsselt werden, besteht ein Großteil der Informationen weiterhin aus freiem Text, dessen computerbasierte Erschließung aufgrund der Komplexität menschlicher Sprache nicht trivial ist. Zu diesen medizinischen Texten gehören u.a. Gutachten, verbal beschriebene (Differential-) Diagnosen, vielfältige Untersuchungs- und Befundberichte, Visitenblätter, Operationsberichte und der Arztbrief bzw. Entlassungsbericht. Arztbrief und Entlassbericht dienen der Information des einweisenden oder weiterbehandelnden Arztes (z.B. Hausarzt) über das, was mit dem Patienten geschehen ist, und geben Empfehlungen zur Weiterbehandlung. Sie fassen eine (stationäre) Behandlung epikritisch - also nachdem die Krankheit überwunden ist, im Rückblick - zusammen und geben einen Überblick über Anamnese (Vorgeschichte), Beschwerden und Symptome, die eingesetzten diagnostischen Verfahren, die gestellte(n) Diagnose(n), Therapie, Verlauf, Komplikationen und das erzielte Ergebnis. Sie haben somit eine ähnliche Funktion wie das Abstract in der Literaturdokumentation, oft wird eine Kopie in der Krankenakte obenauf abgelegt. Zumindest in Universitätskliniken möchten wissenschaftlich arbeitende Ärzte auch unter inhaltlichen Gesichtspunkten auf die Krankenakten zugreifen können, z.B. die Krankenakten aller Patienten mit einer bestimmten Diagnose einsehen, exzerpieren und die exzerpierten Daten auswerten. Auch bei der Suche nach ähnlichen Fällen oder im Bereich der Aus- und Fortbildung hilft eine inhaltliche Erschließung weiter. So könnte etwa ein Assistenzarzt, der im Rahmen seiner Weiterbildung demnächst Sonografien des Kniegelenkes durchzuführen hat, sich vorhandene Berichte von solchen Sonografien anschauen und sich so über relevante Untersuchungstechniken und Befunde vorab informieren.

Source

Information und Sprache: Beiträge zu Informationswissenschaft, Computerlinguistik, Bibliothekswesen und verwandten Fächern. Festschrift für Harald H. Zimmermann. Herausgegeben von Ilse Harms, Heinz-Dirk Luckhardt und Hans W. Giessen

Type

a

Yusuff, A.: Automatisches Indexing and Abstracting : Grundlagen und Beispiele (2002) 0.00

0.0026970792 = product of:
  0.013485395 = sum of:
    0.013485395 = weight(_text_:a in 1577) [ClassicSimilarity], result of:
      0.013485395 = score(doc=1577,freq=4.0), product of:
        0.053464882 = queryWeight, product of:
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046368346 = queryNorm
        0.25222903 = fieldWeight in 1577, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.109375 = fieldNorm(doc=1577)
  0.2 = coord(1/5)

Imprint: Potsdam : Fachhochschule, FB A-B-D

Maas, H.-D.: Indexieren mit AUTINDEX (2006) 0.00

0.0020586967 = product of:
  0.005146742 = sum of:
    0.0023839036 = weight(_text_:a in 6077) [ClassicSimilarity], result of:
      0.0023839036 = score(doc=6077,freq=2.0), product of:
        0.053464882 = queryWeight, product of:
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046368346 = queryNorm
        0.044588212 = fieldWeight in 6077, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.02734375 = fieldNorm(doc=6077)
    0.002762838 = product of:
      0.005525676 = sum of:
        0.005525676 = weight(_text_:information in 6077) [ClassicSimilarity], result of:
          0.005525676 = score(doc=6077,freq=2.0), product of:
            0.08139861 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.046368346 = queryNorm
            0.06788416 = fieldWeight in 6077, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.02734375 = fieldNorm(doc=6077)
      0.5 = coord(1/2)
  0.4 = coord(2/5)

Source: Information und Sprache: Beiträge zu Informationswissenschaft, Computerlinguistik, Bibliothekswesen und verwandten Fächern. Festschrift für Harald H. Zimmermann. Herausgegeben von Ilse Harms, Heinz-Dirk Luckhardt und Hans W. Giessen
Type: a

Woltering, H.: Maschinelle Indexierung in der Bibliothek der Friedrich-Ebert-Stiftung (2002) 0.00

0.0019071229 = product of:
  0.009535614 = sum of:
    0.009535614 = weight(_text_:a in 4351) [ClassicSimilarity], result of:
      0.009535614 = score(doc=4351,freq=2.0), product of:
        0.053464882 = queryWeight, product of:
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046368346 = queryNorm
        0.17835285 = fieldWeight in 4351, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.109375 = fieldNorm(doc=4351)
  0.2 = coord(1/5)

Type: a

Oberhauser, O.; Labner, J.: Einführung der automatischen Indexierung im Österreichischen Verbundkatalog? : Bericht über eine empirische Studie (2003) 0.00

0.0019071229 = product of:
  0.009535614 = sum of:
    0.009535614 = weight(_text_:a in 1878) [ClassicSimilarity], result of:
      0.009535614 = score(doc=1878,freq=2.0), product of:
        0.053464882 = queryWeight, product of:
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046368346 = queryNorm
        0.17835285 = fieldWeight in 1878, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.109375 = fieldNorm(doc=1878)
  0.2 = coord(1/5)

Location: A

Maas, J.: Anforderungsanalyse für den Einsatz eines (semi)automatischen Indexierungsverfahrens in der Textdokumentation des ZDF (2002) 0.00

0.0018945175 = product of:
  0.009472587 = sum of:
    0.009472587 = product of:
      0.018945174 = sum of:
        0.018945174 = weight(_text_:information in 1785) [ClassicSimilarity], result of:
          0.018945174 = score(doc=1785,freq=2.0), product of:
            0.08139861 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.046368346 = queryNorm
            0.23274569 = fieldWeight in 1785, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.09375 = fieldNorm(doc=1785)
      0.5 = coord(1/2)
  0.2 = coord(1/5)

Imprint: Potsdam : Fachhochschule, Institut für Information und Dokumentation

Goller, C.; Löning, J.; Will, T.; Wolff, W.: Automatic document classification : a thourough evaluation of various methods (2000) 0.00
```
0.0018276243 = product of:
  0.009138121 = sum of:
    0.009138121 = weight(_text_:a in 5480) [ClassicSimilarity], result of:
      0.009138121 = score(doc=5480,freq=10.0), product of:
        0.053464882 = queryWeight, product of:
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046368346 = queryNorm
        0.1709182 = fieldWeight in 5480, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046875 = fieldNorm(doc=5480)
  0.2 = coord(1/5)
```
Abstract

(Automatic) document classification is generally defined as content-based assignment of one or more predefined categories to documents. Usually, machine learning, statistical pattern recognition, or neural network approaches are used to construct classifiers automatically. In this paper we thoroughly evaluate a wide variety of these methods on a document classification task for German text. We evaluate different feature construction and selection methods and various classifiers. Our main results are: (1) feature selection is necessary not only to reduce learning and classification time, but also to avoid overfitting (even for Support Vector Machines); (2) surprisingly, our morphological analysis does not improve classification quality compared to a letter 5-gram approach; (3) Support Vector Machines are significantly better than all other classification methods

Type

a
Pirkola, A.: Morphological typology of languages for IR (2001) 0.00
```
0.0018276243 = product of:
  0.009138121 = sum of:
    0.009138121 = weight(_text_:a in 4476) [ClassicSimilarity], result of:
      0.009138121 = score(doc=4476,freq=10.0), product of:
        0.053464882 = queryWeight, product of:
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046368346 = queryNorm
        0.1709182 = fieldWeight in 4476, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046875 = fieldNorm(doc=4476)
  0.2 = coord(1/5)
```
Abstract

This paper presents a morphological classification of languages from the IR perspective. Linguistic typology research has shown that the morphological complexity of every language in the world can be described by two variables, index of synthesis and index of fusion. These variables provide a theoretical basis for IR research handling morphological issues. A common theoretical framework is needed in particular because of the increasing significance of cross-language retrieval research and CLIR systems processing different languages. The paper elaborates the linguistic morphological typology for the purposes of IR research. It studies how the indexes of synthesis and fusion could be used as practical tools in mono- and cross-lingual IR research. The need for semantic and syntactic typologies is discussed. The paper also reviews studies made in different languages on the effects of morphology and stemming in IR.

Type

a
Bloomfield, M.: Indexing : neglected and poorly understood (2001) 0.00
```
0.0018276243 = product of:
  0.009138121 = sum of:
    0.009138121 = weight(_text_:a in 5439) [ClassicSimilarity], result of:
      0.009138121 = score(doc=5439,freq=10.0), product of:
        0.053464882 = queryWeight, product of:
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046368346 = queryNorm
        0.1709182 = fieldWeight in 5439, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046875 = fieldNorm(doc=5439)
  0.2 = coord(1/5)
```
Abstract

The growth of the Internet has highlighted the use of machine indexing. The difficulties in using the Internet as a searching device can be frustrating. The use of the term "Python" is given as an example. Machine indexing is noted as "rotten" and human indexing as "capricious." The problem seems to be a lack of a theoretical foundation for the art of indexing. What librarians have learned over the last hundred years has yet to yield a consistent approach to what really works best in preparing index terms and in the ability of our customers to search the various indexes. An attempt is made to consider the elements of indexing, their pros and cons. The argument is made that machine indexing is far too prolific in its production of index terms. Neither librarians nor computer programmers have made much progress to improve Internet indexing. Human indexing has had the same problems for over fifty years.

Type

a

Thirion, B.; Leroy, J.P.; Baudic, F.; Douyère, M.; Piot, J.; Darmoni, S.J.: SDI selecting, decribing, and indexing : did you mean automatically? (2001) 0.00

0.0016346768 = product of:
  0.008173384 = sum of:
    0.008173384 = weight(_text_:a in 6198) [ClassicSimilarity], result of:
      0.008173384 = score(doc=6198,freq=2.0), product of:
        0.053464882 = queryWeight, product of:
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046368346 = queryNorm
        0.15287387 = fieldWeight in 6198, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.09375 = fieldNorm(doc=6198)
  0.2 = coord(1/5)

Type: a

Galvez, C.; Moya-Anegón, F. de: ¬An evaluation of conflation accuracy using finite-state transducers (2006) 0.00
```
0.0016346768 = product of:
  0.008173384 = sum of:
    0.008173384 = weight(_text_:a in 5599) [ClassicSimilarity], result of:
      0.008173384 = score(doc=5599,freq=8.0), product of:
        0.053464882 = queryWeight, product of:
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046368346 = queryNorm
        0.15287387 = fieldWeight in 5599, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046875 = fieldNorm(doc=5599)
  0.2 = coord(1/5)
```
Abstract

Purpose - To evaluate the accuracy of conflation methods based on finite-state transducers (FSTs). Design/methodology/approach - Incorrectly lemmatized and stemmed forms may lead to the retrieval of inappropriate documents. Experimental studies to date have focused on retrieval performance, but very few on conflation performance. The process of normalization we used involved a linguistic toolbox that allowed us to construct, through graphic interfaces, electronic dictionaries represented internally by FSTs. The lexical resources developed were applied to a Spanish test corpus for merging term variants in canonical lemmatized forms. Conflation performance was evaluated in terms of an adaptation of recall and precision measures, based on accuracy and coverage, not actual retrieval. The results were compared with those obtained using a Spanish version of the Porter algorithm. Findings - The conclusion is that the main strength of lemmatization is its accuracy, whereas its main limitation is the underanalysis of variant forms. Originality/value - The report outlines the potential of transducers in their application to normalization processes.

Type

a
Kumpe, D.: Methoden zur automatischen Indexierung von Dokumenten (2006) 0.00
```
0.0015628971 = product of:
  0.007814486 = sum of:
    0.007814486 = product of:
      0.015628971 = sum of:
        0.015628971 = weight(_text_:information in 782) [ClassicSimilarity], result of:
          0.015628971 = score(doc=782,freq=4.0), product of:
            0.08139861 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.046368346 = queryNorm
            0.1920054 = fieldWeight in 782, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.0546875 = fieldNorm(doc=782)
      0.5 = coord(1/2)
  0.2 = coord(1/5)
```
Abstract

Diese Diplomarbeit handelt von der Indexierung von unstrukturierten und natürlichsprachigen Dokumenten. Die zunehmende Informationsflut und die Zahl an veröffentlichten wissenschaftlichen Berichten und Büchern machen eine maschinelle inhaltliche Erschließung notwendig. Um die Anforderungen hierfür besser zu verstehen, werden Probleme der natürlichsprachigen schriftlichen Kommunikation untersucht. Die manuellen Techniken der Indexierung und die Dokumentationssprachen werden vorgestellt. Die Indexierung wird thematisch in den Bereich der inhaltlichen Erschließung und des Information Retrieval eingeordnet. Weiterhin werden Vor- und Nachteile von ausgesuchten Algorithmen untersucht und Softwareprodukte im Bereich des Information Retrieval auf ihre Arbeitsweise hin evaluiert. Anhand von Beispiel-Dokumenten werden die Ergebnisse einzelner Verfahren vorgestellt. Mithilfe des Projekts European Migration Network werden Probleme und grundlegende Anforderungen an die Durchführung einer inhaltlichen Erschließung identifiziert und Lösungsmöglichkeiten vorgeschlagen.

Hauer, M.: Digitalisierung von Aufsätzen und anderen Texten mit maschineller Inhaltserschließung am Beispiel der Vorarlberger Landesbibliothek Bregenz : Wissensressourcen zutage fördern (2003) 0.00

0.001541188 = product of:
  0.00770594 = sum of:
    0.00770594 = weight(_text_:a in 1498) [ClassicSimilarity], result of:
      0.00770594 = score(doc=1498,freq=4.0), product of:
        0.053464882 = queryWeight, product of:
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046368346 = queryNorm
        0.14413087 = fieldWeight in 1498, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.0625 = fieldNorm(doc=1498)
  0.2 = coord(1/5)

Location: A
Type: a

Oberhauser, O.; Labner, J.: OPAC-Erweiterung durch automatische Indexierung : Empirische Untersuchung mit Daten aus dem Österreichischen Verbundkatalog (2002) 0.00

0.001155891 = product of:
  0.005779455 = sum of:
    0.005779455 = weight(_text_:a in 883) [ClassicSimilarity], result of:
      0.005779455 = score(doc=883,freq=4.0), product of:
        0.053464882 = queryWeight, product of:
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046368346 = queryNorm
        0.10809815 = fieldWeight in 883, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          1.153047 = idf(docFreq=37942, maxDocs=44218)
          0.046875 = fieldNorm(doc=883)
  0.2 = coord(1/5)

Location: A
Type: a

Scherer, B.: Automatische Indexierung und ihre Anwendung im DFG-Projekt "Gemeinsames Portal für Bibliotheken, Archive und Museen (BAM)" (2003) 0.00

0.0011163552 = product of:
  0.0055817757 = sum of:
    0.0055817757 = product of:
      0.011163551 = sum of:
        0.011163551 = weight(_text_:information in 4283) [ClassicSimilarity], result of:
          0.011163551 = score(doc=4283,freq=4.0), product of:
            0.08139861 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.046368346 = queryNorm
            0.13714671 = fieldWeight in 4283, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.0390625 = fieldNorm(doc=4283)
      0.5 = coord(1/2)
  0.2 = coord(1/5)

Footnote: Masterarbeit im Studiengang Information Engineering zur Erlagung des Grades eines Master of Science in Information science,

Bachfeld, S.: Möglichkeiten und Grenzen linguistischer Verfahren der automatischen Indexierung : Entwurf einer Simulation für den Einsatz im Grundstudium (2003) 0.00
```
0.0010938003 = product of:
  0.0054690014 = sum of:
    0.0054690014 = product of:
      0.010938003 = sum of:
        0.010938003 = weight(_text_:information in 2827) [ClassicSimilarity], result of:
          0.010938003 = score(doc=2827,freq=6.0), product of:
            0.08139861 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.046368346 = queryNorm
            0.1343758 = fieldWeight in 2827, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.03125 = fieldNorm(doc=2827)
      0.5 = coord(1/2)
  0.2 = coord(1/5)
```
Abstract

Die Arbeit entwirft ein Konzept für eine Simulation, die als Teil eines ELearning-Moduls die Probleme der automatischen Freitextindexierung und linguistische Verfahren zur Verbesserung der Indexierungsergebnisse veranschaulichen soll. Zielgruppe der Simulation sind die im Studierenden des Fachbereichs Bibliothek und Information der HAW Hamburg, die sich im Grundstudium befinden. Es wird ein inhaltliches Konzept dafür entwickelt, wie die Simulation Vor- und Nachteile regelbasierter und wörterbuchbasierte Indexierungsverfahren für das Grundstudium darstellen kann. Ziel ist zu zeigen, dass regelbasierte Verfahren in einer stark flektierenden und kompositareichen Sprache wie dem Deutschen zu zahlreichen Indexierungsfehlern führen können und dass wörterbuchbasierte Verfahren bessere Indexate liefern. Im zweiten Teil der Arbeit wird eine Informationsarchitektur für die Simulation entworfen und ein Prototyp programmiert, der eine Freitextindexierung und darauf aufbauend ein regelbasiertes Reduktionsverfahren darstellt. Ziel dabei ist insbesondere zu zeigen, dass regelbasierte Indexierungsverfahren für das Deutsche keine befriedigenden Ergebnisse erzielen, und dass wörterbuchbasierte Verfahren im Deutschen zu bevorzugen sind. Vor diesem Hintergrund wird im zweiten Teil der Arbeit ein Prototyp für die Simulation konzipiert, die elektronische Volltexte zunächst nach der Freitextmethode und danach mit linguistischen Verfahren indexiert. Es wird eine Informationsarchitektur entwickelt, die nicht nur anstrebt, der Zielgruppe gerecht zu werden, sondern auch die Vor- und Nachteile der linguistischen Indexierungsverfahren möglichst deutlich zu zeigen. Für die Freitextindexierung als einfachste Form der automatischen Indexierung und für das regelbasierte Verfahren wird auch schon der Programmcode geschrieben. Für die regelbasierte Wortformenreduktion greift die Autorin auf ein schon bestehendes Programm zurück, das Cornelie Ahlfeld 1995 im Rahmen ihrer Diplomarbeit entwickelt hat. Die Autorin versucht, dieses Programm durch eine Präsentation der Indexierungsergebnisse zu ergänzen, die es für den Einsatz in der Lehre nützlich machen.

Footnote

Hausarbeit zur Diplomprüfung an der HAW Hamburg, Fachbereich Bibliothek und Information

Imprint

Hamburg : HAW Hamburg, Fachbereich Bibliothek und Information

Search (67 results, page 3 of 4)

Authors

Languages

Types

Themes

Subjects

Classifications