Search (208 results, page 1 of 11)

Schneider, A.: Moderne Retrievalverfahren in klassischen bibliotheksbezogenen Anwendungen : Projekte und Perspektiven (2008) 0.03
```
0.028774302 = product of:
  0.11509721 = sum of:
    0.037026346 = weight(_text_:informatik in 4031) [ClassicSimilarity], result of:
      0.037026346 = score(doc=4031,freq=2.0), product of:
        0.16419695 = queryWeight, product of:
          5.1024737 = idf(docFreq=730, maxDocs=44218)
          0.032179873 = queryNorm
        0.2254996 = fieldWeight in 4031, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1024737 = idf(docFreq=730, maxDocs=44218)
          0.03125 = fieldNorm(doc=4031)
    0.02880429 = weight(_text_:und in 4031) [ClassicSimilarity], result of:
      0.02880429 = score(doc=4031,freq=34.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.40386027 = fieldWeight in 4031, product of:
          5.8309517 = tf(freq=34.0), with freq of:
            34.0 = termFreq=34.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=4031)
    0.049266577 = weight(_text_:einzelne in 4031) [ClassicSimilarity], result of:
      0.049266577 = score(doc=4031,freq=2.0), product of:
        0.18940257 = queryWeight, product of:
          5.885746 = idf(docFreq=333, maxDocs=44218)
          0.032179873 = queryNorm
        0.26011568 = fieldWeight in 4031, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.885746 = idf(docFreq=333, maxDocs=44218)
          0.03125 = fieldNorm(doc=4031)
  0.25 = coord(3/12)
```
Abstract

Die vorliegende Arbeit beschäftigt sich mit modernen Retrievalverfahren in klassischen bibliotheksbezogenen Anwendungen. Wie die Verbindung der beiden gegensätzlich scheinenden Wortgruppen im Titel zeigt, werden in der Arbeit Aspekte aus der Informatik bzw. Informationswissenschaft mit Aspekten aus der Bibliothekstradition verknüpft. Nach einer kurzen Schilderung der Ausgangslage, der so genannten Informationsflut, im ersten Kapitel stellt das zweite Kapitel eine Einführung in die Theorie des Information Retrieval dar. Im Einzelnen geht es um die Grundlagen von Information Retrieval und Information-Retrieval-Systemen sowie um die verschiedenen Möglichkeiten der Informationserschließung. Hier werden Formal- und Sacherschließung, Indexierung und automatische Indexierung behandelt. Des Weiteren werden im Rahmen der Theorie des Information Retrieval unterschiedliche Information-Retrieval-Modelle und die Evaluation durch Retrievaltests vorgestellt. Nach der Theorie folgt im dritten Kapitel die Praxis des Information Retrieval. Es werden die organisationsinterne Anwendung, die Anwendung im Informations- und Dokumentationsbereich sowie die Anwendung im Bibliotheksbereich unterschieden. Die organisationsinterne Anwendung wird durch das Beispiel der Datenbank KURS zur Aus- und Weiterbildung veranschaulicht. Die Anwendung im Bibliotheksbereich bezieht sich in erster Linie auf den OPAC als Kompromiss zwischen bibliothekarischer Indexierung und Endnutzeranforderungen und auf seine Anreicherung (sog. Catalogue Enrichment), um das Retrieval zu verbessern. Der Bibliotheksbereich wird ausführlicher behandelt, indem ein Rückblick auf abgeschlossene Projekte zu Informations- und Indexierungssystemen aus den Neunziger Jahren (OSIRIS, MILOS I und II, KASCADE) sowie ein Einblick in aktuelle Projekte gegeben werden. In den beiden folgenden Kapiteln wird je ein aktuelles Projekt zur Verbesserung des Retrievals durch Kataloganreicherung, automatische Erschließung und fortschrittliche Retrievalverfahren präsentiert: das Suchportal dandelon.com und das 180T-Projekt des Hochschulbibliothekszentrums des Landes Nordrhein-Westfalen. Hierbei werden jeweils Projektziel, Projektpartner, Projektorganisation, Projektverlauf und die verwendete Technologie vorgestellt. Die Projekte unterscheiden sich insofern, dass in dem einen Fall eine große Verbundzentrale die Projektkoordination übernimmt, im anderen Fall jede einzelne teilnehmende Bibliothek selbst für die Durchführung verantwortlich ist. Im sechsten und letzten Kapitel geht es um das Fazit und die Perspektiven. Es werden sowohl die beiden beschriebenen Projekte bewertet als auch ein Ausblick auf Entwicklungen bezüglich des Bibliothekskatalogs gegeben. Diese Veröffentlichung geht zurück auf eine Master-Arbeit im postgradualen Fernstudiengang Master of Arts (Library and Information Science) an der Humboldt-Universität zu Berlin.

Imprint

Berlin : Institut für Bibliotheks- und Informationswissenschaft der Humboldt-Universität zu Berlin
Kumpe, D.: Methoden zur automatischen Indexierung von Dokumenten (2006) 0.02
```
0.017242817 = product of:
  0.1034569 = sum of:
    0.064796105 = weight(_text_:informatik in 782) [ClassicSimilarity], result of:
      0.064796105 = score(doc=782,freq=2.0), product of:
        0.16419695 = queryWeight, product of:
          5.1024737 = idf(docFreq=730, maxDocs=44218)
          0.032179873 = queryNorm
        0.3946243 = fieldWeight in 782, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1024737 = idf(docFreq=730, maxDocs=44218)
          0.0546875 = fieldNorm(doc=782)
    0.038660794 = weight(_text_:und in 782) [ClassicSimilarity], result of:
      0.038660794 = score(doc=782,freq=20.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.54205674 = fieldWeight in 782, product of:
          4.472136 = tf(freq=20.0), with freq of:
            20.0 = termFreq=20.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0546875 = fieldNorm(doc=782)
  0.16666667 = coord(2/12)
```
Abstract

Diese Diplomarbeit handelt von der Indexierung von unstrukturierten und natürlichsprachigen Dokumenten. Die zunehmende Informationsflut und die Zahl an veröffentlichten wissenschaftlichen Berichten und Büchern machen eine maschinelle inhaltliche Erschließung notwendig. Um die Anforderungen hierfür besser zu verstehen, werden Probleme der natürlichsprachigen schriftlichen Kommunikation untersucht. Die manuellen Techniken der Indexierung und die Dokumentationssprachen werden vorgestellt. Die Indexierung wird thematisch in den Bereich der inhaltlichen Erschließung und des Information Retrieval eingeordnet. Weiterhin werden Vor- und Nachteile von ausgesuchten Algorithmen untersucht und Softwareprodukte im Bereich des Information Retrieval auf ihre Arbeitsweise hin evaluiert. Anhand von Beispiel-Dokumenten werden die Ergebnisse einzelner Verfahren vorgestellt. Mithilfe des Projekts European Migration Network werden Probleme und grundlegende Anforderungen an die Durchführung einer inhaltlichen Erschließung identifiziert und Lösungsmöglichkeiten vorgeschlagen.

Imprint

Berlin : Technische Universität Berlin / Institut für Softwaretechnik und Theoretische Informatik, Computergestützte Informationssysteme

Schöneberg, U.; Gödert, W.: Erschließung mathematischer Publikationen mittels linguistischer Verfahren (2012) 0.02

0.017010272 = product of:
  0.068041086 = sum of:
    0.033573627 = weight(_text_:software in 1055) [ClassicSimilarity], result of:
      0.033573627 = score(doc=1055,freq=2.0), product of:
        0.12766245 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.032179873 = queryNorm
        0.2629875 = fieldWeight in 1055, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.046875 = fieldNorm(doc=1055)
    0.025668446 = weight(_text_:und in 1055) [ClassicSimilarity], result of:
      0.025668446 = score(doc=1055,freq=12.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.35989314 = fieldWeight in 1055, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.046875 = fieldNorm(doc=1055)
    0.008799011 = product of:
      0.02639703 = sum of:
        0.02639703 = weight(_text_:29 in 1055) [ClassicSimilarity], result of:
          0.02639703 = score(doc=1055,freq=2.0), product of:
            0.113198735 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.032179873 = queryNorm
            0.23319192 = fieldWeight in 1055, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.046875 = fieldNorm(doc=1055)
      0.33333334 = coord(1/3)
  0.25 = coord(3/12)

Abstract: Die Zahl der mathematik-relevanten Publikationn steigt von Jahr zu Jahr an. Referatedienste wie da Zentralblatt MATH und Mathematical Reviews erfassen die bibliographischen Daten, erschließen die Arbeiten inhaltlich und machen sie - heute über Datenbanken, früher in gedruckter Form - für den Nutzer suchbar. Keywords sind ein wesentlicher Bestandteil der inhaltlichen Erschließung der Publikationen. Keywords sind meist keine einzelnen Wörter, sondern Mehrwortphrasen. Das legt die Anwendung linguistischer Methoden und Verfahren nahe. Die an der FH Köln entwickelte Software 'Lingo' wurde für die speziellen Anforderungen mathematischer Texte angepasst und sowohl zum Aufbau eines kontrollierten Vokabulars als auch zur Extraction von Keywords aus mathematischen Publikationen genutzt. Es ist geplant, über eine Verknüpfung von kontrolliertem Vokabular und der Mathematical Subject Classification Methoden für die automatische Klassifikation für den Referatedienst Zentralblatt MATH zu entwickeln und zu erproben.
Date: 12. 9.2013 12:29:05

Pollmeier, M.: Verlagsschlagwörter als Grundlage für den Einsatz eines maschinellen Verfahrens zur verbalen Erschließung der Kinder- und Jugendliteratur durch die Deutsche Nationalbibliothek : eine Datenanalyse (2019) 0.02
```
0.016730715 = product of:
  0.10038429 = sum of:
    0.065453954 = weight(_text_:informatik in 1081) [ClassicSimilarity], result of:
      0.065453954 = score(doc=1081,freq=4.0), product of:
        0.16419695 = queryWeight, product of:
          5.1024737 = idf(docFreq=730, maxDocs=44218)
          0.032179873 = queryNorm
        0.39863077 = fieldWeight in 1081, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          5.1024737 = idf(docFreq=730, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1081)
    0.034930333 = weight(_text_:und in 1081) [ClassicSimilarity], result of:
      0.034930333 = score(doc=1081,freq=32.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.48975256 = fieldWeight in 1081, product of:
          5.656854 = tf(freq=32.0), with freq of:
            32.0 = termFreq=32.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1081)
  0.16666667 = coord(2/12)
```
Abstract

Die Inhaltserschließung durch Schlagwörter wird aktuell in vielen Öffentlichen Bibliotheken Deutschlands zurückgefahren. Aufgrund von Personalmangel und den vielfältigen anderen bibliothekarischen Dienstleistungen, die für die Benutzer zu leisten sind, kommt sie oft zu kurz. Die Deutsche Nationalbibliothek unterstützte diese Bibliotheken bisher als wichtigster Datenlieferant, jedoch stellte sie 2017 die intellektuelle Inhaltserschließung der Kinder- und Jugendliteratur und der Belletristik ein. Um diese problematische Situation zu verbessern, wird aktuell in der Deutschen Nationalbibliothek ein Verfahren erprobt, das aus Schlagwörtern von Verlagen maschinell bibliothekarische Schlagwörter aus der Gemeinsamen Normdatei generiert. Auf die Titel der Kinder- und Jugendliteratur aus den Jahren 2018 und 2019 wurde es bereits angewendet. In dieser Arbeit geht es um eine erste Analyse dieser Erschließungsergebnisse, um Aussagen über die Nützlichkeit der Verlagsschlagwörter und des automatischen Verfahrens zu treffen. Im theoretischen Teil werden einerseits die Inhaltserschließung im bibliothekarischen Bereich und deren aktuelle Entwicklungen hinsichtlich der Automatisierung beschrieben. Andererseits wird näher auf die Erschließungspraxis in der Deutschen Nationalbibliothek hinsichtlich der Automatisierung und der Kinder- und Jugendliteratur eingegangen. Im Analyseteil werden sowohl die Verlagsschlagwörter als auch die bibliothekarischen Schlagwörter nach festgelegten Kriterien untersucht und schließlich miteinander verglichen.

Footnote

Bachelorarbeit an der Hochschule für Technik, Wirtschaft und Kultur Leipzig Fakultät Informatik und Medien Studiengang Bibliotheks- und Informationswissenschaft.

Imprint

Leipzig : Hochschule für Technik, Wirtschaft und Kultur / Fakultät Informatik und Medien

Salton, G.; McGill, M. J.: Information Retrieval: Grundlegendes für Informationswissenschaftler (1987) 0.01

0.014367767 = product of:
  0.0862066 = sum of:
    0.055956043 = weight(_text_:software in 8648) [ClassicSimilarity], result of:
      0.055956043 = score(doc=8648,freq=2.0), product of:
        0.12766245 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.032179873 = queryNorm
        0.43831247 = fieldWeight in 8648, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.078125 = fieldNorm(doc=8648)
    0.030250557 = weight(_text_:und in 8648) [ClassicSimilarity], result of:
      0.030250557 = score(doc=8648,freq=6.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.42413816 = fieldWeight in 8648, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.078125 = fieldNorm(doc=8648)
  0.16666667 = coord(2/12)

Content: Enthält die Kapitel: Information Retrieval: eine Einführung; Invertierte Dateisysteme; Textanalyse und automatisches Indexieren; Die experimentellen Retrievalsysteme SMART und SIRE; Die Bewertung von Retrievalsystemen; Fortgeschrittene Retrievaltechniken; Verarbeitung natürlicher Sprache; Informationstechnologie: Hardware und Software; Datenbankmanagementsysteme; Zukünftige Entwicklungen im Information Retrieval

Rädler, K.: In Bibliothekskatalogen "googlen" : Integration von Inhaltsverzeichnissen, Volltexten und WEB-Ressourcen in Bibliothekskataloge (2004) 0.01
```
0.013828932 = product of:
  0.08297359 = sum of:
    0.021390373 = weight(_text_:und in 2432) [ClassicSimilarity], result of:
      0.021390373 = score(doc=2432,freq=12.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.29991096 = fieldWeight in 2432, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=2432)
    0.06158322 = weight(_text_:einzelne in 2432) [ClassicSimilarity], result of:
      0.06158322 = score(doc=2432,freq=2.0), product of:
        0.18940257 = queryWeight, product of:
          5.885746 = idf(docFreq=333, maxDocs=44218)
          0.032179873 = queryNorm
        0.3251446 = fieldWeight in 2432, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.885746 = idf(docFreq=333, maxDocs=44218)
          0.0390625 = fieldNorm(doc=2432)
  0.16666667 = coord(2/12)
```
Abstract

Ausgangslage Die Katalog-Recherchen über Internet, also von außerhalb der Bibliothek, nehmen erwartungsgemäß stark zu bzw. sind mittlerweile die Regel. Damit ist natürlich das Bedürfnis und die Notwendigkeit gewachsen, über den Titel hinaus zusätzliche inhaltliche Informationen zu erhalten, die es erlauben, die Zweckmäßigkeit wesentlich besser abschätzen zu können, eine Bestellung vorzunehmen oder vielleicht auch 50 km in die Bibliothek zu fahren, um ein Buch zu entleihen. Dieses Informationsdefizit wird zunehmend als gravierender Mangel erfahren. Inhaltsverzeichnisse referieren den Inhalt kurz und prägnant. Sie sind die erste Stelle, welche zur Relevanz-Beurteilung herangezogen wird. Fast alle relevanten Terme einer Fachbuchpublikation finden sich bereits dort. Andererseits wird immer deutlicher, dass die dem bibliothekarischen Paradigma entsprechende intellektuelle Indexierung der einzelnen dokumentarischen Einheiten mit den engsten umfassenden dokumentationssprachlichen Termen (Schlagwörter, Klassen) zwar eine notwendige, aber keinesfalls hinreichende Methode darstellt, das teuer erworbene Bibliotheksgut Information für den Benutzer in seiner spezifischen Problemstellung zu aktivieren und als Informationsdienstleistung anbieten zu können. Informationen zu sehr speziellen Fragestellungen, die oft nur in kürzeren Abschnitten (Kapitel) erörtert werden, sind derzeit nur indirekt, mit großem Zeitaufwand und oft überhaupt nicht auffindbar. Sie liegen sozusagen brach. Die Tiefe der intellektuellen Indexierung bis in einzelne inhaltliche Details zu erweitern, ist aus personellen und damit auch finanziellen Gesichtspunkten nicht vertretbar. Bibliotheken fallen deshalb in der Wahrnehmung von Informationssuchenden immer mehr zurück. Die enorme Informationsvielfalt liegt hinter dem Informations- bzw. Recherchehorizont der bibliographischen Aufnahmen im Katalog.
Giesselbach, S.; Estler-Ziegler, T.: Dokumente schneller analysieren mit Künstlicher Intelligenz (2021) 0.01
```
0.012755583 = product of:
  0.0765335 = sum of:
    0.046282936 = weight(_text_:informatik in 128) [ClassicSimilarity], result of:
      0.046282936 = score(doc=128,freq=2.0), product of:
        0.16419695 = queryWeight, product of:
          5.1024737 = idf(docFreq=730, maxDocs=44218)
          0.032179873 = queryNorm
        0.2818745 = fieldWeight in 128, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1024737 = idf(docFreq=730, maxDocs=44218)
          0.0390625 = fieldNorm(doc=128)
    0.030250557 = weight(_text_:und in 128) [ClassicSimilarity], result of:
      0.030250557 = score(doc=128,freq=24.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.42413816 = fieldWeight in 128, product of:
          4.8989797 = tf(freq=24.0), with freq of:
            24.0 = termFreq=24.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=128)
  0.16666667 = coord(2/12)
```
Abstract

Künstliche Intelligenz (KI) und natürliches Sprachverstehen (natural language understanding/NLU) verändern viele Aspekte unseres Alltags und unserer Arbeitsweise. Besondere Prominenz erlangte NLU durch Sprachassistenten wie Siri, Alexa und Google Now. NLU bietet Firmen und Einrichtungen das Potential, Prozesse effizienter zu gestalten und Mehrwert aus textuellen Inhalten zu schöpfen. So sind NLU-Lösungen in der Lage, komplexe, unstrukturierte Dokumente inhaltlich zu erschließen. Für die semantische Textanalyse hat das NLU-Team des IAIS Sprachmodelle entwickelt, die mit Deep-Learning-Verfahren trainiert werden. Die NLU-Suite analysiert Dokumente, extrahiert Eckdaten und erstellt bei Bedarf sogar eine strukturierte Zusammenfassung. Mit diesen Ergebnissen, aber auch über den Inhalt der Dokumente selbst, lassen sich Dokumente vergleichen oder Texte mit ähnlichen Informationen finden. KI-basierten Sprachmodelle sind der klassischen Verschlagwortung deutlich überlegen. Denn sie finden nicht nur Texte mit vordefinierten Schlagwörtern, sondern suchen intelligent nach Begriffen, die in ähnlichem Zusammenhang auftauchen oder als Synonym gebraucht werden. Der Vortrag liefert eine Einordnung der Begriffe "Künstliche Intelligenz" und "Natural Language Understanding" und zeigt Möglichkeiten, Grenzen, aktuelle Forschungsrichtungen und Methoden auf. Anhand von Praxisbeispielen wird anschließend demonstriert, wie NLU zur automatisierten Belegverarbeitung, zur Katalogisierung von großen Datenbeständen wie Nachrichten und Patenten und zur automatisierten thematischen Gruppierung von Social Media Beiträgen und Publikationen genutzt werden kann.

Field

Informatik
Scherer, B.: Automatische Indexierung und ihre Anwendung im DFG-Projekt "Gemeinsames Portal für Bibliotheken, Archive und Museen (BAM)" (2003) 0.01
```
0.01254094 = product of:
  0.07524564 = sum of:
    0.046282936 = weight(_text_:informatik in 4283) [ClassicSimilarity], result of:
      0.046282936 = score(doc=4283,freq=2.0), product of:
        0.16419695 = queryWeight, product of:
          5.1024737 = idf(docFreq=730, maxDocs=44218)
          0.032179873 = queryNorm
        0.2818745 = fieldWeight in 4283, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1024737 = idf(docFreq=730, maxDocs=44218)
          0.0390625 = fieldNorm(doc=4283)
    0.028962703 = weight(_text_:und in 4283) [ClassicSimilarity], result of:
      0.028962703 = score(doc=4283,freq=22.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.40608138 = fieldWeight in 4283, product of:
          4.690416 = tf(freq=22.0), with freq of:
            22.0 = termFreq=22.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=4283)
  0.16666667 = coord(2/12)
```
Abstract

Automatische Indexierung verzeichnet schon seit einigen Jahren aufgrund steigender Informationsflut ein wachsendes Interesse. Allerdings gibt es immer noch Vorbehalte gegenüber der intellektuellen Indexierung in Bezug auf Qualität und größerem Aufwand der Systemimplementierung bzw. -pflege. Neuere Entwicklungen aus dem Bereich des Wissensmanagements, wie beispielsweise Verfahren aus der Künstlichen Intelligenz, der Informationsextraktion, dem Text Mining bzw. der automatischen Klassifikation sollen die automatische Indexierung aufwerten und verbessern. Damit soll eine intelligentere und mehr inhaltsbasierte Erschließung geleistet werden. In dieser Masterarbeit wird außerhalb der Darstellung von Grundlagen und Verfahren der automatischen Indexierung sowie neueren Entwicklungen auch Möglichkeiten der Evaluation dargestellt. Die mögliche Anwendung der automatischen Indexierung im DFG-ProjektGemeinsames Portal für Bibliotheken, Archive und Museen (BAM)" bilden den Schwerpunkt der Arbeit. Im Portal steht die bibliothekarische Erschließung von Texten im Vordergrund. In einem umfangreichen Test werden drei deutsche, linguistische Systeme mit statistischen Verfahren kombiniert (die aber teilweise im System bereits integriert ist) und evaluiert, allerdings nur auf der Basis der ausgegebenen Indexate. Abschließend kann festgestellt werden, dass die Ergebnisse und damit die Qualität (bezogen auf die Indexate) von intellektueller und automatischer Indexierung noch signifikant unterschiedlich sind. Die Gründe liegen in noch zu lösenden semantischen Problemen bzw, in der Obereinstimmung mit Worten aus einem Thesaurus, die von einem automatischen Indexierungssystem nicht immer nachvollzogen werden kann. Eine Inhaltsanreicherung mit den Indexaten zum Vorteil beim Retrieval kann, je nach System oder auch über die Einbindung durch einen Thesaurus, erreicht werden.

Imprint

Konstanz : Universität / Fachbereich Informatik und Informationswissenschaft
Nohr, H.: Automatische Indexierung : Einführung in betriebliche Verfahren, Systeme und Anwendungen (2001) 0.01
```
0.012409201 = product of:
  0.0744552 = sum of:
    0.025188621 = weight(_text_:und in 2543) [ClassicSimilarity], result of:
      0.025188621 = score(doc=2543,freq=26.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.3531656 = fieldWeight in 2543, product of:
          5.0990195 = tf(freq=26.0), with freq of:
            26.0 = termFreq=26.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=2543)
    0.049266577 = weight(_text_:einzelne in 2543) [ClassicSimilarity], result of:
      0.049266577 = score(doc=2543,freq=2.0), product of:
        0.18940257 = queryWeight, product of:
          5.885746 = idf(docFreq=333, maxDocs=44218)
          0.032179873 = queryNorm
        0.26011568 = fieldWeight in 2543, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.885746 = idf(docFreq=333, maxDocs=44218)
          0.03125 = fieldNorm(doc=2543)
  0.16666667 = coord(2/12)
```
Abstract

Das vorliegende Buch zur automatischen Indexierung trägt dem Umstand Rechnung, dass ein ständig wachsender Berg von Dokumenten in Unternehmen, öffentlichen Verwaltungen, Einrichtungen der Fachinformation oder dem Internet entscheidungsrelevante Informationen enthält, die mit manuellen Mitteln und Methoden kaum mehr beherrschbar und erschließbar sind. Diese unstrukturierten Informationen sind in einer zunehmend von der schnellen Verarbeitung der Ressource Information abhängigen Wirtschaft von größter Bedeutung, ihre Beherrschung ist unabdingbar für den Wettbewerbserfolg. Verfahren der automatischen Indexierung von Dokumenten sind damit eine Basistechnik der betrieblichen Informationswirtschaft geworden. Trotz dieses Urnstandes, liegt bis auf den heutigen Tag keine einführende Darstellung in die Thematik vor. Die Zielsetzung dieses Buches ist es, einführend die Grundlagen sowie die verschiedenen Ansätze und Verfahren der automatischen Indexierung von Dokumenten vorzustellen. Die Darstellung verzichtet dabei bewusst auf die allzu detaillierte Tiefendarstellung einzelner Verfahren und Indexierungssysteme zugunsten einer Übersicht der grundsätzlichen Ansätze mit ihren jeweiligen Voraussetzungen, ihren Möglichkeiten und ihren Beschränkungen. Soweit einzelne Verfahren und Indexierungssysteme behandelt werden, besitzen diese beispielhaften Charakter für den behandelten Ansatz. Bei der Darstellung war ich stets uni eine verständliche Sprache bemüht. Der Text dieses Buches ist entstanden aus Vorlesungen in entsprechenden Lehrveranstaltungen im Studiengang Informationswirtschaft an der Fachhochschule Stuttgart. Die Darstellung richtet sich an Studierende und Lehrende der Informationswirtschaft, des Informationsmanagements, der Dokumentation sowie der Wirtschaftsinformatik, zugleich aber auch an die interessierten und mit der Thernatik konfrontierten Praktiker, die weniger an der technischen Seite der automatischen Indexierung, als vielmehr einen grundsätzlichen Informationsbedarf über die Möglichkeiten und die Schwierigkeiten des Einsatzes entsprechender Verfahren haben

Classification

AN 95300 Allgemeines / Buch- und Bibliothekswesen, Informationswissenschaft / Informationswissenschaft / Informationspraxis / Automatisches Indexing (z.B. KWIC, KWOC)

RVK

AN 95300 Allgemeines / Buch- und Bibliothekswesen, Informationswissenschaft / Informationswissenschaft / Informationspraxis / Automatisches Indexing (z.B. KWIC, KWOC)

Series

Materialien zur Information und Dokumentation; Bd.13
Bredack, J.: Automatische Extraktion fachterminologischer Mehrwortbegriffe : ein Verfahrensvergleich (2016) 0.01
```
0.012080114 = product of:
  0.072480686 = sum of:
    0.046282936 = weight(_text_:informatik in 3194) [ClassicSimilarity], result of:
      0.046282936 = score(doc=3194,freq=2.0), product of:
        0.16419695 = queryWeight, product of:
          5.1024737 = idf(docFreq=730, maxDocs=44218)
          0.032179873 = queryNorm
        0.2818745 = fieldWeight in 3194, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1024737 = idf(docFreq=730, maxDocs=44218)
          0.0390625 = fieldNorm(doc=3194)
    0.026197748 = weight(_text_:und in 3194) [ClassicSimilarity], result of:
      0.026197748 = score(doc=3194,freq=18.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.3673144 = fieldWeight in 3194, product of:
          4.2426405 = tf(freq=18.0), with freq of:
            18.0 = termFreq=18.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0390625 = fieldNorm(doc=3194)
  0.16666667 = coord(2/12)
```
Abstract

In dieser Untersuchung wurden zwei Systeme eingesetzt, um MWT aus einer Dokumentkollektion mit fachsprachlichem Bezug (Volltexte des ACL Anthology Reference Corpus) automatisch zu extrahieren. Das thematische Spektrum umfasste alle Bereiche der natürlichen Sprachverarbeitung, im Speziellen die CL als interdisziplinäre Wissenschaft. Ziel war es MWT zu extrahieren, die als potentielle Indexterme im IR Verwendung finden können. Diese sollten auf Konzepte, Methoden, Verfahren und Algorithmen in der CL und angrenzenden Teilgebieten, wie Linguistik und Informatik hinweisen bzw. benennen.
Als Extraktionssysteme wurden der TreeTagger und die Indexierungssoftware Lingo verwendet. Der TreeTagger basiert auf einem statistischen Tagging- und Chunking- Algorithmus, mit dessen Hilfe NPs automatisch identifiziert und extrahiert werden. Er kann für verschiedene Anwendungsszenarien der natürlichen Sprachverarbeitung eingesetzt werden, in erster Linie als POS-Tagger für unterschiedliche Sprachen. Das Indexierungssystem Lingo arbeitet im Gegensatz zum TreeTagger mit elektronischen Wörterbüchern und einem musterbasierten Abgleich. Lingo ist ein auf automatische Indexierung ausgerichtetes System, was eine Vielzahl von Modulen mitliefert, die individuell auf eine bestimmte Aufgabenstellung angepasst und aufeinander abgestimmt werden können. Die unterschiedlichen Verarbeitungsweisen haben sich in den Ergebnismengen beider Systeme deutlich gezeigt. Die gering ausfallenden Übereinstimmungen der Ergebnismengen verdeutlichen die abweichende Funktionsweise und konnte mit einer qualitativen Analyse beispielhaft beschrieben werden. In der vorliegenden Arbeit kann abschließend nicht geklärt werden, welches der beiden Systeme bevorzugt für die Generierung von Indextermen eingesetzt werden sollte.

Wiesenmüller, H.: Maschinelle Indexierung am Beispiel der DNB : Analyse und Entwicklungmöglichkeiten (2018) 0.01

0.011519292 = product of:
  0.06911575 = sum of:
    0.03916923 = weight(_text_:software in 5209) [ClassicSimilarity], result of:
      0.03916923 = score(doc=5209,freq=2.0), product of:
        0.12766245 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.032179873 = queryNorm
        0.30681872 = fieldWeight in 5209, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5209)
    0.029946523 = weight(_text_:und in 5209) [ClassicSimilarity], result of:
      0.029946523 = score(doc=5209,freq=12.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.41987535 = fieldWeight in 5209, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5209)
  0.16666667 = coord(2/12)

Abstract: Der Beitrag untersucht die Ergebnisse des bei der Deutschen Nationalbibliothek (DNB) eingesetzten Verfahrens zur automatischen Vergabe von Schlagwörtern. Seit 2017 kommt dieses auch bei Printausgaben der Reihen B und H der Deutschen Nationalbibliografie zum Einsatz. Die zentralen Problembereiche werden dargestellt und an Beispielen illustriert - beispielsweise dass nicht alle im Inhaltsverzeichnis vorkommenden Wörter tatsächlich thematische Aspekte ausdrücken und dass die Software sehr häufig Körperschaften und andere "Named entities" nicht erkennt. Die maschinell generierten Ergebnisse sind derzeit sehr unbefriedigend. Es werden Überlegungen für mögliche Verbesserungen und sinnvolle Strategien angestellt.

Grummann, M.: Sind Verfahren zur maschinellen Indexierung für Literaturbestände Öffentlicher Bibliotheken geeignet? : Retrievaltests von indexierten ekz-Daten mit der Software IDX (2000) 0.01

0.011494214 = product of:
  0.06896528 = sum of:
    0.044764835 = weight(_text_:software in 1879) [ClassicSimilarity], result of:
      0.044764835 = score(doc=1879,freq=2.0), product of:
        0.12766245 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.032179873 = queryNorm
        0.35064998 = fieldWeight in 1879, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.0625 = fieldNorm(doc=1879)
    0.024200445 = weight(_text_:und in 1879) [ClassicSimilarity], result of:
      0.024200445 = score(doc=1879,freq=6.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.33931053 = fieldWeight in 1879, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0625 = fieldNorm(doc=1879)
  0.16666667 = coord(2/12)

Abstract: Maschinelles Indexieren vereinheitlicht und vermehrt das Suchvokabular eines Bibliothekskatalogs durch verschiedene Methoden (u.a. Ermittlung der Grundform, Kompositazerlegung, Wortableitungen). Ein Retrievaltest mit einem für öffentliche Bibliotheken typischen Sachbuchbestand zeigt, dass dieses Verfahren die Ergebnisse von OPAC-Recherchen verbessert - trotz 'blumiger' Titelformulierungen. Im Vergleich zu herkömmlichen Erschließungsmethoden (Stich- und Schlagwörter) werden mehr relevante Titel gefunden, ohne gleichzeitig den 'Ballast' zu erhöhen. Das maschinelle Indexieren kann die Verschlagwortung jedoch nicht ersetzen, sondern nur ergänzen
Source: Bibliothek: Forschung und Praxis. 24(2000) H.3, S.297-318

Maas, H.-D.: Indexieren mit AUTINDEX (2006) 0.01
```
0.011130511 = product of:
  0.06678306 = sum of:
    0.023674805 = weight(_text_:und in 6077) [ClassicSimilarity], result of:
      0.023674805 = score(doc=6077,freq=30.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.33194062 = fieldWeight in 6077, product of:
          5.477226 = tf(freq=30.0), with freq of:
            30.0 = termFreq=30.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.02734375 = fieldNorm(doc=6077)
    0.04310826 = weight(_text_:einzelne in 6077) [ClassicSimilarity], result of:
      0.04310826 = score(doc=6077,freq=2.0), product of:
        0.18940257 = queryWeight, product of:
          5.885746 = idf(docFreq=333, maxDocs=44218)
          0.032179873 = queryNorm
        0.22760123 = fieldWeight in 6077, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.885746 = idf(docFreq=333, maxDocs=44218)
          0.02734375 = fieldNorm(doc=6077)
  0.16666667 = coord(2/12)
```
Abstract

Wenn man ein Computerprogramm besitzt, das einem zu fast jedem Textwort dessen grammatische Merkmale bestimmt und außerdem noch seine interne Struktur und einige semantische Informationen liefert, dann fragt man sich irgendwann: Könnte ich nicht auf der Grundlage dieser Angaben einen Text global charakterisieren, etwa indem ich versuche, die wichtigen Wörter dieses Textes zu errechnen? Die häufigsten Textwörter können es nicht sein, denn gerade sie sind sehr nichtssagend. Die seltensten Textwörter sind zwar aussagekräftig, aber sie sind zu viele - die meisten Lemmata eines Textes erscheinen nur ein einziges Mal. Irgendwie müsste man den Wortschatz einschränken können. Die rettende Idee war: Wir tun so, als seien die semantischen Merkmale Wörter, denn dann enthält der Wortschatz dieser Sprache nur noch etwa hundert Elemente, weil unsere morphologische Analyse (Mpro) rund 100 semantische Features verwendet. Wir vermuteten nun, dass die häufig vorkommenden Features wichtig für den Text sind und die selteneren als Ausreißer betrachten werden können. Die Implementierung dieser Idee ist der Urahn unseres Programmpaketes AUTINDEX zur automatischen Indexierung von Texten. Dieses allererste Programm erstellte also zu einem Text eine Statistik der semantischen Merkmale und gab die drei häufigsten Klassen mit den zugehörigen Lemmata aus. Das Ergebnis war verblüffend: Auf den ersten Blick konnte man sehen, worum es in dem Text ging. Bei näherem Hinsehen wurden aber auch Unzulänglichkeiten deutlich. Einige der Schlagwörter waren doch ziemlich nichtssagend, andere hätte man gerne in der Liste gehabt, und schließlich hätte man sich noch eine ganz globale Charakterisierung des Textes durch die Angabe von Fachgebieten gewünscht, etwa in der Form: Der Text hat mit Politik oder Wirtschaft zu tun, er berichtet über einen Unfall, eine Feierlichkeit usw. Es wurde also sofort deutlich, dass das Programm ohne eine weitere Wissensquelle keine wirklich guten Ergebnisse würde liefern können. Man braucht also einen Thesaurus, ein Wörterbuch, in dem einzelne Lemmata und auch mehrwortige Ausdrücke mit zusätzlichen Informationen versehen sind.
Die erste Implementierung wurde in Zusammenarbeit mit dem Fachinformationszentrum Technik (Frankfurt) erstellt. Eine Kontrolle der manuell vergebenen Grob- und Feinklassifizierung der Lexikonartikel des Brockhaus Multimedial und anderer Brockhaus-Lexika wurde mit AUTINDEX in Zusammenarbeit mit BIFAB (Mannheim) durchgeführt. AUTINDEX ist auch Bestandteil des Indexierungs- und Retrievalsystems der Firma AGI (Neustadt/Weinstraße), das in der Landesbibliothek Vorarlberg eingesetzt wird. Weiterhin wird AUTINDEX im System LEWI verwendet, das zusammen mit BIFAB entwickelt wird. Dieses System erlaubt natürlichsprachliche Anfragen an den Brockhaus Multimedial und liefert als Antwort die relevanten Lexikonartikel. Im IAI selbst wurden große Textmengen indexiert (Brockhaus- und Dudenlexika, Zeitungstexte usw.), die man für die Weiterentwicklung diverser Thesauri und Wörterbücher nutzen kann. Beispielsweise kann man sich für ein Wort alle Texte ausgeben lassen, in denen dieses Wort wichtig ist. Dabei sind die Texte nach Wichtigkeit sortiert. Zu einem gegebenen Wort kann man sich auch die Assoziationen oder die möglichen Klassifikationen berechnen lassen. Auf diese Weise kann man einen Thesaurus halbautomatisch erweitern.

Source

Information und Sprache: Beiträge zu Informationswissenschaft, Computerlinguistik, Bibliothekswesen und verwandten Fächern. Festschrift für Harald H. Zimmermann. Herausgegeben von Ilse Harms, Heinz-Dirk Luckhardt und Hans W. Giessen
Kasprzik, A.: Automatisierte und semiautomatisierte Klassifizierung : eine Analyse aktueller Projekte (2014) 0.01
```
0.0105355 = product of:
  0.063213 = sum of:
    0.033573627 = weight(_text_:software in 2470) [ClassicSimilarity], result of:
      0.033573627 = score(doc=2470,freq=2.0), product of:
        0.12766245 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.032179873 = queryNorm
        0.2629875 = fieldWeight in 2470, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.046875 = fieldNorm(doc=2470)
    0.02963937 = weight(_text_:und in 2470) [ClassicSimilarity], result of:
      0.02963937 = score(doc=2470,freq=16.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.41556883 = fieldWeight in 2470, product of:
          4.0 = tf(freq=16.0), with freq of:
            16.0 = termFreq=16.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.046875 = fieldNorm(doc=2470)
  0.16666667 = coord(2/12)
```
Abstract

Das sprunghafte Anwachsen der Menge digital verfügbarer Dokumente gepaart mit dem Zeit- und Personalmangel an wissenschaftlichen Bibliotheken legt den Einsatz von halb- oder vollautomatischen Verfahren für die verbale und klassifikatorische Inhaltserschließung nahe. Nach einer kurzen allgemeinen Einführung in die gängige Methodik beleuchtet dieser Artikel eine Reihe von Projekten zur automatisierten Klassifizierung aus dem Zeitraum 2007-2012 und aus dem deutschsprachigen Raum. Ein Großteil der vorgestellten Projekte verwendet Methoden des Maschinellen Lernens aus der Künstlichen Intelligenz, arbeitet meist mit angepassten Versionen einer kommerziellen Software und bezieht sich in der Regel auf die Dewey Decimal Classification (DDC). Als Datengrundlage dienen Metadatensätze, Abstracs, Inhaltsverzeichnisse und Volltexte in diversen Datenformaten. Die abschließende Analyse enthält eine Anordnung der Projekte nach einer Reihe von verschiedenen Kriterien und eine Zusammenfassung der aktuellen Lage und der größten Herausfordungen für automatisierte Klassifizierungsverfahren.

Franke-Maier, M.: Anforderungen an die Qualität der Inhaltserschließung im Spannungsfeld von intellektuell und automatisch erzeugten Metadaten (2018) 0.01

0.010342125 = product of:
  0.062052745 = sum of:
    0.021175388 = weight(_text_:und in 5344) [ClassicSimilarity], result of:
      0.021175388 = score(doc=5344,freq=6.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.2968967 = fieldWeight in 5344, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5344)
    0.040877357 = product of:
      0.061316036 = sum of:
        0.030796535 = weight(_text_:29 in 5344) [ClassicSimilarity], result of:
          0.030796535 = score(doc=5344,freq=2.0), product of:
            0.113198735 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.032179873 = queryNorm
            0.27205724 = fieldWeight in 5344, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.0546875 = fieldNorm(doc=5344)
        0.0305195 = weight(_text_:22 in 5344) [ClassicSimilarity], result of:
          0.0305195 = score(doc=5344,freq=2.0), product of:
            0.11268844 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.032179873 = queryNorm
            0.2708308 = fieldWeight in 5344, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0546875 = fieldNorm(doc=5344)
      0.6666667 = coord(2/3)
  0.16666667 = coord(2/12)

Abstract: Spätestens seit dem Deutschen Bibliothekartag 2018 hat sich die Diskussion zu den automatischen Verfahren der Inhaltserschließung der Deutschen Nationalbibliothek von einer politisch geführten Diskussion in eine Qualitätsdiskussion verwandelt. Der folgende Beitrag beschäftigt sich mit Fragen der Qualität von Inhaltserschließung in digitalen Zeiten, wo heterogene Erzeugnisse unterschiedlicher Verfahren aufeinandertreffen und versucht, wichtige Anforderungen an Qualität zu definieren. Dieser Tagungsbeitrag fasst die vom Autor als Impulse vorgetragenen Ideen beim Workshop der FAG "Erschließung und Informationsvermittlung" des GBV am 29. August 2018 in Kiel zusammen. Der Workshop fand im Rahmen der 22. Verbundkonferenz des GBV statt.

Halip, I.: Automatische Extrahierung von Schlagworten aus unstrukturierten Texten (2005) 0.01
```
0.009853038 = product of:
  0.059118226 = sum of:
    0.037026346 = weight(_text_:informatik in 861) [ClassicSimilarity], result of:
      0.037026346 = score(doc=861,freq=2.0), product of:
        0.16419695 = queryWeight, product of:
          5.1024737 = idf(docFreq=730, maxDocs=44218)
          0.032179873 = queryNorm
        0.2254996 = fieldWeight in 861, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.1024737 = idf(docFreq=730, maxDocs=44218)
          0.03125 = fieldNorm(doc=861)
    0.022091882 = weight(_text_:und in 861) [ClassicSimilarity], result of:
      0.022091882 = score(doc=861,freq=20.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.3097467 = fieldWeight in 861, product of:
          4.472136 = tf(freq=20.0), with freq of:
            20.0 = termFreq=20.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=861)
  0.16666667 = coord(2/12)
```
Abstract

Durch die zunehmende Mediatisierung und Digitalisierung wird die moderne Gesellschaft immer mehr mit dem Thema der Informationsüberflutung konfrontiert. Erstaunlicherweise führt der Zuwachs an Informationen gleichzeitig zu einem Mangel an Wissen. Die Erklärung kann darin gefunden werden, dass ein großer Teil der existierenden Informationen nicht aufgefunden werden kann. Es handelt sich meistens um Informationen die auf semi- und nichtstrukturierte Daten beruhen. Schätzungen zufolge sind heute rund 80% der entscheidungsrelevanten Informationen in Unternehmen in unstrukturierter, d. h. meist textueller Form vorhanden. Die Unfähigkeit der Maschinen den Inhalt unstrukturierter Texte zu verstehen führt dazu, dass dokumentiertes Wissen schwer auffindbar ist und oft unentdeckt bleibt. Wegen des Informationsvolumens, das meistens zu groß ist, um gelesen, verstanden oder sogar benutzt zu werden, ergibt sich folgendes Problem, mit dem man konfrontiert wird: Informationen die nicht in Wissen umgewandelt werden können, bleiben als papiergebundene oder digitale Dokumente in Data-Repositories verschlossen. Angesichts der heute anfallenden Menge an Dokumenten erscheint eine manuelle Vergabe von Schlagworten nicht mehr realistisch. Deshalb entwickelt Wissensmanagement unterstützende Verfahren, die Informationen rechtzeitig, in der richtigen Qualität und den richtigen Personen verfügbar machen. Einige Schwerpunkte an denen zur Zeit geforscht wird, sind Modelle zur Repräsentation von Dokumenten, Methoden zur Ähnlichkeitsbestimmung von Anfragen zu Dokumenten und zur Indexierung von Dokumentenmengen, sowie die automatische Klassifikation. Vor diesem Hintergrund konzentriert sich diese Arbeit auf die unterschiedlichen Verfahren der automatischen Indexierung, hebt die algorithmischen Vor- und Nachteile hervor, mit dem Ziel die Funktionsweise im Bereich der unstrukturierten Texte zu analysieren. Hierfür erfolgt im 3. Kapitel eine genauere Untersuchung und Darstellung automatischer Indexierungsverfahren. Zuvor werden in Kapitel 2 grundlegende Begrifflichkeiten erklärt, eingeordnet und abgegrenzt. Abschließend werden anhand der theoretischen Darlegung Implementierungen der vorgestellten Verfahren kurz beschrieben. Die Ausarbeitung endet mit der Schlussfolgerung und dem Ausblick.

Content

Ausarbeitung im Rahmen des Seminars Suchmaschinen und Suchalgorithmen, Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft, Westfälische Wilhelms-Universität Münster
Grün, S.: Bildung von Komposita-Indextermen auf der Basis einer algorithmischen Mehrwortgruppenanalyse mit Lingo (2015) 0.01
```
0.009500935 = product of:
  0.057005607 = sum of:
    0.033573627 = weight(_text_:software in 1335) [ClassicSimilarity], result of:
      0.033573627 = score(doc=1335,freq=2.0), product of:
        0.12766245 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.032179873 = queryNorm
        0.2629875 = fieldWeight in 1335, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.046875 = fieldNorm(doc=1335)
    0.02343198 = weight(_text_:und in 1335) [ClassicSimilarity], result of:
      0.02343198 = score(doc=1335,freq=10.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.328536 = fieldWeight in 1335, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.046875 = fieldNorm(doc=1335)
  0.16666667 = coord(2/12)
```
Abstract

In der deutschen Sprache lassen sich Begriffe durch Komposita und Mehrwortgruppen ausdrücken. Letztere können dabei aber auch als Kompositum selbst ausgedrückt werden und entsprechend auf den gleichen Begriff verweisen. In der nachfolgenden Studie werden Mehrwortgruppen analysiert, die auch Komposita sein können. Ziel der Untersuchung ist es, diese Wortfolgen über Muster zu identifizieren. Analysiert wurden Daten des Karrieremanagers Placement24 GmbH - in Form von Stellenanzeigen. Die Extraktion von Mehrwortgruppen erfolgte algorithmisch und wurde mit der Open-Source Software Lingo durch geführt. Auf der Basis von Erweiterungen bzw. Anpassungen in Wörterbüchern und den darin getaggten Wörtern wurde drei- bis fünfstelligen Kandidaten analysiert. Aus positiv bewerteten Mehrwortgruppen wurden Komposita gebildet. Diese wurden mit den identifizierten Komposita aus den Stellenanzeigen verglichen. Der Vergleich zeigte, dass ein Großteil der neu generierten Komposita nicht durch eine Kompositaidentifizierung erzeugt wurde.

Content

Bachelorarbeit, Studiengang Bibliothekswesen, Fakultät für Informations- und Kommunikationswissenschaften, Fachhochschule Köln

Junger, U.: Möglichkeiten und Probleme automatischer Erschließungsverfahren in Bibliotheken : Bericht vom KASCADE-Workshop in der Universitäts- und Landesbibliothek Düsseldorf (1999) 0.01

0.008983115 = product of:
  0.05389869 = sum of:
    0.036300667 = weight(_text_:und in 3645) [ClassicSimilarity], result of:
      0.036300667 = score(doc=3645,freq=6.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.5089658 = fieldWeight in 3645, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.09375 = fieldNorm(doc=3645)
    0.017598022 = product of:
      0.05279406 = sum of:
        0.05279406 = weight(_text_:29 in 3645) [ClassicSimilarity], result of:
          0.05279406 = score(doc=3645,freq=2.0), product of:
            0.113198735 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.032179873 = queryNorm
            0.46638384 = fieldWeight in 3645, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.09375 = fieldNorm(doc=3645)
      0.33333334 = coord(1/3)
  0.16666667 = coord(2/12)

Date: 23.10.1996 17:26:29
Source: Bibliothek: Forschung und Praxis. 23(1999) H.1, S.88-90

Kasprzik, A.: Aufbau eines produktiven Dienstes für die automatisierte Inhaltserschließung an der ZBW : ein Status- und Erfahrungsbericht. (2023) 0.01
```
0.008957568 = product of:
  0.053745404 = sum of:
    0.03165352 = weight(_text_:software in 935) [ClassicSimilarity], result of:
      0.03165352 = score(doc=935,freq=4.0), product of:
        0.12766245 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.032179873 = queryNorm
        0.24794699 = fieldWeight in 935, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.03125 = fieldNorm(doc=935)
    0.022091882 = weight(_text_:und in 935) [ClassicSimilarity], result of:
      0.022091882 = score(doc=935,freq=20.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.3097467 = fieldWeight in 935, product of:
          4.472136 = tf(freq=20.0), with freq of:
            20.0 = termFreq=20.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.03125 = fieldNorm(doc=935)
  0.16666667 = coord(2/12)
```
Abstract

Die ZBW - Leibniz-Informationszentrum Wirtschaft betreibt seit 2016 eigene angewandte Forschung im Bereich Machine Learning mit dem Zweck, praktikable Lösungen für eine automatisierte oder maschinell unterstützte Inhaltserschließung zu entwickeln. 2020 begann ein Team an der ZBW die Konzeption und Implementierung einer Softwarearchitektur, die es ermöglichte, diese prototypischen Lösungen in einen produktiven Dienst zu überführen und mit den bestehenden Nachweis- und Informationssystemen zu verzahnen. Sowohl die angewandte Forschung als auch die für dieses Vorhaben ("AutoSE") notwendige Softwareentwicklung sind direkt im Bibliotheksbereich der ZBW angesiedelt, werden kontinuierlich anhand des State of the Art vorangetrieben und profitieren von einem engen Austausch mit den Verantwortlichen für die intellektuelle Inhaltserschließung. Dieser Beitrag zeigt die Meilensteine auf, die das AutoSE-Team in zwei Jahren in Bezug auf den Aufbau und die Integration der Software erreicht hat, und skizziert, welche bis zum Ende der Pilotphase (2024) noch ausstehen. Die Architektur basiert auf Open-Source-Software und die eingesetzten Machine-Learning-Komponenten werden im Rahmen einer internationalen Zusammenarbeit im engen Austausch mit der Finnischen Nationalbibliothek (NLF) weiterentwickelt und zur Nachnutzung in dem von der NLF entwickelten Open-Source-Werkzeugkasten Annif aufbereitet. Das Betriebsmodell des AutoSE-Dienstes sieht regelmäßige Überprüfungen sowohl einzelner Komponenten als auch des Produktionsworkflows als Ganzes vor und erlaubt eine fortlaufende Weiterentwicklung der Architektur. Eines der Ergebnisse, das bis zum Ende der Pilotphase vorliegen soll, ist die Dokumentation der Anforderungen an einen dauerhaften produktiven Betrieb des Dienstes, damit die Ressourcen dafür im Rahmen eines tragfähigen Modells langfristig gesichert werden können. Aus diesem Praxisbeispiel lässt sich ableiten, welche Bedingungen gegeben sein müssen, um Machine-Learning-Lösungen wie die in Annif enthaltenen erfolgreich an einer Institution für die Inhaltserschließung einsetzen zu können.

Panyr, J.: STEINADLER: ein Verfahren zur automatischen Deskribierung und zur automatischen thematischen Klassifikation (1978) 0.01

0.008568049 = product of:
  0.051408295 = sum of:
    0.027944267 = weight(_text_:und in 5169) [ClassicSimilarity], result of:
      0.027944267 = score(doc=5169,freq=2.0), product of:
        0.07132241 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.032179873 = queryNorm
        0.39180204 = fieldWeight in 5169, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.125 = fieldNorm(doc=5169)
    0.023464028 = product of:
      0.07039208 = sum of:
        0.07039208 = weight(_text_:29 in 5169) [ClassicSimilarity], result of:
          0.07039208 = score(doc=5169,freq=2.0), product of:
            0.113198735 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.032179873 = queryNorm
            0.6218451 = fieldWeight in 5169, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.125 = fieldNorm(doc=5169)
      0.33333334 = coord(1/3)
  0.16666667 = coord(2/12)

Source: Nachrichten für Dokumentation. 29(1978), S.92-96

Search (208 results, page 1 of 11)

Authors

Years

Languages

Types

Themes

Subjects

Classifications