Search (43 results, page 1 of 3)

Westermeyer, D.: Adaptive Techniken zur Informationsgewinnung : der Webcrawler InfoSpiders (2005) 0.11
```
0.110521056 = product of:
  0.27630264 = sum of:
    0.24280995 = weight(_text_:algorithmus in 4333) [ClassicSimilarity], result of:
      0.24280995 = score(doc=4333,freq=6.0), product of:
        0.35420755 = queryWeight, product of:
          7.1642876 = idf(docFreq=92, maxDocs=44218)
          0.049440723 = queryNorm
        0.68550193 = fieldWeight in 4333, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          7.1642876 = idf(docFreq=92, maxDocs=44218)
          0.0390625 = fieldNorm(doc=4333)
    0.033492677 = weight(_text_:22 in 4333) [ClassicSimilarity], result of:
      0.033492677 = score(doc=4333,freq=2.0), product of:
        0.17313299 = queryWeight, product of:
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.049440723 = queryNorm
        0.19345059 = fieldWeight in 4333, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.0390625 = fieldNorm(doc=4333)
  0.4 = coord(2/5)
```
Abstract

Die Suche nach Informationen im Internet führt den Nutzer meistens direkt zu einer Suchmaschine. Teile der gelieferten Ergebnisse enthalten aber manchmal nicht das, was der Nutzer gesucht hat. Hier setzen sog. adaptive Agenten an, welche die Gewohnheiten ihres Nutzers zu erlernen versuchen, um später auf Basis dessen selbstständig Entscheidungen zu treffen, ohne dass der Nutzer dazu befragt werden muss. Zunächst werden im Grundlagenteil adaptive Techniken zur Informationsgewinnung sowie die grundlegenden Eigenschaften von Webcrawlern besprochen. Im Hauptteil wird daraufhin der Webcrawler InfoSpiders erläutert. Dieses Programm arbeitet mit mehreren adaptiven Agenten, die parallel basierend auf einem Satz von Startlinks das Internet nach Informationen durchsuchen. Dabei bedienen sich die Agenten verschiedenster Techniken. Darunter fallen beispielsweise statistische Methoden, die den Inhalt von Webseiten untersuchen sowie neuronale Netze, mit denen der Inhalt bewertet wird. Eine andere Technik implementiert der genetische Algorithmus mit Hilfe dessen die Agenten Nachkommen mit neuen Mutationen erzeugen können. Danach wird eine konkrete Implementierung des InfoSpiders-Algorithmus' anhand von MySpiders verdeutlicht. Im Anschluss daran wird der InfoSpiders-Algorithmus sowie MySpiders einer Evaluation bezüglich des zusätzlichen Nutzens gegenüber herkömmlichen Suchmaschinen unterzogen. Eine Zusammenfassung mit Ausblick zu weiteren Entwicklungen in dem Bereich adaptiver Agenten zur Suche im Internet wird das Thema abschließen.

Pages

22 S

Verwer, K.: Freiheit und Verantwortung bei Hans Jonas (2011) 0.09

0.09422997 = product of:
  0.47114983 = sum of:
    0.47114983 = weight(_text_:3a in 973) [ClassicSimilarity], result of:
      0.47114983 = score(doc=973,freq=2.0), product of:
        0.419159 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.049440723 = queryNorm
        1.1240361 = fieldWeight in 973, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.09375 = fieldNorm(doc=973)
  0.2 = coord(1/5)

Content: Vgl.: http%3A%2F%2Fcreativechoice.org%2Fdoc%2FHansJonas.pdf&usg=AOvVaw1TM3teaYKgABL5H9yoIifA&opi=89978449.

Ackermann, J.: Knuth-Morris-Pratt (2005) 0.06
```
0.06344112 = product of:
  0.31720558 = sum of:
    0.31720558 = weight(_text_:algorithmus in 865) [ClassicSimilarity], result of:
      0.31720558 = score(doc=865,freq=16.0), product of:
        0.35420755 = queryWeight, product of:
          7.1642876 = idf(docFreq=92, maxDocs=44218)
          0.049440723 = queryNorm
        0.89553595 = fieldWeight in 865, product of:
          4.0 = tf(freq=16.0), with freq of:
            16.0 = termFreq=16.0
          7.1642876 = idf(docFreq=92, maxDocs=44218)
          0.03125 = fieldNorm(doc=865)
  0.2 = coord(1/5)
```
Abstract

Im Rahmen des Seminars Suchmaschinen und Suchalgorithmen beschäftigt sich diese Arbeit mit dem Auffinden bestimmter Wörter oder Muster in Texten. Der Begriff "Text" wird hier in einem sehr allgemeinen Sinne als strukturierte Folge beliebiger Länge von Zeichen aus einem endlichen Alphabet verstanden. Somit fällt unter diesen Bereich ganz allgemein die Suche nach einem Muster in einer Sequenz von Zeichen. Beispiele hierfür sind neben der Suche von Wörtern in "literarischen" Texten, z.B. das Finden von Pixelfolgen in Bildern oder gar das Finden von Mustern in DNS-Strängen. Das Anwendungsgebiet für eine solche Suche ist weit gefächert. Man denke hier allein an Texteditoren, Literaturdatenbanken, digitale Lexika oder die besagte DNADatenbank. Betrachtet man allein das 1989 publizierte Oxford English Dictionary mit seinen etwa 616500 definierten Stichworten auf gedruckten 21728 Seiten, so gilt es, einen möglichst effizienten Algorithmus für die Suche in Texten zu nutzen. Der in der Arbeit zugrunde liegende Datentyp ist vom Typ String (Zeichenkette), wobei hier offen gelassen wird, wie der Datentyp programmtechnisch realisiert wird. Algorithmen zur Verarbeitung von Zeichenketten (string processing) umfassen ein bestimmtes Spektrum an Anwendungsgebieten [Ot96, S.617 f.], wie z.B. das Komprimieren, das Verschlüssen, das Analysieren (parsen), das Übersetzen von Texten sowie das Suchen in Texten, welches Thema dieses Seminars ist. Im Rahmen dieser Arbeit wird der Knuth-Morris-Pratt Algorithmus vorgestellt, der wie der ebenfalls in diesem Seminar vorgestellte Boyer-Moore Algorithmus einen effizienten Suchalgorithmus darstellt. Dabei soll ein gegebenes Suchwort oder Muster (pattern) in einer gegeben Zeichenkette erkannt werden (pattern matching). Gesucht werden dabei ein oder mehrere Vorkommen eines bestimmten Suchwortes (exact pattern matching). Der Knuth-Morris-Pratt Algorithmus wurde erstmals 1974 als Institutbericht der Stanford University beschrieben und erschien 1977 in der Fachzeitschrift Journal of Computing unter dem Titel "Fast Pattern Matching in Strings" [Kn77]. Der Algorithmus beschreibt eine Suche in Zeichenketten mit linearer Laufzeit. Der Name des Algorithmus setzt sich aus den Entwicklern des Algorithmus Donald E. Knuth, James H. Morris und Vaughan R. Pratt zusammen.

Object

Knuth-Morris-Pratt-Algorithmus
Korves, J.: Seiten bewerten : Googles PageRank (2005) 0.05
```
0.05494162 = product of:
  0.2747081 = sum of:
    0.2747081 = weight(_text_:algorithmus in 866) [ClassicSimilarity], result of:
      0.2747081 = score(doc=866,freq=12.0), product of:
        0.35420755 = queryWeight, product of:
          7.1642876 = idf(docFreq=92, maxDocs=44218)
          0.049440723 = queryNorm
        0.77555686 = fieldWeight in 866, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          7.1642876 = idf(docFreq=92, maxDocs=44218)
          0.03125 = fieldNorm(doc=866)
  0.2 = coord(1/5)
```
Abstract

Mit der Entstehung des World Wide Web im Jahre 1989 und dem darauf folgenden rasanten Anstieg der Zahl an Webseiten, kam es sehr schnell zu der Notwendigkeit, eine gewisse Ordnung in die Vielzahl von Inhalten zu bringen. So wurde schon im Jahre 1991 ein erster Vorläufer der heutigen Websuchmaschinen namens Gopher entwickelt. Die Struktur von Gopher, bei der zunächst alle Webseiten katalogisiert wurden, um anschließend komplett durchsucht werden zu können, war damals richtungweisend und wird auch heute noch in den meisten anderen Websuchmaschinen verwendet. Von damals bis heute hat sich sehr viel am Markt der Suchmaschinen verändert. Seit dem Jahre 2004 gibt es nur mehr drei große Websuchmaschinen, bezogen auf die Anzahl erfasster Dokumente. Neben Yahoo! Search und Microsofts MSN Search ist Google die bisher erfolgreichste Suchmaschine der Welt. Dargestellt werden die Suchergebnisse, indem sie der Relevanz nach sortiert werden. Jede Suchmaschine hat ihre eigenen geheimen Kriterien, welche für die Bewertung der Relevanz herangezogen werden. Googles Suchergebnisse werden aus einer Kombination zweier Verfahren angeordnet. Neben der Hypertext-Matching-Analyse ist dies die PageRank-Technologie. Der so genannte PageRank-Algorithmus, benannt nach seinem Erfinder Lawrence Page, ist die wesentliche Komponente, die Google auf seinen Erfolgsweg gebracht hat. Über die genaue Funktionsweise dieses Algorithmus hat Google, insbesondere nach einigen Verbesserungen in den letzten Jahren, nicht alle Details preisgegeben. Fest steht jedoch, dass der PageRank-Algorithmus die Relevanz einer Webseite auf Basis der Hyperlinkstruktur des Webs berechnet, wobei die Relevanz einer Webseite danach gewichtet wird, wie viele Links auf sie zeigen und Verweise von ihrerseits stark verlinkten Seiten stärker ins Gewicht fallen.
Diese Seminararbeit widmet sich der Darstellung des PageRank-Algorithmus sowie der Erläuterung von Verbesserungen, durch die der Algorithmus schneller und effizienter wird. Hierzu werden dem Leser in Kapitel 2 zunächst einige Grundlagen nahe gebracht. Anschließend wird im Hauptteil dieser Ausarbeitung in Kapitel 3 detailliert auf den PageRank-Algorithmus sowie auf drei Weiterentwicklungen eingegangen, welche die Verarbeitungseffizienz des Grundalgorithmus so erhöhen, dass dadurch ein themenspezifisches Ranking ermöglicht werden könnte. Abschließend werden die Ergebnisse in Kapitel 4 zusammengefasst und ein Ausblick auf die Zukunft gegeben.
Fichtner, K.: Boyer-Moore Suchalgorithmus (2005) 0.05
```
0.04758084 = product of:
  0.23790419 = sum of:
    0.23790419 = weight(_text_:algorithmus in 864) [ClassicSimilarity], result of:
      0.23790419 = score(doc=864,freq=4.0), product of:
        0.35420755 = queryWeight, product of:
          7.1642876 = idf(docFreq=92, maxDocs=44218)
          0.049440723 = queryNorm
        0.67165196 = fieldWeight in 864, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          7.1642876 = idf(docFreq=92, maxDocs=44218)
          0.046875 = fieldNorm(doc=864)
  0.2 = coord(1/5)
```
Abstract

Die Masse der Suchalgorithmen lässt sich in zwei grundlegend verschiedene Teilbereiche untergliedern. Auf der einen Seite stehen Algorithmen, die auf komplexen Datenstrukturen (häufig baumartig) ganze Datensätze unter Verwendung eines Indizes finden. Als geläufiger Vertreter sei hier die binäre Suche auf sortierten Arrays oder in binären Bäumen genannt. Die andere Gruppe, der sich diese Ausarbeitung widmet, dient dazu, Entsprechungen von Mustern in gegebenen Zeichenketten zu finden. Auf den folgenden Seiten werden nun zunächst einige Begriffe eingeführt, die für das weitere Verständnis und einen Vergleich verschiedener Suchalgorithmen nötig sind. Weiterhin wird ein naiver Suchalgorithmus dargestellt und mit der Idee von Boyer und Moore verglichen. Hierzu wird ihr Algorithmus zunächst informal beschrieben, dann mit Blick auf eine Implementation näher erläutert und anschließend einer Effizienzanalyse - sowohl empirisch als auch theoretisch - unterzogen. Abschließend findet eine kurze Bewertung mit Bezug auf Schwachstellen, Vorzüge und Verbesserungsmöglichkeiten statt, im Zuge derer einige prominente Modifikationen des Boyer-Moore Algorithmus vorgestellt werden.
Weiß, B.: Verwandte Seiten finden : "Ähnliche Seiten" oder "What's Related" (2005) 0.04
```
0.0396507 = product of:
  0.1982535 = sum of:
    0.1982535 = weight(_text_:algorithmus in 868) [ClassicSimilarity], result of:
      0.1982535 = score(doc=868,freq=4.0), product of:
        0.35420755 = queryWeight, product of:
          7.1642876 = idf(docFreq=92, maxDocs=44218)
          0.049440723 = queryNorm
        0.55970997 = fieldWeight in 868, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          7.1642876 = idf(docFreq=92, maxDocs=44218)
          0.0390625 = fieldNorm(doc=868)
  0.2 = coord(1/5)
```
Abstract

Die Link-Struktur-Analyse (LSA) ist nicht nur beim Crawling, dem Webseitenranking, der Abgrenzung geographischer Bereiche, der Vorhersage von Linkverwendungen, dem Auffinden von "Mirror"-Seiten, dem Kategorisieren von Webseiten und beim Generieren von Webseitenstatistiken eines der wichtigsten Analyseverfahren, sondern auch bei der Suche nach verwandten Seiten. Um qualitativ hochwertige verwandte Seiten zu finden, bildet sie nach herrschender Meinung den Hauptbestandteil bei der Identifizierung von ähnlichen Seiten innerhalb themenspezifischer Graphen vernetzter Dokumente. Dabei wird stets von zwei Annahmen ausgegangen: Links zwischen zwei Dokumenten implizieren einen verwandten Inhalt beider Dokumente und wenn die Dokumente aus unterschiedlichen Quellen (von unterschiedlichen Autoren, Hosts, Domänen, .) stammen, so bedeutet dies das eine Quelle die andere über einen Link empfiehlt. Aufbauend auf dieser Idee entwickelte Kleinberg 1998 den HITS Algorithmus um verwandte Seiten über die Link-Struktur-Analyse zu bestimmen. Dieser Ansatz wurde von Bharat und Henzinger weiterentwickelt und später auch in Algorithmen wie dem Companion und Cocitation Algorithmus zur Suche von verwandten Seiten basierend auf nur einer Anfrage-URL weiter verfolgt. In der vorliegenden Seminararbeit sollen dabei die Algorithmen, die hinter diesen Überlegungen stehen, näher erläutert werden und im Anschluss jeweils neuere Forschungsansätze auf diesem Themengebiet aufgezeigt werden.

Farazi, M.: Faceted lightweight ontologies : a formalization and some experiments (2010) 0.04

0.03926249 = product of:
  0.19631244 = sum of:
    0.19631244 = weight(_text_:3a in 4997) [ClassicSimilarity], result of:
      0.19631244 = score(doc=4997,freq=2.0), product of:
        0.419159 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.049440723 = queryNorm
        0.46834838 = fieldWeight in 4997, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.0390625 = fieldNorm(doc=4997)
  0.2 = coord(1/5)

Content: PhD Dissertation at International Doctorate School in Information and Communication Technology. Vgl.: https%3A%2F%2Fcore.ac.uk%2Fdownload%2Fpdf%2F150083013.pdf&usg=AOvVaw2n-qisNagpyT0lli_6QbAQ.

Shala, E.: ¬Die Autonomie des Menschen und der Maschine : gegenwärtige Definitionen von Autonomie zwischen philosophischem Hintergrund und technologischer Umsetzbarkeit (2014) 0.04
```
0.03926249 = product of:
  0.19631244 = sum of:
    0.19631244 = weight(_text_:3a in 4388) [ClassicSimilarity], result of:
      0.19631244 = score(doc=4388,freq=2.0), product of:
        0.419159 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.049440723 = queryNorm
        0.46834838 = fieldWeight in 4388, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.0390625 = fieldNorm(doc=4388)
  0.2 = coord(1/5)
```
Footnote

Vgl. unter: https://www.google.de/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved=2ahUKEwizweHljdbcAhVS16QKHXcFD9QQFjABegQICRAB&url=https%3A%2F%2Fwww.researchgate.net%2Fpublication%2F271200105_Die_Autonomie_des_Menschen_und_der_Maschine_-_gegenwartige_Definitionen_von_Autonomie_zwischen_philosophischem_Hintergrund_und_technologischer_Umsetzbarkeit_Redigierte_Version_der_Magisterarbeit_Karls&usg=AOvVaw06orrdJmFF2xbCCp_hL26q.

Piros, A.: Az ETO-jelzetek automatikus interpretálásának és elemzésének kérdései (2018) 0.04

0.03926249 = product of:
  0.19631244 = sum of:
    0.19631244 = weight(_text_:3a in 855) [ClassicSimilarity], result of:
      0.19631244 = score(doc=855,freq=2.0), product of:
        0.419159 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.049440723 = queryNorm
        0.46834838 = fieldWeight in 855, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.0390625 = fieldNorm(doc=855)
  0.2 = coord(1/5)

Content: Vgl. auch: New automatic interpreter for complex UDC numbers. Unter: <https%3A%2F%2Fudcc.org%2Ffiles%2FAttilaPiros_EC_36-37_2014-2015.pdf&usg=AOvVaw3kc9CwDDCWP7aArpfjrs5b>

Gabler, S.: Vergabe von DDC-Sachgruppen mittels eines Schlagwort-Thesaurus (2021) 0.04
```
0.03926249 = product of:
  0.19631244 = sum of:
    0.19631244 = weight(_text_:3a in 1000) [ClassicSimilarity], result of:
      0.19631244 = score(doc=1000,freq=2.0), product of:
        0.419159 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.049440723 = queryNorm
        0.46834838 = fieldWeight in 1000, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1000)
  0.2 = coord(1/5)
```
Content

Master thesis Master of Science (Library and Information Studies) (MSc), Universität Wien. Advisor: Christoph Steiner. Vgl.: https://www.researchgate.net/publication/371680244_Vergabe_von_DDC-Sachgruppen_mittels_eines_Schlagwort-Thesaurus. DOI: 10.25365/thesis.70030. Vgl. dazu die Präsentation unter: https://www.google.com/url?sa=i&rct=j&q=&esrc=s&source=web&cd=&ved=0CAIQw7AJahcKEwjwoZzzytz_AhUAAAAAHQAAAAAQAg&url=https%3A%2F%2Fwiki.dnb.de%2Fdownload%2Fattachments%2F252121510%2FDA3%2520Workshop-Gabler.pdf%3Fversion%3D1%26modificationDate%3D1671093170000%26api%3Dv2&psig=AOvVaw0szwENK1or3HevgvIDOfjx&ust=1687719410889597&opi=89978449.

Marcus, S.: Textvergleich mit mehreren Mustern (2005) 0.03

0.03172056 = product of:
  0.15860279 = sum of:
    0.15860279 = weight(_text_:algorithmus in 862) [ClassicSimilarity], result of:
      0.15860279 = score(doc=862,freq=4.0), product of:
        0.35420755 = queryWeight, product of:
          7.1642876 = idf(docFreq=92, maxDocs=44218)
          0.049440723 = queryNorm
        0.44776797 = fieldWeight in 862, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          7.1642876 = idf(docFreq=92, maxDocs=44218)
          0.03125 = fieldNorm(doc=862)
  0.2 = coord(1/5)

Object: Knuth-Morris-Pratt-Algorithmus
Aho-Corasick-Algorithmus

Stojanovic, N.: Ontology-based Information Retrieval : methods and tools for cooperative query answering (2005) 0.03

0.03140999 = product of:
  0.15704995 = sum of:
    0.15704995 = weight(_text_:3a in 701) [ClassicSimilarity], result of:
      0.15704995 = score(doc=701,freq=2.0), product of:
        0.419159 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.049440723 = queryNorm
        0.3746787 = fieldWeight in 701, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.03125 = fieldNorm(doc=701)
  0.2 = coord(1/5)

Content: Vgl.: http%3A%2F%2Fdigbib.ubka.uni-karlsruhe.de%2Fvolltexte%2Fdocuments%2F1627&ei=tAtYUYrBNoHKtQb3l4GYBw&usg=AFQjCNHeaxKkKU3-u54LWxMNYGXaaDLCGw&sig2=8WykXWQoDKjDSdGtAakH2Q&bvm=bv.44442042,d.Yms.

Xiong, C.: Knowledge based text representations for information retrieval (2016) 0.03

0.03140999 = product of:
  0.15704995 = sum of:
    0.15704995 = weight(_text_:3a in 5820) [ClassicSimilarity], result of:
      0.15704995 = score(doc=5820,freq=2.0), product of:
        0.419159 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.049440723 = queryNorm
        0.3746787 = fieldWeight in 5820, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.03125 = fieldNorm(doc=5820)
  0.2 = coord(1/5)

Content: Submitted in partial fulfillment of the requirements for the degree of Doctor of Philosophy in Language and Information Technologies. Vgl.: https%3A%2F%2Fwww.cs.cmu.edu%2F~cx%2Fpapers%2Fknowledge_based_text_representation.pdf&usg=AOvVaw0SaTSvhWLTh__Uz_HtOtl3.

Bredack, J.: Automatische Extraktion fachterminologischer Mehrwortbegriffe : ein Verfahrensvergleich (2016) 0.03
```
0.028037278 = product of:
  0.14018638 = sum of:
    0.14018638 = weight(_text_:algorithmus in 3194) [ClassicSimilarity], result of:
      0.14018638 = score(doc=3194,freq=2.0), product of:
        0.35420755 = queryWeight, product of:
          7.1642876 = idf(docFreq=92, maxDocs=44218)
          0.049440723 = queryNorm
        0.3957747 = fieldWeight in 3194, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          7.1642876 = idf(docFreq=92, maxDocs=44218)
          0.0390625 = fieldNorm(doc=3194)
  0.2 = coord(1/5)
```
Abstract

Als Extraktionssysteme wurden der TreeTagger und die Indexierungssoftware Lingo verwendet. Der TreeTagger basiert auf einem statistischen Tagging- und Chunking- Algorithmus, mit dessen Hilfe NPs automatisch identifiziert und extrahiert werden. Er kann für verschiedene Anwendungsszenarien der natürlichen Sprachverarbeitung eingesetzt werden, in erster Linie als POS-Tagger für unterschiedliche Sprachen. Das Indexierungssystem Lingo arbeitet im Gegensatz zum TreeTagger mit elektronischen Wörterbüchern und einem musterbasierten Abgleich. Lingo ist ein auf automatische Indexierung ausgerichtetes System, was eine Vielzahl von Modulen mitliefert, die individuell auf eine bestimmte Aufgabenstellung angepasst und aufeinander abgestimmt werden können. Die unterschiedlichen Verarbeitungsweisen haben sich in den Ergebnismengen beider Systeme deutlich gezeigt. Die gering ausfallenden Übereinstimmungen der Ergebnismengen verdeutlichen die abweichende Funktionsweise und konnte mit einer qualitativen Analyse beispielhaft beschrieben werden. In der vorliegenden Arbeit kann abschließend nicht geklärt werden, welches der beiden Systeme bevorzugt für die Generierung von Indextermen eingesetzt werden sollte.
Artemenko, O.; Shramko, M.: Entwicklung eines Werkzeugs zur Sprachidentifikation in mono- und multilingualen Texten (2005) 0.03
```
0.02775549 = product of:
  0.13877745 = sum of:
    0.13877745 = weight(_text_:algorithmus in 572) [ClassicSimilarity], result of:
      0.13877745 = score(doc=572,freq=4.0), product of:
        0.35420755 = queryWeight, product of:
          7.1642876 = idf(docFreq=92, maxDocs=44218)
          0.049440723 = queryNorm
        0.39179698 = fieldWeight in 572, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          7.1642876 = idf(docFreq=92, maxDocs=44218)
          0.02734375 = fieldNorm(doc=572)
  0.2 = coord(1/5)
```
Abstract

Identifikation der Sprache bzw. Sprachen elektronischer Textdokumente ist einer der wichtigsten Schritte in vielen Prozessen maschineller Textverarbeitung. Die vorliegende Arbeit stellt LangIdent, ein System zur Sprachidentifikation von mono- und multilingualen elektronischen Textdokumenten vor. Das System bietet sowohl eine Auswahl von gängigen Algorithmen für die Sprachidentifikation monolingualer Textdokumente als auch einen neuen Algorithmus für die Sprachidentifikation multilingualer Textdokumente.
Mit der Verbreitung des Internets vermehrt sich die Menge der im World Wide Web verfügbaren Dokumente. Die Gewährleistung eines effizienten Zugangs zu gewünschten Informationen für die Internetbenutzer wird zu einer großen Herausforderung an die moderne Informationsgesellschaft. Eine Vielzahl von Werkzeugen wird bereits eingesetzt, um den Nutzern die Orientierung in der wachsenden Informationsflut zu erleichtern. Allerdings stellt die enorme Menge an unstrukturierten und verteilten Informationen nicht die einzige Schwierigkeit dar, die bei der Entwicklung von Werkzeugen dieser Art zu bewältigen ist. Die zunehmende Vielsprachigkeit von Web-Inhalten resultiert in dem Bedarf an Sprachidentifikations-Software, die Sprache/en von elektronischen Dokumenten zwecks gezielter Weiterverarbeitung identifiziert. Solche Sprachidentifizierer können beispielsweise effektiv im Bereich des Multilingualen Information Retrieval eingesetzt werden, da auf den Sprachidentifikationsergebnissen Prozesse der automatischen Indexbildung wie Stemming, Stoppwörterextraktion etc. aufbauen. In der vorliegenden Arbeit wird das neue System "LangIdent" zur Sprachidentifikation von elektronischen Textdokumenten vorgestellt, das in erster Linie für Lehre und Forschung an der Universität Hildesheim verwendet werden soll. "LangIdent" enthält eine Auswahl von gängigen Algorithmen zu der monolingualen Sprachidentifikation, die durch den Benutzer interaktiv ausgewählt und eingestellt werden können. Zusätzlich wurde im System ein neuer Algorithmus implementiert, der die Identifikation von Sprachen, in denen ein multilinguales Dokument verfasst ist, ermöglicht. Die Identifikation beschränkt sich nicht nur auf eine Aufzählung von gefundenen Sprachen, vielmehr wird der Text in monolinguale Abschnitte aufgeteilt, jeweils mit der Angabe der identifizierten Sprache.
Oberhauser, O.: Automatisches Klassifizieren : Verfahren zur Erschließung elektronischer Dokumente (2004) 0.02
```
0.022429822 = product of:
  0.112149104 = sum of:
    0.112149104 = weight(_text_:algorithmus in 2487) [ClassicSimilarity], result of:
      0.112149104 = score(doc=2487,freq=2.0), product of:
        0.35420755 = queryWeight, product of:
          7.1642876 = idf(docFreq=92, maxDocs=44218)
          0.049440723 = queryNorm
        0.31661975 = fieldWeight in 2487, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          7.1642876 = idf(docFreq=92, maxDocs=44218)
          0.03125 = fieldNorm(doc=2487)
  0.2 = coord(1/5)
```
Abstract

Automatisches Klassifizieren von Textdokumenten bedeutet die maschinelle Zuordnung jeweils einer oder mehrerer Notationen eines vorgegebenen Klassifikationssystems zu natürlich-sprachlichen Texten mithilfe eines geeigneten Algorithmus. In der vorliegenden Arbeit wird in Form einer umfassenden Literaturstudie ein aktueller Kenntnisstand zu den Ein-satzmöglichkeiten des automatischen Klassifizierens für die sachliche Erschliessung von elektronischen Dokumenten, insbesondere von Web-Ressourcen, erarbeitet. Dies betrifft zum einen den methodischen Aspekt und zum anderen die in relevanten Projekten und Anwendungen gewonnenen Erfahrungen. In methodischer Hinsicht gelten heute statistische Verfahren, die auf dem maschinellen Lernen basieren und auf der Grundlage bereits klassifizierter Beispieldokumente ein Modell - einen "Klassifikator" - erstellen, das zur Klassifizierung neuer Dokumente verwendet werden kann, als "state-of-the-art". Die vier in den 1990er Jahren an den Universitäten Lund, Wolverhampton und Oldenburg sowie bei OCLC (Dublin, OH) durchgeführten "grossen" Projekte zum automatischen Klassifizieren von Web-Ressourcen, die in dieser Arbeit ausführlich analysiert werden, arbeiteten allerdings noch mit einfacheren bzw. älteren methodischen Ansätzen. Diese Projekte bedeuten insbesondere aufgrund ihrer Verwendung etablierter bibliothekarischer Klassifikationssysteme einen wichtigen Erfahrungsgewinn, selbst wenn sie bisher nicht zu permanenten und qualitativ zufriedenstellenden Diensten für die Erschliessung elektronischer Ressourcen geführt haben. Die Analyse der weiteren einschlägigen Anwendungen und Projekte lässt erkennen, dass derzeit in den Bereichen Patent- und Mediendokumentation die aktivsten Bestrebungen bestehen, Systeme für die automatische klassifikatorische Erschliessung elektronischer Dokumente im laufenden operativen Betrieb einzusetzen. Dabei dominieren jedoch halbautomatische Systeme, die menschliche Bearbeiter durch Klassifizierungsvorschläge unterstützen, da die gegenwärtig erreichbare Klassifizierungsgüte für eine Vollautomatisierung meist noch nicht ausreicht. Weitere interessante Anwendungen und Projekte finden sich im Bereich von Web-Portalen, Suchmaschinen und (kommerziellen) Informationsdiensten, während sich etwa im Bibliothekswesen kaum nennenswertes Interesse an einer automatischen Klassifizierung von Büchern bzw. bibliographischen Datensätzen registrieren lässt. Die Studie schliesst mit einer Diskussion der wichtigsten Projekte und Anwendungen sowie einiger im Zusammenhang mit dem automatischen Klassifizieren relevanter Fragestellungen und Themen.

Stünkel, M.: Neuere Methoden der inhaltlichen Erschließung schöner Literatur in öffentlichen Bibliotheken (1986) 0.02

0.021435313 = product of:
  0.107176565 = sum of:
    0.107176565 = weight(_text_:22 in 5815) [ClassicSimilarity], result of:
      0.107176565 = score(doc=5815,freq=2.0), product of:
        0.17313299 = queryWeight, product of:
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.049440723 = queryNorm
        0.61904186 = fieldWeight in 5815, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.125 = fieldNorm(doc=5815)
  0.2 = coord(1/5)

Date: 4. 8.2006 21:35:22

Menges, T.: Möglichkeiten und Grenzen der Übertragbarkeit eines Buches auf Hypertext am Beispiel einer französischen Grundgrammatik (Klein; Kleineidam) (1997) 0.02

0.0187559 = product of:
  0.0937795 = sum of:
    0.0937795 = weight(_text_:22 in 1496) [ClassicSimilarity], result of:
      0.0937795 = score(doc=1496,freq=2.0), product of:
        0.17313299 = queryWeight, product of:
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.049440723 = queryNorm
        0.5416616 = fieldWeight in 1496, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.109375 = fieldNorm(doc=1496)
  0.2 = coord(1/5)

Date: 22. 7.1998 18:23:25

Schneider, A.: ¬Die Verzeichnung und sachliche Erschließung der Belletristik in Kaysers Bücherlexikon und im Schlagwortkatalog Georg/Ost (1980) 0.02

0.0187559 = product of:
  0.0937795 = sum of:
    0.0937795 = weight(_text_:22 in 5309) [ClassicSimilarity], result of:
      0.0937795 = score(doc=5309,freq=2.0), product of:
        0.17313299 = queryWeight, product of:
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.049440723 = queryNorm
        0.5416616 = fieldWeight in 5309, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.109375 = fieldNorm(doc=5309)
  0.2 = coord(1/5)

Date: 5. 8.2006 13:07:22

Sperling, R.: Anlage von Literaturreferenzen für Onlineressourcen auf einer virtuellen Lernplattform (2004) 0.02

0.0187559 = product of:
  0.0937795 = sum of:
    0.0937795 = weight(_text_:22 in 4635) [ClassicSimilarity], result of:
      0.0937795 = score(doc=4635,freq=2.0), product of:
        0.17313299 = queryWeight, product of:
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.049440723 = queryNorm
        0.5416616 = fieldWeight in 4635, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.109375 = fieldNorm(doc=4635)
  0.2 = coord(1/5)

Date: 26.11.2005 18:39:22

Search (43 results, page 1 of 3)

Authors

Years

Languages

Themes