Search (222 results, page 1 of 12)

Trkulja, V.: Suche ist überall, Semantic Web setzt sich durch, Renaissance der Taxonomien (2005) 0.08

0.0785025 = product of:
  0.19625624 = sum of:
    0.15003897 = weight(_text_:semantic in 3295) [ClassicSimilarity], result of:
      0.15003897 = score(doc=3295,freq=4.0), product of:
        0.19245663 = queryWeight, product of:
          4.1578603 = idf(docFreq=1879, maxDocs=44218)
          0.04628742 = queryNorm
        0.77959883 = fieldWeight in 3295, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          4.1578603 = idf(docFreq=1879, maxDocs=44218)
          0.09375 = fieldNorm(doc=3295)
    0.046217266 = product of:
      0.09243453 = sum of:
        0.09243453 = weight(_text_:web in 3295) [ClassicSimilarity], result of:
          0.09243453 = score(doc=3295,freq=4.0), product of:
            0.15105948 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.04628742 = queryNorm
            0.6119082 = fieldWeight in 3295, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.09375 = fieldNorm(doc=3295)
      0.5 = coord(1/2)
  0.4 = coord(2/5)

Theme: Semantic Web

Spree, U.; Feißt, N.; Lühr, A.; Piesztal, B.; Schroeder, N.; Wollschläger, P.: Semantic search : State-of-the-Art-Überblick zu semantischen Suchlösungen im WWW (2011) 0.06

0.05608489 = product of:
  0.14021222 = sum of:
    0.10719301 = weight(_text_:semantic in 345) [ClassicSimilarity], result of:
      0.10719301 = score(doc=345,freq=6.0), product of:
        0.19245663 = queryWeight, product of:
          4.1578603 = idf(docFreq=1879, maxDocs=44218)
          0.04628742 = queryNorm
        0.55697227 = fieldWeight in 345, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          4.1578603 = idf(docFreq=1879, maxDocs=44218)
          0.0546875 = fieldNorm(doc=345)
    0.03301921 = product of:
      0.06603842 = sum of:
        0.06603842 = weight(_text_:web in 345) [ClassicSimilarity], result of:
          0.06603842 = score(doc=345,freq=6.0), product of:
            0.15105948 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.04628742 = queryNorm
            0.43716836 = fieldWeight in 345, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.0546875 = fieldNorm(doc=345)
      0.5 = coord(1/2)
  0.4 = coord(2/5)

Abstract: In diesem Kapitel wird ein Überblick über bestehende semantische Suchmaschinen gegeben. Insgesamt werden 95 solcher Suchdienste identifiziert und im Rahmen einer Inhaltsanalyse verglichen. Es kann festgestellt werden, dass die Semantische Suche sich wesentlich von den im Rahmen des Semantic Web propagierten Technologien unterscheidet und Semantik in den betrachteten Suchmaschinen weiter zu fassen ist. Die betrachteten Suchmaschinen werden in ein Stufenmodell, welches nach dem Grad der Semantik unterscheidet, eingeordnet. Das Kapitel schließt mit 8 Thesen zum aktuellen Stand der semantischen Suche.
Source: Handbuch Internet-Suchmaschinen, 2: Neue Entwicklungen in der Web-Suche. Hrsg.: D. Lewandowski
Theme: Semantic Web

Flores-Herr, N.; Sack, H.; Bossert, K.: Suche in Multimediaarchiven von Kultureinrichtungen (2011) 0.04
```
0.04132867 = product of:
  0.10332167 = sum of:
    0.075019486 = weight(_text_:semantic in 346) [ClassicSimilarity], result of:
      0.075019486 = score(doc=346,freq=4.0), product of:
        0.19245663 = queryWeight, product of:
          4.1578603 = idf(docFreq=1879, maxDocs=44218)
          0.04628742 = queryNorm
        0.38979942 = fieldWeight in 346, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          4.1578603 = idf(docFreq=1879, maxDocs=44218)
          0.046875 = fieldNorm(doc=346)
    0.028302183 = product of:
      0.056604367 = sum of:
        0.056604367 = weight(_text_:web in 346) [ClassicSimilarity], result of:
          0.056604367 = score(doc=346,freq=6.0), product of:
            0.15105948 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.04628742 = queryNorm
            0.37471575 = fieldWeight in 346, product of:
              2.4494898 = tf(freq=6.0), with freq of:
                6.0 = termFreq=6.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.046875 = fieldNorm(doc=346)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Abstract

In diesem Kapitel werden Vorschläge für neue Suchparadigmen nach multimedialen Inhalten in Archiven von Kultureinrichtungen vorgestellt. Um die Notwendigkeit für eine Integration dieser neuen Technologien zu zeigen, werden zunächst Einschränkungen der klassischen katalogbasierten Bibliothekssuche im Zeitalter von immer weiter wachsenden Multimediasammlungen beschrieben. Im Anschluss werden die Vor- und Nachteile zweier Suchparadigmen dargestellt, mit deren Hilfe in Zukunft für Wissenschaftler und Kulturschaffende die Suche nach multimedialen Inhalten erleichtert werden könnte. Zunächst werden die Perspektiven einer semantischen Suche auf Basis von Semantic-Web-Technologien in Bibliotheken beschrieben. Im Anschluss werden Suchmöglichkeiten für Multimediainhalte auf Basis von automatischer inhaltsbasierter Medienanalyse gezeigt. Das Kapitel endet mit einem Ausblick auf eine mögliche Vereinigung der beiden neuen Ansätze mit katalogbasierter Bibliothekssuche.

Source

Handbuch Internet-Suchmaschinen, 2: Neue Entwicklungen in der Web-Suche. Hrsg.: D. Lewandowski

Theme

Semantic Web

Höfer, W.: Detektive im Web (1999) 0.03

0.034357738 = product of:
  0.17178869 = sum of:
    0.17178869 = sum of:
      0.06536108 = weight(_text_:web in 4007) [ClassicSimilarity], result of:
        0.06536108 = score(doc=4007,freq=2.0), product of:
          0.15105948 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.04628742 = queryNorm
          0.43268442 = fieldWeight in 4007, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.09375 = fieldNorm(doc=4007)
      0.1064276 = weight(_text_:22 in 4007) [ClassicSimilarity], result of:
        0.1064276 = score(doc=4007,freq=4.0), product of:
          0.16209066 = queryWeight, product of:
            3.5018296 = idf(docFreq=3622, maxDocs=44218)
            0.04628742 = queryNorm
          0.6565931 = fieldWeight in 4007, product of:
            2.0 = tf(freq=4.0), with freq of:
              4.0 = termFreq=4.0
            3.5018296 = idf(docFreq=3622, maxDocs=44218)
            0.09375 = fieldNorm(doc=4007)
  0.2 = coord(1/5)

Date: 22. 8.1999 20:22:06

Stock, W.G.: Qualitätskriterien von Suchmaschinen : Checkliste für Retrievalsysteme (2000) 0.03
```
0.03279502 = product of:
  0.081987545 = sum of:
    0.023397226 = weight(_text_:retrieval in 5773) [ClassicSimilarity], result of:
      0.023397226 = score(doc=5773,freq=2.0), product of:
        0.14001551 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.04628742 = queryNorm
        0.16710453 = fieldWeight in 5773, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5773)
    0.05859032 = sum of:
      0.027233787 = weight(_text_:web in 5773) [ClassicSimilarity], result of:
        0.027233787 = score(doc=5773,freq=2.0), product of:
          0.15105948 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.04628742 = queryNorm
          0.18028519 = fieldWeight in 5773, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.0390625 = fieldNorm(doc=5773)
      0.031356532 = weight(_text_:22 in 5773) [ClassicSimilarity], result of:
        0.031356532 = score(doc=5773,freq=2.0), product of:
          0.16209066 = queryWeight, product of:
            3.5018296 = idf(docFreq=3622, maxDocs=44218)
            0.04628742 = queryNorm
          0.19345059 = fieldWeight in 5773, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            3.5018296 = idf(docFreq=3622, maxDocs=44218)
            0.0390625 = fieldNorm(doc=5773)
  0.4 = coord(2/5)
```
Abstract

Suchmaschinen im World Wide Web wird nachgesagt, dass sie - insbesondere im Vergleich zur Retrievalsoftware kommerzieller Online-Archive suboptimale Methoden und Werkzeuge einsetzen. Elaborierte befehlsorientierte Retrievalsysteme sind vom Laien gar nicht und vom Professional nur dann zu bedienen, wenn man stets damit arbeitet. Die Suchsysteme einiger "independents", also isolierter Informationsproduzenten im Internet, zeichnen sich durch einen Minimalismus aus, der an den Befehlsumfang anfangs der 70er Jahre erinnert. Retrievalsoftware in Intranets, wenn sie denn überhaupt benutzt wird, setzt fast ausnahmslos auf automatische Methoden von Indexierung und Retrieval und ignoriert dabei nahezu vollständig dokumentarisches Know how. Suchmaschinen bzw. Retrievalsysteme - wir wollen beide Bezeichnungen synonym verwenden - bereiten demnach, egal wo sie vorkommen, Schwierigkeiten. An ihrer Qualität wird gezweifelt. Aber was heißt überhaupt: Qualität von Suchmaschinen? Was zeichnet ein gutes Retrievalsystem aus? Und was fehlt einem schlechten? Wir wollen eine Liste von Kriterien entwickeln, die für gutes Suchen (und Finden!) wesentlich sind. Es geht also ausschließlich um Quantität und Qualität der Suchoptionen, nicht um weitere Leistungsindikatoren wie Geschwindigkeit oder ergonomische Benutzerschnittstellen. Stillschweigend vorausgesetzt wirdjedoch der Abschied von ausschließlich befehlsorientierten Systemen, d.h. wir unterstellen Bildschirmgestaltungen, die die Befehle intuitiv einleuchtend darstellen. Unsere Checkliste enthält nur solche Optionen, die entweder (bei irgendwelchen Systemen) schon im Einsatz sind (und wiederholt damit zum Teil Altbekanntes) oder deren technische Realisierungsmöglichkeit bereits in experimentellen Umgebungen aufgezeigt worden ist. insofern ist die Liste eine Minimalforderung an Retrievalsysteme, die durchaus erweiterungsfähig ist. Gegliedert wird der Kriterienkatalog nach (1.) den Basisfunktionen zur Suche singulärer Datensätze, (2.) den informetrischen Funktionen zur Charakterisierunggewisser Nachweismengen sowie (3.) den Kriterien zur Mächtigkeit automatischer Indexierung und natürlichsprachiger Suche

Source

Password. 2000, H.5, S.22-31
Lewandowski, D.: Web Information Retrieval (2005) 0.03
```
0.032705363 = product of:
  0.08176341 = sum of:
    0.052941877 = weight(_text_:retrieval in 4028) [ClassicSimilarity], result of:
      0.052941877 = score(doc=4028,freq=16.0), product of:
        0.14001551 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.04628742 = queryNorm
        0.37811437 = fieldWeight in 4028, product of:
          4.0 = tf(freq=16.0), with freq of:
            16.0 = termFreq=16.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.03125 = fieldNorm(doc=4028)
    0.028821532 = product of:
      0.057643063 = sum of:
        0.057643063 = weight(_text_:web in 4028) [ClassicSimilarity], result of:
          0.057643063 = score(doc=4028,freq=14.0), product of:
            0.15105948 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.04628742 = queryNorm
            0.38159183 = fieldWeight in 4028, product of:
              3.7416575 = tf(freq=14.0), with freq of:
                14.0 = termFreq=14.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.03125 = fieldNorm(doc=4028)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Abstract

WebInformationRetrieval hat sich als gesonderter Forschungsbereich herausgebildet. Neben den im klassischen Information Retrieval behandelten Fragen ergeben sich durch die Eigenheiten des Web neue und zusätzliche Forschungsfragen. Die Unterschiede zwischen Information Retrieval und Web Information Retrieval werden diskutiert. Derzweite Teil des Aufsatzes gibt einen Überblick über die Forschungsliteratur der letzten zwei Jahre. Dieser Aufsatz gibt einen Überblick über den Stand der Forschung im Bereich Web Information Retrieval. Im ersten Teil werden die besonderen Probleme, die sich in diesem Bereich ergeben, anhand einer Gegenüberstellung mit dem "klassischen" Information Retrieval erläutert. Der weitere Text diskutiert die wichtigste in den letzten Jahren erschienene Literatur zum Thema, wobei ein Schwerpunkt auf die - so vorhanden-deutschsprachige Literatur gelegt wird. Der Schwerpunkt liegt auf Literatur aus den Jahren 2003 und 2004. Zum einen zeigt sich in dem betrachteten Forschungsfeld eine schnelle Entwicklung, so dass viele ältere Untersuchungen nur noch einen historischen bzw. methodischen Wert haben; andererseits existieren umfassende ältere Reviewartikel (s. v.a. Rasmussen 2003). Schon bei der Durchsicht der Literatur wird allerdings deutlich, dass zu einigen Themenfeldern keine oder nur wenig deutschsprachige Literatur vorhanden ist. Leider ist dies aber nicht nur darauf zurückzuführen, dass die Autoren aus den deutschsprachigen Ländern ihre Ergebnisse in englischer Sprache publizieren. Vielmehr wird deutlich, dass in diesen Ländern nur wenig Forschung im Suchmaschinen-Bereich stattfindet. Insbesondere zu sprachspezifischen Problemen von Web-Suchmaschinen fehlen Untersuchungen. Ein weiteres Problem der Forschung im Suchmaschinen-Bereich liegt in der Tatsache begründet, dass diese zu einem großen Teil innerhalb von Unternehmen stattfindet, welche sich scheuen, die Ergebnisse in großem Umfang zu publizieren, da sie fürchten, die Konkurrenz könnte von solchen Veröffentlichungen profitieren. So finden sich etwa auch Vergleichszahlen über einzelne Suchmaschinen oft nur innerhalb von Vorträgen oder Präsentationen von Firmenvertretern (z.B. Singhal 2004; Dean 2004). Das Hauptaugenmerk dieses Artikels liegt auf der Frage, inwieweit Suchmaschinen in der Lage sind, die im Web vorhanden Inhalte zu indexieren, mit welchen Methoden sie dies tun und ob bzw. wie sie ihre Ziele erreichen. Ausgenommen bleiben damit explizit Fragen der Effizienz bei der Erschließung des Web und der Skalierbarkeit von Suchmaschinen. Anders formuliert: Diese Übersicht orientiert sich an klassisch informationswissenschaftlichen Fragen und spart die eher im Bereich der Informatik diskutierten Fragen weitgehend aus.
Eine regelmäßige Übersicht neuer US-Patente und US-Patentanmeldungen im Bereich Information Retrieval bietet die News-Seite Resourceshelf (www.resourceshelf.com).

Content

Mit einer Tabelle, die eine Gegenüberstellung des WebRetrieval zum 'klassischen' Information Retrieval anbietet
Söhler, M.: Schluss mit Schema F (2011) 0.03
```
0.029748652 = product of:
  0.07437163 = sum of:
    0.050012987 = weight(_text_:semantic in 4439) [ClassicSimilarity], result of:
      0.050012987 = score(doc=4439,freq=4.0), product of:
        0.19245663 = queryWeight, product of:
          4.1578603 = idf(docFreq=1879, maxDocs=44218)
          0.04628742 = queryNorm
        0.25986627 = fieldWeight in 4439, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          4.1578603 = idf(docFreq=1879, maxDocs=44218)
          0.03125 = fieldNorm(doc=4439)
    0.02435864 = product of:
      0.04871728 = sum of:
        0.04871728 = weight(_text_:web in 4439) [ClassicSimilarity], result of:
          0.04871728 = score(doc=4439,freq=10.0), product of:
            0.15105948 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.04628742 = queryNorm
            0.32250395 = fieldWeight in 4439, product of:
              3.1622777 = tf(freq=10.0), with freq of:
                10.0 = termFreq=10.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.03125 = fieldNorm(doc=4439)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Abstract

Mit Schema.org und dem semantischen Web sollen Suchmaschinen verstehen lernen

Content

"Wörter haben oft mehrere Bedeutungen. Einige kennen den "Kanal" als künstliche Wasserstraße, andere vom Fernsehen. Die Waage kann zum Erfassen des Gewichts nützlich sein oder zur Orientierung auf der Horoskopseite. Casablanca ist eine Stadt und ein Film zugleich. Wo Menschen mit der Zeit Bedeutungen unterscheiden und verarbeiten lernen, können dies Suchmaschinen von selbst nicht. Stets listen sie dumpf hintereinander weg alles auf, was sie zu einem Thema finden. Damit das nicht so bleibt, haben sich nun Google, Yahoo und die zu Microsoft gehörende Suchmaschine Bing zusammengetan, um der Suche im Netz mehr Verständnis zu verpassen. Man spricht dabei auch von einer "semantischen Suche". Das Ergebnis heißt Schema.org. Wer die Webseite einmal besucht, sich ein wenig in die Unterstrukturen hereinklickt und weder Vorkenntnisse im Programmieren noch im Bereich des semantischen Webs hat, wird sich überfordert und gelangweilt wieder abwenden. Doch was hier entstehen könnte, hat das Zeug dazu, Teile des Netzes und speziell die Funktionen von Suchmaschinen mittel- oder langfristig zu verändern. "Große Player sind dabei, sich auf Standards zu einigen", sagt Daniel Bahls, Spezialist für Semantische Technologien beim ZBW Leibniz-Informationszentrum Wirtschaft in Hamburg. "Die semantischen Technologien stehen schon seit Jahren im Raum und wurden bisher nur im kleineren Kontext verwendet." Denn Schema.org lädt Entwickler, Forscher, die Semantic-Web-Community und am Ende auch alle Betreiber von Websites dazu ein, an der Umgestaltung der Suche im Netz mitzuwirken. Inhalte von Websites sollen mit einem speziellen, aber einheitlichen Vokabular für die Crawler - die Analyseprogramme der Suchmaschinen - gekennzeichnet und aufbereitet werden.
Indem Schlagworte, sogenannte Tags, in den für Normal-User nicht sichtbaren Teil des Codes von Websites eingebettet werden, sind Suchmachinen nicht mehr so sehr auf die Analyse der natürlichen Sprache angewiesen, um Texte inhaltlich zu erfassen. Im Blog ZBW Mediatalk wird dies als "Semantic Web light" bezeichnet - ein semantisches Web auf niedrigster Ebene. Aber selbst das werde "schon viel bewirken", meint Bahls. "Das semantische Web wird sich über die nächsten Jahrzehnte evolutionär weiterentwickeln." Einen "Abschluss" werde es nie geben, "da eine einheitliche Formalisierung von Begrifflichkeiten auf feiner Stufe kaum möglich ist". Die Ergebnisse aus Schema.org würden "zeitnah" in die Suchmaschine integriert, "denn einen Zeitplan" gebe es nicht, so Stefan Keuchel, Pressesprecher von Google Deutschland. Bis das so weit ist, hilft der Verweis von Daniel Bahns auf die bereits existierende semantische Suchmaschine Sig.ma. Geschwindigkeit und Menge der Ergebnisse nach einer Suchanfrage spielen hier keine Rolle. Sig.ma sammelt seine Informationen allein im Bereich des semantischen Webs und listet nach einer Anfrage alles Bekannte strukturiert auf.

Peters, I.: Folksonomies und kollaborative Informationsdienste : eine Alternative zur Websuche? (2011) 0.03

0.027298829 = product of:
  0.06824707 = sum of:
    0.03743556 = weight(_text_:retrieval in 343) [ClassicSimilarity], result of:
      0.03743556 = score(doc=343,freq=2.0), product of:
        0.14001551 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.04628742 = queryNorm
        0.26736724 = fieldWeight in 343, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0625 = fieldNorm(doc=343)
    0.030811511 = product of:
      0.061623022 = sum of:
        0.061623022 = weight(_text_:web in 343) [ClassicSimilarity], result of:
          0.061623022 = score(doc=343,freq=4.0), product of:
            0.15105948 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.04628742 = queryNorm
            0.4079388 = fieldWeight in 343, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.0625 = fieldNorm(doc=343)
      0.5 = coord(1/2)
  0.4 = coord(2/5)

Abstract: Folksonomies ermöglichen den Nutzern in Kollaborativen Informationsdiensten den Zugang zu verschiedenartigen Informationsressourcen. In welchen Fällen beide Bestandteile des Web 2.0 am besten für das Information Retrieval geeignet sind und wo sie die Websuche ggf. ersetzen können, wird in diesem Beitrag diskutiert. Dazu erfolgt eine detaillierte Betrachtung der Reichweite von Social-Bookmarking-Systemen und Sharing-Systemen sowie der Retrievaleffektivität von Folksonomies innerhalb von Kollaborativen Informationsdiensten.
Source: Handbuch Internet-Suchmaschinen, 2: Neue Entwicklungen in der Web-Suche. Hrsg.: D. Lewandowski

Söhler, M.: "Dumm wie Google" war gestern : semantische Suche im Netz (2011) 0.03
```
0.025130007 = product of:
  0.06282502 = sum of:
    0.043761365 = weight(_text_:semantic in 4440) [ClassicSimilarity], result of:
      0.043761365 = score(doc=4440,freq=4.0), product of:
        0.19245663 = queryWeight, product of:
          4.1578603 = idf(docFreq=1879, maxDocs=44218)
          0.04628742 = queryNorm
        0.22738299 = fieldWeight in 4440, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          4.1578603 = idf(docFreq=1879, maxDocs=44218)
          0.02734375 = fieldNorm(doc=4440)
    0.019063652 = product of:
      0.038127303 = sum of:
        0.038127303 = weight(_text_:web in 4440) [ClassicSimilarity], result of:
          0.038127303 = score(doc=4440,freq=8.0), product of:
            0.15105948 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.04628742 = queryNorm
            0.25239927 = fieldWeight in 4440, product of:
              2.828427 = tf(freq=8.0), with freq of:
                8.0 = termFreq=8.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.02734375 = fieldNorm(doc=4440)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Content

- Neue Standards Doch was hier entstehen könnte, hat das Zeug dazu, Teile des Netzes und speziell die Funktionen von Suchmaschinen mittel- oder langfristig zu verändern. "Große Player sind dabei, sich auf Standards zu einigen", sagt Daniel Bahls, Spezialist für Semantische Technologien beim ZBW Leibniz-Informationszentrum Wirtschaft in Hamburg. "Die semantischen Technologien stehen schon seit Jahren im Raum und wurden bisher nur im kleineren Kontext verwendet." Denn Schema.org lädt Entwickler, Forscher, die Semantic-Web-Community und am Ende auch alle Betreiber von Websites dazu ein, an der Umgestaltung der Suche im Netz mitzuwirken. "Damit wollen Google, Bing und Yahoo! dem Info-Chaos im WWW den Garaus machen", schreibt André Vatter im Blog ZBW Mediatalk. Inhalte von Websites sollen mit einem speziellen, aber einheitlichen Vokabular für die Crawler der Suchmaschinen gekennzeichnet und aufbereitet werden. Indem Schlagworte, so genannte Tags, in den Code von Websites eingebettet werden, sind Suchmachinen nicht mehr so sehr auf die Analyse der natürlichen Sprache angewiesen, um Texte inhaltlich zu erfassen. Im Blog wird dies als "Semantic Web light" bezeichnet - ein semantisches Web auf niedrigster Ebene. Aber selbst das werde "schon viel bewirken", meint Bahls. "Das semantische Web wird sich über die nächsten Jahrzehnte evolutionär weiterentwickeln." Einen "Abschluss" werde es nie geben, "da eine einheitliche Formalisierung von Begrifflichkeiten auf feiner Stufe kaum möglich ist."

Altmann, O.; Pöhl, S.: Information Retrieval im Internet : bekannte Suchdienste und ihre Eigenschaften (1997) 0.03

0.025008315 = product of:
  0.06252079 = sum of:
    0.03743556 = weight(_text_:retrieval in 205) [ClassicSimilarity], result of:
      0.03743556 = score(doc=205,freq=2.0), product of:
        0.14001551 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.04628742 = queryNorm
        0.26736724 = fieldWeight in 205, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0625 = fieldNorm(doc=205)
    0.025085226 = product of:
      0.05017045 = sum of:
        0.05017045 = weight(_text_:22 in 205) [ClassicSimilarity], result of:
          0.05017045 = score(doc=205,freq=2.0), product of:
            0.16209066 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.04628742 = queryNorm
            0.30952093 = fieldWeight in 205, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0625 = fieldNorm(doc=205)
      0.5 = coord(1/2)
  0.4 = coord(2/5)

Pages: S.18-22

Schüler, P.: Wertes Wissen : Knowledge Management vermeidet Datenfriedhöfe (2001) 0.03

0.025008315 = product of:
  0.06252079 = sum of:
    0.03743556 = weight(_text_:retrieval in 6815) [ClassicSimilarity], result of:
      0.03743556 = score(doc=6815,freq=2.0), product of:
        0.14001551 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.04628742 = queryNorm
        0.26736724 = fieldWeight in 6815, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0625 = fieldNorm(doc=6815)
    0.025085226 = product of:
      0.05017045 = sum of:
        0.05017045 = weight(_text_:22 in 6815) [ClassicSimilarity], result of:
          0.05017045 = score(doc=6815,freq=2.0), product of:
            0.16209066 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.04628742 = queryNorm
            0.30952093 = fieldWeight in 6815, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0625 = fieldNorm(doc=6815)
      0.5 = coord(1/2)
  0.4 = coord(2/5)

Abstract: Wer ohne spezielle Vorkenntnisse schnell in einem Thema Fuß fassen will, ist auf intelligente Recherchierhilfen angewiesen. Gurus der künstlichen Intelligenz kennen schon langm Wege, die Datenwelt besser als mit Schlagwort-Suchmaschinen nach Inhalten zu durchforsten - nur in der Praxis war davon wenig zu sehen. Aktuelle Software zum Content-Retrieval will die scheinbare Utopie verwirklichen
Date: 8.11.2001 19:58:22

Eggeling, T.; Kroschel, A.: Alles finden im Web (2000) 0.02

0.023436127 = product of:
  0.11718064 = sum of:
    0.11718064 = sum of:
      0.054467574 = weight(_text_:web in 4884) [ClassicSimilarity], result of:
        0.054467574 = score(doc=4884,freq=2.0), product of:
          0.15105948 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.04628742 = queryNorm
          0.36057037 = fieldWeight in 4884, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.078125 = fieldNorm(doc=4884)
      0.062713064 = weight(_text_:22 in 4884) [ClassicSimilarity], result of:
        0.062713064 = score(doc=4884,freq=2.0), product of:
          0.16209066 = queryWeight, product of:
            3.5018296 = idf(docFreq=3622, maxDocs=44218)
            0.04628742 = queryNorm
          0.38690117 = fieldWeight in 4884, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            3.5018296 = idf(docFreq=3622, maxDocs=44218)
            0.078125 = fieldNorm(doc=4884)
  0.2 = coord(1/5)

Date: 9. 7.2000 14:06:22

Lewandowski, D.; Krewinkel, A.; Gleissner, M.; Osterode, D.; Tolg, B.; Holle, M.; Sünkler, S.: Entwicklung und Anwendung einer Software zur automatisierten Kontrolle des Lebensmittelmarktes im Internet mit informationswissenschaftlichen Methoden (2019) 0.02
```
0.022418672 = product of:
  0.05604668 = sum of:
    0.03970641 = weight(_text_:retrieval in 5025) [ClassicSimilarity], result of:
      0.03970641 = score(doc=5025,freq=4.0), product of:
        0.14001551 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.04628742 = queryNorm
        0.2835858 = fieldWeight in 5025, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.046875 = fieldNorm(doc=5025)
    0.01634027 = product of:
      0.03268054 = sum of:
        0.03268054 = weight(_text_:web in 5025) [ClassicSimilarity], result of:
          0.03268054 = score(doc=5025,freq=2.0), product of:
            0.15105948 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.04628742 = queryNorm
            0.21634221 = fieldWeight in 5025, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.046875 = fieldNorm(doc=5025)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Abstract

In diesem Artikel präsentieren wir die Durchführung und die Ergebnisse eines interdisziplinären Forschungsprojekts zum Thema automatisierte Lebensmittelkontrolle im Web. Es wurden Kompetenzen aus den Disziplinen Lebensmittelwissenschaft, Rechtswissenschaft, Informationswissenschaft und Informatik dazu genutzt, ein detailliertes Konzept und einen Software-Prototypen zu entwickeln, um das Internet nach Produktangeboten zu durchsuchen, die gegen das Lebensmittelrecht verstoßen. Dabei wird deutlich, wie ein solcher Anwendungsfall von den Methoden der Information-Retrieval-Evaluierung profitiert, und wie sich mit relativ geringem Aufwand eine flexible Software programmieren lässt, die auch für eine Vielzahl anderer Fragestellungen einsetzbar ist. Die Ergebnisse des Projekts zeigen, wie komplexe Arbeitsprozesse einer Behörde mit Hilfe der Methoden von Retrieval-Tests und gängigen Verfahren aus dem maschinellen Lernen effektiv und effizient unterstützt werden können.
Lewandowski, D.: Suchmaschinen - ein Thema für die Informationswissenschaft (2005) 0.02
```
0.022401163 = product of:
  0.056002907 = sum of:
    0.034386758 = weight(_text_:retrieval in 3183) [ClassicSimilarity], result of:
      0.034386758 = score(doc=3183,freq=12.0), product of:
        0.14001551 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.04628742 = queryNorm
        0.24559249 = fieldWeight in 3183, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0234375 = fieldNorm(doc=3183)
    0.02161615 = product of:
      0.0432323 = sum of:
        0.0432323 = weight(_text_:web in 3183) [ClassicSimilarity], result of:
          0.0432323 = score(doc=3183,freq=14.0), product of:
            0.15105948 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.04628742 = queryNorm
            0.28619388 = fieldWeight in 3183, product of:
              3.7416575 = tf(freq=14.0), with freq of:
                14.0 = termFreq=14.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.0234375 = fieldNorm(doc=3183)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Content

"Web-Suchmaschinen gibt es seit mittlerweile etwa zehn Jahren. Mit ihnen ist die Informationsrecherche, welche lange Zeit eine Sache für (uns) Experten war, bei Otto Normalverbraucher angekommen. Suchmaschinen haben sich an die Bedürfnisse dieser Nutzerschaft angepasst, was von Expertenseite zu vielerlei Klagen über ihre "Primitivität` geführt hat. Als Chance kann hier aber die Erkenntnis gesehen werden, dass die Nutzer einfache Interfaces und ein gutes Ranking der Suchergebnisse benötigen - auch in fachlichen Anwendungen. Der Durchbruch des Information Retrieval und seiner Bedeutung zeigt sich aber nicht nur durch die breite Nutzerschaft. Das Kernstück von erfolgreichen Suchmaschinen-Unternehmen wie Google und Yahoo! bilden Information-Retrieval-Verfahren - von besonderem Interesse sind dabei stets die von den Firmen geheim gehaltenen Ranking-Algorithmen. Die Forschung im IR-Bereich findet inzwischen zahlreiche namhafte Sponsoren - bei der letzten Jahrestagung der Special Interest Group an Information Retrieval (SIGIR) waren unter anderem Microsoft, IBM und Google mit im Boot. Suchmaschinen-Forschung findet in Deutschland in zahlreichen Hochschulen und Unternehmen statt, dabei ist sie allerdings verstreut und wenig koordiniert. Die zahlreichen auf das Call for Papers für dieses Themenheft der IWP eingegangenen Beiträge zeigen erfreulicherweise ein großes Potenzial für die informationswissenschaftliche Forschung in diesem Bereich. Der erste Beitrag befasst sich mit den Eigenheiten des Web und arbeitet die Unterschiede zwischen klassischem Information Retrieval und Web Information Retrieval heraus. Damit werden die Grundlagen für die Diskussion über Suchmaschinen gelegt. Der zweite Teil des Beitrags gibt einen Überblick der aktuellen Forschungsliteratur mit informationswissenschaftlichem Schwerpunkt und hat zum Ziel, weitere Forschung anzuregen. Thomas Mandl beschreibt in der Darstellung seines AOUAINT-Projekts die unterschiedlichen Ansätze, (Web-)Dokumente nach ihrer Oualität zu beurteilen. Solche Verfahren werden bereits von den bisher bestehenden Suchmaschinen eingesetzt; man denke etwa an das Kernstück von Google, das so genannte PageRank-Verfahren. Allerdings beschränken sich die bisherigen Verfahren nur auf einzelne Aspekte von Qualität. AOUAINT erweitert die Qualitätsbewertung um weitere Faktoren und kann so das Retrieval verbessern.
Neben den "harten Faktoren" der Oualität der Suchergebnisse spielt auch die Gestaltung von Suchinterfaces eine wichtige Rolle für die Akzeptanz bzw. Nicht-Akzeptanz von Suchwerkzeugen. Die Untersuchung von Jens Fauldrath und Arne Kunisch vergleicht die Interfaces der wichtigsten in Deutschland vertretenen Suchmaschinen und Portale und gibt Empfehlungen für deren Gestaltung und Funktionsumfang. Neue Wege in der Gestaltung von Ergebnismengen beschreibt der Beitrag von Fridolin Wild. Anhand des Vergleichs von bestehenden Visualisierungslösungen werden best practices für die Ergebnispräsentation herausgearbeitet. Für die Zukunft rechnet Wild mit einem zunehmenden Einsatz solcher Systeme, da er in ihnen die Möglichkeit sieht, nicht nur die Benutzeroberflächen zu verändern, sondern auch das Retrivalverfahren an sich zu verbessern. Die Internationalität des Web hat es mit sich gebracht, dass Suchmaschinen in der Regel für den weltweiten Markt entwickelt werden. Wie sie mit einzelnen Sprachen umgehen, ist bisher weitgehend un geklärt. Eine Untersuchung über den Umgang von Suchmaschinen mit den Eigenheiten der deutschen Sprache legen Esther Guggenheim und Judith Bar-Ilan vor. Sie kommen zu dem Schluss, dass die populären Suchmaschinen zunehmend besser mit deutschsprachigen Anfragen umgehen können, sehen allerdings weitere Verbesserungsmöglichkeiten. Dem noch relativ neuen Forschungsgebiet der Webometrie ist der Beitrag von Philipp Mayr und Fabio Tosques zuzuordnen. Webometrie wendet die aus der Bibliometrie bzw. Informetrie bekannten Verfahren auf den Web-Korpus an. Im vorliegenden Beitrag wird das Application Programming Interface (API) von Google auf seine Tauglichkeit für webometrische Untersuchungen getestet. Die Autoren kommen zu dem Schluss, dass kleinere Einschränkungen und Probleme nicht die zahlreichen Möglichkeiten, die das API bietet, mindern. Ein Beispiel für den Einsatz von Suchmaschinen-Technologie in der Praxis beschreibt schließlich der letzte Beitrag des Hefts. Friedrich Summann und Sebastian Wolf stellen eine Suchmaschine für wissenschaftliche Inhalte vor, die die Oualität von Fachdatenbanken mit der Benutzerfreundlichkeit von Web-Suchmaschinen verbinden soll. Im Aufsatz werden die eingesetzten Technologien und die möglichen Einsatzgebiete beschrieben. Der Gastherausgeber wünscht sich von diesem Themenheft, dass es Anregungen für weitere Forschungs- und Anwendungsprojekte geben möge, sei dies an Hochschulen oder in Unternehmen."

Dresel, R.; Hörnig, D.; Kaluza, H.; Peter, A.; Roßmann, A.; Sieber, W.: Evaluation deutscher Web-Suchwerkzeuge : Ein vergleichender Retrievaltest (2001) 0.02

0.022358695 = product of:
  0.11179347 = sum of:
    0.11179347 = sum of:
      0.061623022 = weight(_text_:web in 261) [ClassicSimilarity], result of:
        0.061623022 = score(doc=261,freq=4.0), product of:
          0.15105948 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.04628742 = queryNorm
          0.4079388 = fieldWeight in 261, product of:
            2.0 = tf(freq=4.0), with freq of:
              4.0 = termFreq=4.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.0625 = fieldNorm(doc=261)
      0.05017045 = weight(_text_:22 in 261) [ClassicSimilarity], result of:
        0.05017045 = score(doc=261,freq=2.0), product of:
          0.16209066 = queryWeight, product of:
            3.5018296 = idf(docFreq=3622, maxDocs=44218)
            0.04628742 = queryNorm
          0.30952093 = fieldWeight in 261, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            3.5018296 = idf(docFreq=3622, maxDocs=44218)
            0.0625 = fieldNorm(doc=261)
  0.2 = coord(1/5)

Abstract: Die deutschen Suchmaschinen, Abacho, Acoon, Fireball und Lycos sowie die Web-Kataloge Web.de und Yahoo! werden einem Qualitätstest nach relativem Recall, Precision und Availability unterzogen. Die Methoden der Retrievaltests werden vorgestellt. Im Durchschnitt werden bei einem Cut-Off-Wert von 25 ein Recall von rund 22%, eine Precision von knapp 19% und eine Verfügbarkeit von 24% erreicht

Bertelmann, R.; Rusch-Feja, D.: Informationsretrieval im Internet : Surfen, Browsen, Suchen - mit einem Überblick über strukturierte Informationsangebote (1997) 0.02

0.021882275 = product of:
  0.054705687 = sum of:
    0.032756116 = weight(_text_:retrieval in 217) [ClassicSimilarity], result of:
      0.032756116 = score(doc=217,freq=2.0), product of:
        0.14001551 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.04628742 = queryNorm
        0.23394634 = fieldWeight in 217, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0546875 = fieldNorm(doc=217)
    0.021949572 = product of:
      0.043899145 = sum of:
        0.043899145 = weight(_text_:22 in 217) [ClassicSimilarity], result of:
          0.043899145 = score(doc=217,freq=2.0), product of:
            0.16209066 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.04628742 = queryNorm
            0.2708308 = fieldWeight in 217, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0546875 = fieldNorm(doc=217)
      0.5 = coord(1/2)
  0.4 = coord(2/5)

Abstract: Das gezielte Suchen im Internet findet in erster Linie mit Hilfe der Suchmaschinen statt. Daneben gibt es aber bereits eine Fülle von strukturierten Informationsangeboten, aufbereiteten Listen und Sammelstellen, die als Clearinghouse, Subject Gateway, Subject Tree oder Resource Pages bezeichnet werden. Solche intellektuell erstellten Übersichten geben in der Regel bereits Hinweise zu Inhalt und fachlichem Niveau der Quelle. Da die Art und Weise der Aufbereitung bei den Sammelstellen sehr unterschiedlich funktioniert, ist die Kenntnis ihrer Erschließungskriterien für ein erfolgreiches Retrieval unverzichtbar
Date: 9. 7.2000 11:31:22

Kanaeva, Z.: Ranking: Google und CiteSeer (2005) 0.02

0.021882275 = product of:
  0.054705687 = sum of:
    0.032756116 = weight(_text_:retrieval in 3276) [ClassicSimilarity], result of:
      0.032756116 = score(doc=3276,freq=2.0), product of:
        0.14001551 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.04628742 = queryNorm
        0.23394634 = fieldWeight in 3276, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0546875 = fieldNorm(doc=3276)
    0.021949572 = product of:
      0.043899145 = sum of:
        0.043899145 = weight(_text_:22 in 3276) [ClassicSimilarity], result of:
          0.043899145 = score(doc=3276,freq=2.0), product of:
            0.16209066 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.04628742 = queryNorm
            0.2708308 = fieldWeight in 3276, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0546875 = fieldNorm(doc=3276)
      0.5 = coord(1/2)
  0.4 = coord(2/5)

Abstract: Im Rahmen des klassischen Information Retrieval wurden verschiedene Verfahren für das Ranking sowie die Suche in einer homogenen strukturlosen Dokumentenmenge entwickelt. Die Erfolge der Suchmaschine Google haben gezeigt dass die Suche in einer zwar inhomogenen aber zusammenhängenden Dokumentenmenge wie dem Internet unter Berücksichtigung der Dokumentenverbindungen (Links) sehr effektiv sein kann. Unter den von der Suchmaschine Google realisierten Konzepten ist ein Verfahren zum Ranking von Suchergebnissen (PageRank), das in diesem Artikel kurz erklärt wird. Darüber hinaus wird auf die Konzepte eines Systems namens CiteSeer eingegangen, welches automatisch bibliographische Angaben indexiert (engl. Autonomous Citation Indexing, ACI). Letzteres erzeugt aus einer Menge von nicht vernetzten wissenschaftlichen Dokumenten eine zusammenhängende Dokumentenmenge und ermöglicht den Einsatz von Banking-Verfahren, die auf den von Google genutzten Verfahren basieren.
Date: 20. 3.2005 16:23:22

Machill, M.; Neuberger, C.; Schweiger, W.; Wirth, W.: Wegweiser im Netz : Qualität und Nutzung von Suchmaschinen (2004) 0.02
```
0.021261796 = product of:
  0.05315449 = sum of:
    0.026470939 = weight(_text_:retrieval in 4093) [ClassicSimilarity], result of:
      0.026470939 = score(doc=4093,freq=4.0), product of:
        0.14001551 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.04628742 = queryNorm
        0.18905719 = fieldWeight in 4093, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.03125 = fieldNorm(doc=4093)
    0.026683552 = product of:
      0.053367104 = sum of:
        0.053367104 = weight(_text_:web in 4093) [ClassicSimilarity], result of:
          0.053367104 = score(doc=4093,freq=12.0), product of:
            0.15105948 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.04628742 = queryNorm
            0.35328537 = fieldWeight in 4093, product of:
              3.4641016 = tf(freq=12.0), with freq of:
                12.0 = termFreq=12.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.03125 = fieldNorm(doc=4093)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Abstract

Das Internet ist ein Kosmos an Informationen aller Art. Zwar sind die Antworten auf Abermillionen Fragen vorhanden, doch stehen Nutzer vor der Aufgabe, diese auch zu finden. Eine zentrale Rolle spielen dabei Suchmaschinen. Beim Wiederauffinden von Informationen, dem so genannten Information Retrieval, handelt es sich um ein relativ gut erforschtes Feld. Die Forschung konzentrierte sich allerdings lange auf die Frage nach dem Wiederauffinden von Informationen in gut strukturierten Datenbanken. Bis zum Aufkommen des World Wide Web war kaum an eine große Datenkollektion zu denken, die höchst unterschiedlich strukturierte Dokumente enthielt. Hinsichtlich ihrer Strukturierung lassen sich Dokumente in drei Klassen ordnen: strukturiert, unstrukturiert und schwach strukturiert. Im Bereich der professionellen Datenbanken liegen die Informationen in strukturierter Form vor: Dokumente sind in Felder geteilt, die sich gezielt durchsuchen lassen. Zusätzliche Felder enthalten in der Regel Informationen über das Dokument wie beispielsweise den Namen des Autors, das Publikationsdatum oder die Namen von im Text behandelten Personen. So lässt sich beispielsweise die Anfrage nach allen Artikeln eines bestimmten Autors in einer Zeitungsdatenbank einfach und klar beantworten. Bei Web-Dokumenten kann die Suche nicht klar eingeschränkt werden, da nicht unterschieden werden kann, ob es sich bei dem Vorkommen des eingegebenen Namens um den Autor oder eine im Text behandelte Person handelt. Bei unstrukturierten Dokumenten handelt es sich schlicht um Fließtext, dessen formale Gestaltung keinerlei Rückschlüsse auf Meta-Informationen oder Textstellen von besonderer Bedeutung zulässt.
Bei HTML-Dokumenten im World Wide Web handelt es sich um schwach strukturierte Dokumente. Zwar findet keine Trennung in Feldinhalte statt, jedoch lassen sich aus Struktur- und Gestaltungsinformationen, die dem Dokument mittels der HTMLTags beigegeben werden, Rückschlüsse auf bedeutende und weniger bedeutende Textstellen ziehen. Eine zweite Herausforderung an die Information-RetrievalForschung ist schilicht die Größe des World Wide Web. Im Umfeld der professionellen Informationsvermittlung ist es von besonderem Interesse, die Informationen eines bestimmten Bereichs in einer Datenbank zu kumulieren. Natürlich wachsen diese themenbezogenen Datenbanken auch stetig an, das Volumen bleibt jedoch bei einigen Millionen Dokumenten noch »überschaubar«. Im Gegensatz dazu steht das World Wide Web. Zwar kann seine Größe nicht genau ermittelt werden, Schätzungen gehen jedoch inklusive der Invisible-Web-Inhalte von etwa zwölf Milliarden Dokumenten bis 550 Milliarden Dokumenten aus (vgl. Bergman 2001). Der dritte wichtige Punkt, der Information Retrieval in Datenbanken von dem im Internet unterscheidet, ist die Frage nach der Zuverlässigkeit der angebotenen Informationen. Während bei Datenbanken die Auswahl der aufgenommenen Informationen oft noch durch einen menschlichen Indexierer erfolgt, nehmen Suchmaschinen potenziell alle von ihnen aufgefundenen Dokumente in ihren Datenbestand auf.
Agosti, M.; Pretto, L.: ¬A theoretical study of a generalized version of kleinberg's HITS algorithm (2005) 0.02
```
0.020252405 = product of:
  0.050631013 = sum of:
    0.023397226 = weight(_text_:retrieval in 4) [ClassicSimilarity], result of:
      0.023397226 = score(doc=4,freq=2.0), product of:
        0.14001551 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.04628742 = queryNorm
        0.16710453 = fieldWeight in 4, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0390625 = fieldNorm(doc=4)
    0.027233787 = product of:
      0.054467574 = sum of:
        0.054467574 = weight(_text_:web in 4) [ClassicSimilarity], result of:
          0.054467574 = score(doc=4,freq=8.0), product of:
            0.15105948 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.04628742 = queryNorm
            0.36057037 = fieldWeight in 4, product of:
              2.828427 = tf(freq=8.0), with freq of:
                8.0 = termFreq=8.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.0390625 = fieldNorm(doc=4)
      0.5 = coord(1/2)
  0.4 = coord(2/5)
```
Abstract

Kleinberg's HITS (Hyperlink-Induced Topic Search) algorithm (Kleinberg 1999), which was originally developed in a Web context, tries to infer the authoritativeness of a Web page in relation to a specific query using the structure of a subgraph of the Web graph, which is obtained considering this specific query. Recent applications of this algorithm in contexts far removed from that of Web searching (Bacchin, Ferro and Melucci 2002, Ng et al. 2001) inspired us to study the algorithm in the abstract, independently of its particular applications, trying to mathematically illuminate its behaviour. In the present paper we detail this theoretical analysis. The original work starts from the definition of a revised and more general version of the algorithm, which includes the classic one as a particular case. We perform an analysis of the structure of two particular matrices, essential to studying the behaviour of the algorithm, and we prove the convergence of the algorithm in the most general case, finding the analytic expression of the vectors to which it converges. Then we study the symmetry of the algorithm and prove the equivalence between the existence of symmetry and the independence from the order of execution of some basic operations on initial vectors. Finally, we expound some interesting consequences of our theoretical results.

Source

Advances in mathematical/formal methods in information retrieval. 8(2005) no.2 , S.219-243
Mostafa, J.: Bessere Suchmaschinen für das Web (2006) 0.02
```
0.019026045 = product of:
  0.04756511 = sum of:
    0.013235469 = weight(_text_:retrieval in 4871) [ClassicSimilarity], result of:
      0.013235469 = score(doc=4871,freq=4.0), product of:
        0.14001551 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.04628742 = queryNorm
        0.09452859 = fieldWeight in 4871, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.015625 = fieldNorm(doc=4871)
    0.03432964 = sum of:
      0.021787029 = weight(_text_:web in 4871) [ClassicSimilarity], result of:
        0.021787029 = score(doc=4871,freq=8.0), product of:
          0.15105948 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.04628742 = queryNorm
          0.14422815 = fieldWeight in 4871, product of:
            2.828427 = tf(freq=8.0), with freq of:
              8.0 = termFreq=8.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.015625 = fieldNorm(doc=4871)
      0.012542613 = weight(_text_:22 in 4871) [ClassicSimilarity], result of:
        0.012542613 = score(doc=4871,freq=2.0), product of:
          0.16209066 = queryWeight, product of:
            3.5018296 = idf(docFreq=3622, maxDocs=44218)
            0.04628742 = queryNorm
          0.07738023 = fieldWeight in 4871, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            3.5018296 = idf(docFreq=3622, maxDocs=44218)
            0.015625 = fieldNorm(doc=4871)
  0.4 = coord(2/5)
```
Content

"Seit wenigen Jahren haben Suchmaschinen die Recherche im Internet revolutioniert. Statt in Büchereien zu gehen, um dort mühsam etwas nachzuschlagen, erhalten wir die gewünschten Dokumente heute mit ein paar Tastaturanschlägen und Mausklicks. »Googeln«, nach dem Namen der weltweit dominierenden Suchmaschine, ist zum Synonym für die Online-Recherche geworden. Künftig werden verbesserte Suchmaschinen die gewünschten Informationen sogar noch zielsicherer aufspüren. Die neuen Programme dringen dazu tiefer in die Online-Materie ein. Sie sortieren und präsentieren ihre Ergebnisse besser, und zur Optimierung der Suche merken sie sich die persönlichen Präferenzen der Nutzer, die sie in vorherigen Anfragen ermittelt haben. Zudem erweitern sie den inhaltlichen Horizont, da sie mehr leisten, als nur eingetippte Schlüsselwörter zu verarbeiten. Einige der neuen Systeme berücksichtigen automatisch, an welchem Ort die Anfrage gestellt wurde. Dadurch kann beispielsweise ein PDA (Personal Digital Assistant) über seine Funknetzverbindung das nächstgelegene Restaurant ausfindig machen. Auch Bilder spüren die neuen Suchmaschinen besser auf, indem sie Vorlagen mit ähnlichen, bereits abgespeicherten Mustern vergleichen. Sie können sogar den Namen eines Musikstücks herausfinden, wenn man ihnen nur ein paar Takte daraus vorsummt. Heutige Suchmaschinen basieren auf den Erkenntnissen aus dem Bereich des information retrieval (Wiederfinden von Information), mit dem sich Computerwissenschaftler schon seit über 50 Jahren befassen. Bereits 1966 schrieb Ben Ami Lipetz im Scientific American einen Artikel über das »Speichern und Wiederfinden von Information«. Damalige Systeme konnten freilich nur einfache Routine- und Büroanfragen bewältigen. Lipetz zog den hellsichtigen Schluss, dass größere Durchbrüche im information retrieval erst dann erreichbar sind, wenn Forscher die Informationsverarbeitung im menschlichen Gehirn besser verstanden haben und diese Erkenntnisse auf Computer übertragen. Zwar können Computer dabei auch heute noch nicht mit Menschen mithalten, aber sie berücksichtigen bereits weit besser die persönlichen Interessen, Gewohnheiten und Bedürfnisse ihrer Nutzer. Bevor wir uns neuen Entwicklungen bei den Suchmaschinen zuwenden, ist es hilfreich, sich ein Bild davon zu machen, wie die bisherigen funktionieren: Was genau ist passiert, wenn »Google« auf dem Bildschirm meldet, es habe in 0,32 Sekunden einige Milliarden Dokumente durchsucht? Es würde wesentlich länger dauern, wenn dabei die Schlüsselwörter der Anfrage nacheinander mit den Inhalten all dieser Webseiten verglichen werden müssten. Um lange Suchzeiten zu vermeiden, führen die Suchmaschinen viele ihrer Kernoperationen bereits lange vor dem Zeitpunkt der Nutzeranfrage aus.
Viele digitale Inhalte können mit Suchmaschinen nicht erschlossen werden, weil die Systeme, die diese verwalten, Webseiten auf andere Weise speichern, als die Nutzer sie betrachten. Erst durch die Anfrage des Nutzers entsteht die jeweils aktuelle Webseite. Die typischen Webtrawler sind von solchen Seiten überfordert und können deren Inhalte nicht erschließen. Dadurch bleibt ein Großteil der Information - schätzungsweise 500-mal so viel wie das, was das konventionelle Web umfasst - für Anwender verborgen. Doch nun laufen Bemühungen, auch dieses »versteckte Web« ähnlich leicht durchsuchbar zu machen wie seinen bisher zugänglichen Teil. Zu diesem Zweck haben Programmierer eine neuartige Software entwickelt, so genannte Wrapper. Sie macht sich zu Nutze, dass online verfügbare Information standardisierte grammatikalische Strukturen enthält. Wrapper erledigen ihre Arbeit auf vielerlei Weise. Einige nutzen die gewöhnliche Syntax von Suchanfragen und die Standardformate der Online-Quellen, um auf versteckte Inhalte zuzugreifen. Andere verwenden so genannte ApplikationsprogrammSchnittstellen (APIs), die Software in die Lage versetzen, standardisierte Operationen und Befehle auszuführen. Ein Beispiel für ein Programm, das auf versteckte Netzinhalte zugreifen kann, ist der von BrightPlanet entwickelte »Deep Query Manager«. Dieser wrapperbasierte Anfragemanager stellt Portale und Suchmasken für mehr als 70 000 versteckte Webquellen bereit. Wenn ein System zur Erzeugung der Rangfolge Links oder Wörter nutzt, ohne dabei zu berücksichtigen, welche Seitentypen miteinander verglichen werden, besteht die Gefahr des Spoofing: Spaßvögel oder Übeltäter richten Webseiten mit geschickt gewählten Wörtern gezielt ein, um das Rangberechnungssystem in die Irre zu führen. Noch heute liefert die Anfrage nach »miserable failure« (»klägliches Versagen«) an erster Stelle eine offizielle Webseite des Weißen Hauses mit der Biografie von Präsident Bush.
Vorsortiert und radförmig präsentiert Statt einfach nur die gewichtete Ergebnisliste zu präsentieren (die relativ leicht durch Spoofing manipuliert werden kann), versuchen einige Suchmaschinen, unter denjenigen Webseiten, die am ehesten der Anfrage entsprechen, Ähnlichkeiten und Unterschiede zu finden und die Ergebnisse in Gruppen unterteilt darzustellen. Diese Muster können Wörter sein, Synonyme oder sogar übergeordnete Themenbereiche, die nach speziellen Regeln ermittelt werden. Solche Systeme ordnen jeder gefundenen Linkgruppe einen charakteristischen Begriff zu. Der Anwender kann die Suche dann weiter verfeinern, indem er eine Untergruppe von Ergebnissen auswählt. So liefern etwa die Suchmaschinen »Northern Light« (der Pionier auf diesem Gebiet) und »Clusty« nach Gruppen (Clustern) geordnete Ergebnisse. »Mooter«, eine innovative Suchmaschine, die ebenfalls diese Gruppiertechnik verwendet, stellt die Gruppen zudem grafisch dar (siehe Grafik links unten). Das System ordnet die UntergruppenButtons radförmig um einen zentralen Button an, der sämtliche Ergebnisse enthält. Ein Klick auf die UntergruppenButtons erzeugt Listen relevanter Links und zeigt neue, damit zusammenhängende Gruppen. Mooter erinnert sich daran, welche Untergruppen gewählt wurden. Noch genauere Ergebnisse erhält der Nutzer, wenn er die Verfeinerungsoption wählt: Sie kombiniert bei früheren Suchen ausgewählte Gruppen mit der aktuellen Anfrage. Ein ähnliches System, das ebenfalls visuelle Effekte nutzt, ist »Kartoo«. Es handelt sich dabei um eine so genannte Meta-Suchmaschine: Sie gibt die Nutzeranfragen an andere Suchmaschinen weiter und präsentiert die gesammelten Ergebnisse in grafischer Form. Kartoo liefert eine Liste von Schlüsselbegriffen von den unterschiedlichen Webseiten und generiert daraus eine »Landkarte«. Auf ihr werden wichtige Seiten als kons (Symbole) dargestellt und Bezüge zwischen den Seiten mit Labeln und Pfaden versehen. Jedes Label lässt sich zur weiteren Verfeinerung der Suche nutzen. Einige neue Computertools erweitern die Suche dadurch, dass sie nicht nur das Web durchforsten, sondern auch die Festplatte des eigenen Rechners. Zurzeit braucht man dafür noch eigenständige Programme. Aber Google hat beispielsweise kürzlich seine »Desktop Search« angekündigt, die zwei Funktionen kombiniert: Der Anwender kann angeben, ob das Internet, die Festplatte oder beides zusammen durchsucht werden soll. Die nächste Version von Microsoft Windows (Codename »Longhorn«) soll mit ähnlichen Fähigkeiten ausgestattet werden: Longhorn soll die implizite Suche beherrschen, bei der Anwender ohne Eingabe spezifischer Anfragen relevante Informationen auffinden können. (Dabei werden Techniken angewandt, die in einem anderen Microsoft-Projekt namens »Stuff I've seen« - »Sachen, die ich gesehen habe« - entwickelt wurden.) Bei der impliziten Suche werden Schlüsselwörter aus der Textinformation gewonnen, die der Anwender in jüngster Zeit auf dem Rechner verarbeitet oder verändert hat - etwa E-Mails oder Word-Dokumente -, um damit auf der Festplatte gespeicherte Informationen wiederzufinden. Möglicherweise wird Microsoft diese Suchfunktion auch auf Webseiten ausdehnen. Außerdem sollen Anwender auf dem Bildschirm gezeigte Textinhalte leichter in Suchanfragen umsetzen können." ...

Date

22. 1.2006 18:34:49

Search (222 results, page 1 of 12)

Authors

Years

Themes