Search (32 results, page 1 of 2)

Patalong, F.: Life after Google : II. Hilfreiche Geister (2002) 0.01
```
0.0074467086 = product of:
  0.06702038 = sum of:
    0.06702038 = sum of:
      0.022886856 = weight(_text_:web in 1163) [ClassicSimilarity], result of:
        0.022886856 = score(doc=1163,freq=14.0), product of:
          0.09596372 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.02940506 = queryNorm
          0.23849489 = fieldWeight in 1163, product of:
            3.7416575 = tf(freq=14.0), with freq of:
              14.0 = termFreq=14.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.01953125 = fieldNorm(doc=1163)
      0.044133525 = weight(_text_:seite in 1163) [ClassicSimilarity], result of:
        0.044133525 = score(doc=1163,freq=6.0), product of:
          0.16469958 = queryWeight, product of:
            5.601063 = idf(docFreq=443, maxDocs=44218)
            0.02940506 = queryNorm
          0.2679638 = fieldWeight in 1163, product of:
            2.4494898 = tf(freq=6.0), with freq of:
              6.0 = termFreq=6.0
            5.601063 = idf(docFreq=443, maxDocs=44218)
            0.01953125 = fieldNorm(doc=1163)
  0.11111111 = coord(1/9)
```
Content

"Wie war zu Köln es doch vordem / Mit Heinzelmännchen so bequem! / Denn, war man faul, - man legte sich / hin auf die Bank und pflegte sich! / Heut' wühlt man sich im Web so bunt / Aug und Zeigefinger wund / Nur kluge Surfer sagen sich / Mein Roboter tut das für mich! August Kopisch (1799 bis 1853, hier leicht "upgedated") wusste, was Menschen sich wünschen: Mehr als alles andere die Befreiung von der lästigen Routine des Alltags. Für die sorgten dereinst zu Köln die Heinzelmännchen, heute muss im Web der Bot herhalten. Und siehe da. Auch der erleichtert das Surfer-Leben ganz ungemein. Da ist es eigentlich verwunderlich, dass dienstbare Geister, die Routine-Suchanfragen verkürzen oder verbessern, von so verhältnismäßig wenigen Surfern eingesetzt werden. Wozu soll ein Bot gut sein? Bots gibt es viele. Im Internet versteht man unter dem Kurzwort für Robot ganz allgemein ein Dienstprogramm, das dem Surfer Aufgaben abnimmt und für ihn erledigt. Das können Bots sein, die ständig für die Wahrnehmung einer Website bei Suchmaschinen sorgen, jeden Morgen ein vordefiniertes Sample von Schlagzeilen aus festgelegten Medien zusammentragen oder aber die Rechercheanfragen des Surfers gleich bei einer ganzen Reihe von Suchdiensten abliefern, die Ergebnisse einsammeln, auf einer Html-Seite darstellen und am Ende dann noch die wirklich guten unter ihnen archivieren. Das macht Sinn und schafft Ordnung: Viele Suchanfragen stellt man immer wieder; sei es, weil man beruflich in einem bestimmten Themenfeld unterwegs ist; sei es, weil man sich nach Monaten zwar an eine tolle Website, aber nicht an ihre Adresse erinnert. Dagegen helfen natürlich auch Bookmarks, aber deren sinnvolle Verwaltung will auch erst einmal gelernt sein. Das Tolle an Bots, die auch gleich die Recherche-Archivierung mit erledigen, ist, dass sie ihre Ergebnisse immer im Kontext einer Suchintention darstellen - und zwar nach Relevanz gewichtet. Das hat was. Praktisches Beispiel: Copernic Marktführer in diesem Bereich ist seit Jahren der Software-Client Copernic , dessen Schnupperversion "Basic" nach wie vor kostenlos zu haben ist, während die kostenpflichtige (und weit leistungsfähigere) Vollversion leider immer teurer wird. Vor zwei Jahren war das Programm für rund 20 Dollar zu haben, heute kostet es schon 60 Dollar, die Erhöhung auf 80 Dollar ist bereits angekündigt: Wenn der Satz "Was nichts kostet, taugt nichts" einen Umkehrschluss erlaubt, dann muss sich Copernic seinen heutigen Wert wohl irgendwie verdient haben. Was also bietet so ein Bot? Selbst in der kostenlosen Version schon eine ganze Menge. Da funktioniert Copernic zunächst einmal wie eine Metasuchmaschine: Das Programm leitet eine Suchanfrage an eine Reihe von Suchmaschinen weiter, sammelt Ergebnisse und gewichtet sie. Doppler löscht das Programm, ebenso "zerschossene" Links, denn die prüft das Programm gleich mit, und am Ende steht da eine als Web-Seite aufbereitete Ergebnisliste, die unter dem Stichwort der Suchanfrage auch gleich archiviert bleibt. Und mehr: Copernic fügt in die Darstellung der gefundenen Webseiten "Textmarker" ein, um die Fundorte der Such-Stichworte zu kennzeichnen. Eine Verfeinerung der Suche ist auch über die weitergehende Einengung der Suchbegriffe bei gleichzeitiger Begrenzung der Suche auf die bereits gefundenen Webseiten möglich: Das ist eine Art teilmanuelle, aber hochgradig individuelle Relevanz-Abwägung, ohne gleich alle Texte querlesen zu müssen. In der kostenpflichtigen Vollversion sucht Copernic in einer Unzahl von Datenbanken, Searchengines, bei Shops und auf Unternehmenswebsites, in Archiven und Newsangeboten. Viele der mit einem solchen Bot möglichen Recherchen wären unter Einsatz von Searchengines nur sehr schwer zu leisten.
Ordnung ist die halbe Suche. Gut, wenn man sie selbst nicht halten muss Doch damit ist das Heinzelmännchen noch lang nicht fertig. Das kostenpflichtige "Pro"-Programm verfügt auch über Sammel- und Monitoringfunktionen: Man kann den Bot beauftragen, regelmäßig bestimmte Inhalte zusammenzusuchen. Man kann ihn anweisen, bestimmte Webseiten zu beobachten und immer dann Laut zu geben, wenn sich dort etwas Neues tut: Ein ideales Tool beispielsweise zur Konkurrenzbeobachtung. Wer will, kann sich neben zahlreichen Standard-Suchportfolios auch eigene Suchprofile aus verschiedenen Quellen zusammenstellen. Im Auftrag des Users würde Copernic dann beispielsweise jeden Tag um 12.00 Uhr die Technik-News von Heise, Chip und SPIEGEL ONLINE auf einer Übersichtsseite zusammentragen. Alternativen: Bingooo, BullsEye und Co. Das kostenlose Programm Bingooo kann es zumindest mit der Schnupperversion von Copernic aufnehmen. Die deutsche Entwicklung gewann im Laufe des letzten Jahres einen wachsenden Fankreis: Faktisch kann Bingooo leicht mehr als die kostenlose Copernic-Version, arbeitet die Resultate aber nicht ganz so gut auf. Auch das Handling der Software wirkt im Vergleich mit der inzwischen im Windows-XP-ähnlichen Bonbon-Design daherkommenden, sehr klar strukturierten Copernic-Oberfläche kompliziert. Bingooo gilt selbst Fans darum als Chaos-Client mit viel Kraft. Als Trumpf kann Bingooo aber mit einem Pfund wuchern, das die Konkurrenz nicht zu bieten hat: Der Bot vermag auch auf Festplatten und in Firmennetzen zu suchen. Als viel versprechender Newcomer gilt auch BullsEye , das sich anschickt, Copernic echte Konkurrenz zu machen. Das Programm, zumal in seiner Profi-Version, lässt keine Wünsche übrig, kostet dann aber auch satte 199 Dollar. Schnuppern und probieren ist erlaubt, die Nutzung aber nur für 15 Tage kostenfrei. Wo gibt es Bots? Dabei gibt es teils Gutes, teils Bewährtes für Null bis wenig Dollar im Web: WebFerret etwa gehörte einmal zur Top-Klasse. Der Metasucher mit dem niedlichen Logo bietet solide Technik und das Standardprogramm, das man auch von Metaengines erwartet. Dafür ist er bequem und einfach zu handhaben: der Rest wird dann zur Geschmackssache. Für alltägliche, nicht sonderlich spezialisierte Suchen immer noch eine brauchbare Möglichkeit. Neben solchen allgemeinen Suchwerkzeugen gibt es auch einige ganz spezielle Entwicklungen. LexiBot etwa verspricht, gezielt das so genannte "Deep Web" inklusive der schwer zugänglichen Datenbanken zu erschließen. Das kostet dann allerdings auch schon wieder 289 Dollar für eine Lizenz. Einen ganzen Strauß kostenfreier wie kostenpflichtiger "Search Tools" verzeichnet wieder Searchenginewatch , das sich einmal mehr als nützliche und aktuell informierte Seite erweist. Die meisten der Entwicklerfirmen bieten über ihre Websites Downloadmöglichkeiten, schneller geht es oft über Download.com: Einfach den Namen der entsprechenden Software eingeben, schon ist man da.
Fazit Searchbots sind hochgradig nützliche Werkzeuge für Menschen, die entweder oft und viel, oder einfach gern systematisch im Internet suchen. Ihre besondere Stärke liegt in den Archivfunktionen der Bots: Es ist überraschend, wie oft man auf "alte" Recherchen zurückgreift. Anders als bei Bookmarks überprüfen die wirklich guten Bots zudem ständig die Validität der Links. "Verschwindet" etwas aus dem Web, warnen sie das an - und löschen den entsprechenden Vermerk. Grundsätzlich lässt sich sagen, dass solche Bots all das können, was gute Metasearcher zu bieten haben - plus einiger unterschiedlicher Bonbons für den Nutzer. Wer sich den Umgang mit Bots einmal angewöhnt, will in der Regel auch nicht mehr darauf verzichten. Ansonsten gilt wie immer: Probieren geht über studieren. "Jeder Jeck", sagt man in Köln, "ist anders", und das gilt auch für Surfer: Den richtigen Bot für alle gibt es nicht. Aber für jeden gibt es einen richtigen. Im dritten Teil des Web-Wanderführers "Life after Google" : Suchen und finden kann man auch ganz anders. In aller Welt arbeiten die Entwickler an neuen Suchmethoden, vieles ist "in Beta" schon zu sehen. Ein Ausblick: Wie könnten sie aussehen, die Suchmaschinen der nächsten Generation - und was lässt sich schon nutzen?"
Körber, S.: Suchmuster erfahrener und unerfahrener Suchmaschinennutzer im deutschsprachigen World Wide Web (2000) 0.01
```
0.007193505 = product of:
  0.064741544 = sum of:
    0.064741544 = sum of:
      0.023972742 = weight(_text_:web in 5938) [ClassicSimilarity], result of:
        0.023972742 = score(doc=5938,freq=6.0), product of:
          0.09596372 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.02940506 = queryNorm
          0.24981049 = fieldWeight in 5938, product of:
            2.4494898 = tf(freq=6.0), with freq of:
              6.0 = termFreq=6.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.03125 = fieldNorm(doc=5938)
      0.040768802 = weight(_text_:seite in 5938) [ClassicSimilarity], result of:
        0.040768802 = score(doc=5938,freq=2.0), product of:
          0.16469958 = queryWeight, product of:
            5.601063 = idf(docFreq=443, maxDocs=44218)
            0.02940506 = queryNorm
          0.24753433 = fieldWeight in 5938, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            5.601063 = idf(docFreq=443, maxDocs=44218)
            0.03125 = fieldNorm(doc=5938)
  0.11111111 = coord(1/9)
```
Abstract

In einem Labor-Experiment wurden insgesamt achtzehn Studenten und Studentinnen mit zwei offenen Web-Rechercheaufgaben konfrontiert. Während deren Bewältigung mit einer Suchmaschine wurden sie per Proxy-Logfile-Protokollierung verdeckt beobachtet. Sie machten demographische und ihre Webnutzungs-Gewohnheiten betreffende Angaben, bewerteten Aufgaben-, Performance- und Suchmaschinen-Eigenschaften in Fragebögen und stellten sich einem Multiple-Choice-Test zu ihrem Wissen über Suchmaschinen. Die Versuchspersonen wurden gezielt angeworben und eingeteilt: in eine erfahrene und eine unerfahrene Untergruppe mit je neun Teilnehmern. Die Untersuchung beruht auf dem Vergleich der beiden Gruppen: Im Zentrum stehen dabei die Lesezeichen, die sie als Lösungen ablegten, ihre Einschätzungen aus den Fragebögen, ihre Suchphrasen sowie die Muster ihrer Suchmaschinen-Interaktion und Navigation in Zielseiten. Diese aus den Logfiles gewonnen sequentiellen Aktionsmuster wurden vergleichend visualisiert, ausgezählt und interpretiert. Zunächst wird das World Wide Web als strukturell und inhaltlich komplexer Informationsraum beschrieben. Daraufhin beleuchtet der Autor die allgemeinen Aufgaben und Typen von Meta-Medienanwendungen, sowie die Komponenten Index-basierter Suchmaschinen. Im Anschluß daran wechselt die Perspektive von der strukturell-medialen Seite hin zu Nutzungsaspekten. Der Autor beschreibt Nutzung von Meta-Medienanwendungen als Ko-Selektion zwischen Nutzer und Suchmaschine auf der Basis von Entscheidungen und entwickelt ein einfaches, dynamisches Phasenmodell. Der Einfluß unterschiedlicher Wissensarten auf den Selektionsprozeß findet hier Beachtung.Darauf aufbauend werden im folgenden Schritt allgemeine Forschungsfragen und Hypothesen für das Experiment formuliert. Dessen Eigenschaften sind das anschließende Thema, wobei das Beobachtungsinstrument Logfile-Analyse, die Wahl des Suchdienstes, die Formulierung der Aufgaben, Ausarbeitung der Fragebögen und der Ablauf im Zentrum stehen. Im folgenden präsentiert der Autor die Ergebnisse in drei Schwerpunkten: erstens in bezug auf die Performance - was die Prüfung der Hypothesen erlaubt - zweitens in bezug auf die Bewertungen, Kommentare und Suchphrasen der Versuchspersonen und drittens in bezug auf die visuelle und rechnerische Auswertung der Suchmuster. Letztere erlauben einen Einblick in das Suchverhalten der Versuchspersonen. Zusammenfassende Interpretationen und ein Ausblick schließen die Arbeit ab
Talbot, D.: Durchblick im Infodschungel (2009) 0.01
```
0.0059764567 = product of:
  0.05378811 = sum of:
    0.05378811 = sum of:
      0.023211509 = weight(_text_:web in 2865) [ClassicSimilarity], result of:
        0.023211509 = score(doc=2865,freq=10.0), product of:
          0.09596372 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.02940506 = queryNorm
          0.24187797 = fieldWeight in 2865, product of:
            3.1622777 = tf(freq=10.0), with freq of:
              10.0 = termFreq=10.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.0234375 = fieldNorm(doc=2865)
      0.030576602 = weight(_text_:seite in 2865) [ClassicSimilarity], result of:
        0.030576602 = score(doc=2865,freq=2.0), product of:
          0.16469958 = queryWeight, product of:
            5.601063 = idf(docFreq=443, maxDocs=44218)
            0.02940506 = queryNorm
          0.18565075 = fieldWeight in 2865, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            5.601063 = idf(docFreq=443, maxDocs=44218)
            0.0234375 = fieldNorm(doc=2865)
  0.11111111 = coord(1/9)
```
Content

"Wissenschaftler an der University of Washington haben eine neue Suchmaschinen-Engine geschrieben, die Zusammenhänge und Fakten aus mehr als 500 Millionen einzelner Web-Seiten zusammentragen kann. Das Werkzeug extrahiert dabei Informationen aus Milliarden von Textzeilen, indem die grundlegenden sprachlichen Beziehungen zwischen Wörtern analysiert werden. Experten glauben, dass solche Systeme zur automatischen Informationsgewinnung eines Tages die Grundlage deutlich smarterer Suchmaschinen bilden werden, als sie heute verfügbar sind. Dazu werden die wichtigsten Datenhappen zunächst von einem Algorithmus intern begutachtet und dann intelligent kombiniert. Das Projekt US-Forscher stellt eine deutliche Ausweitung einer zuvor an der gleichen Hochschule entwickelten Technik namens TextRunner dar. Sowohl die Anzahl analysierbarer Seiten als auch die Themengebiete wurden dabei stark erweitert. "TextRunner ist deshalb so bedeutsam, weil es skaliert, ohne dass dabei ein Mensch eingreifen müsste", sagt Peter Norvig, Forschungsdirektor bei Google. Der Internet-Konzern spendete dem Projekt die riesige Datenbank aus einzelnen Web-Seiten, die TextRunner analysiert. "Das System kann Millionen von Beziehungen erkennen und erlernen - und zwar nicht nur jede einzeln. Einen Betreuer braucht die Software nicht, die Informationen werden selbständig ermittelt." Damit unterscheidet sich der Ansatz von anderen semantischen Systemen, die die Hilfe ihrer Programmierer benötigen. Um beispielsweise aus Millionen von Dokumenten die Namen von Personen zu ermitteln, die als Geschäftsführer arbeiten, müsste eine solche Suchmaschine erst trainiert werden - etwa, in der man ihr beibringt, dass Steve Jobs der CEO von Apple, Steve Ballmer der von Microsoft ist. Bei TextRunner sei das nun nicht mehr nötig. (Google arbeitet an ähnlichen Ideen und setzt die Technik bereits im kleineren Maßstab ein.) TextRunners Algorithmen sorgen dafür, dass nicht mehr manuell eingegriffen werden muss. Ein Nutzer kann beispielsweise "tötet Bakterien" eingeben und die Suchmaschine spuckt Seiten aus, die Fakten nennen wie "Chlor tötet Bakterien", "ultraviolettes Licht tötet Bakterien" oder "Hitze tötet Bakterien". Diese von den Forschern als Dreiergruppen bezeichneten Ergebnisse lassen sich dann in einer Vorschau begutachten, bevor man die eigentliche Website betritt.
Der Prototyp von TextRunner bietet noch eine eher karge Benutzerschnittstelle - er ist auch weniger für die Öffentlichkeit als Suchhilfe gedacht denn als Demonstrator, wie es gelingen kann, Informationen aus 500 Millionen Web-Seiten automatisch zu extrahieren. Oren Etzioni, Computerwissenschaftler und Leiter des Projekts, ist stolz auf das Ergebnis: "Was wir hier zeigen, ist die Fähigkeit einer Software, ein rudimentäres Textverständnis zu erzielen - und zwar in einem Maßstab und einer Ausdehnung, die es bislang noch nie gab." Die Fähigkeit, Inhalte und Bedeutungen schnell zu erkennen, entstammt einem Grundmodell von Wortbeziehungen in der englischen Sprache, das Etzioni und sein Team entwickelt haben. Es funktioniert bei nahezu jedem Thema. "Beispielsweise deckt das einfache Muster "Einheit 1, Verb, Einheit 2" den Satz "Edison erfand die Glühbirne" genauso ab wie "Microsoft kaufte Farecast" - und viele andere Satzmodelle auch." TextRunner nutze nun dieses Schablone, um automatisch aus Texten zu lernen, Sätze zu analysieren und solche Dreiergruppen mit hoher Genauigkeit zu erkennen. Die Software besitzt auch Elemente, um aus Anfragen in natürlicher Sprache einen Sinnzusammenhang abzuleiten. Daran arbeiten Etzioni und sein Team gerade. Findet das System dann beispielsweise eine Seite, auf der steht, dass Säugetiere Warmblüter sind und eine andere, auf der zu lesen ist, dass Hunde Säugetiere sind, kann es daraus schließen, dass Hunde vermutlich als Warmblüter herumlaufen. Der Ansatz ähnelt der Technik hinter dem semantischen Suchspezialisten Powerset, den Microsoft im vergangenen Jahr erworben hat. Kurz vor dem Aufkauf legte die Firma ein Werkzeug vor, das solche Fakten aus immerhin rund zwei Millionen Wikipedia-Seiten extrahieren konnte. TextRunner kann nun aber mit Wikipedia genauso umgehen wie mit jedem anderen Angebot, seien es nun Blog-Einträge, Produktkataloge oder Zeitungsartikel. Jon Kleinberg, IT-Forscher der Cornell University, der die University of Washington-Studie kennt, findet, dass das TextRunner-Projekt besonders bei der Skalierung einen großen Fortschritt bedeute. "Die Arbeit steht für einen wachsenden Trend hin zur Schaffung von Suchwerkzeugen, die Teilinformationen, die sie im Web finden, aktiv in einen größeren Zusammenhang bringen.""

Footnote

Vgl. auch: http://www.heise.de/newsticker/Semantische-Suche-ueber-500-Millionen-Web-Dokumente--/meldung/140630.
Boldi, P.; Santini, M.; Vigna, S.: PageRank as a function of the damping factor (2005) 0.00
```
0.004931886 = product of:
  0.022193488 = sum of:
    0.012233539 = product of:
      0.024467077 = sum of:
        0.024467077 = weight(_text_:web in 2564) [ClassicSimilarity], result of:
          0.024467077 = score(doc=2564,freq=4.0), product of:
            0.09596372 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.02940506 = queryNorm
            0.25496176 = fieldWeight in 2564, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.0390625 = fieldNorm(doc=2564)
      0.5 = coord(1/2)
    0.009959949 = product of:
      0.019919898 = sum of:
        0.019919898 = weight(_text_:22 in 2564) [ClassicSimilarity], result of:
          0.019919898 = score(doc=2564,freq=2.0), product of:
            0.10297151 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.02940506 = queryNorm
            0.19345059 = fieldWeight in 2564, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0390625 = fieldNorm(doc=2564)
      0.5 = coord(1/2)
  0.22222222 = coord(2/9)
```
Abstract

PageRank is defined as the stationary state of a Markov chain. The chain is obtained by perturbing the transition matrix induced by a web graph with a damping factor alpha that spreads uniformly part of the rank. The choice of alpha is eminently empirical, and in most cases the original suggestion alpha=0.85 by Brin and Page is still used. Recently, however, the behaviour of PageRank with respect to changes in alpha was discovered to be useful in link-spam detection. Moreover, an analytical justification of the value chosen for alpha is still missing. In this paper, we give the first mathematical analysis of PageRank when alpha changes. In particular, we show that, contrarily to popular belief, for real-world graphs values of alpha close to 1 do not give a more meaningful ranking. Then, we give closed-form formulae for PageRank derivatives of any order, and an extension of the Power Method that approximates them with convergence O(t**k*alpha**t) for the k-th derivative. Finally, we show a tight connection between iterated computation and analytical behaviour by proving that the k-th iteration of the Power Method gives exactly the PageRank value obtained using a Maclaurin polynomial of degree k. The latter result paves the way towards the application of analytical methods to the study of PageRank.

Date

16. 1.2016 10:22:28

Source

http://vigna.di.unimi.it/ftp/papers/PageRankAsFunction.pdf [Proceedings of the ACM World Wide Web Conference (WWW), 2005]
Baeza-Yates, R.; Boldi, P.; Castillo, C.: Generalizing PageRank : damping functions for linkbased ranking algorithms (2006) 0.00
```
0.004135637 = product of:
  0.018610368 = sum of:
    0.008650418 = product of:
      0.017300837 = sum of:
        0.017300837 = weight(_text_:web in 2565) [ClassicSimilarity], result of:
          0.017300837 = score(doc=2565,freq=2.0), product of:
            0.09596372 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.02940506 = queryNorm
            0.18028519 = fieldWeight in 2565, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.0390625 = fieldNorm(doc=2565)
      0.5 = coord(1/2)
    0.009959949 = product of:
      0.019919898 = sum of:
        0.019919898 = weight(_text_:22 in 2565) [ClassicSimilarity], result of:
          0.019919898 = score(doc=2565,freq=2.0), product of:
            0.10297151 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.02940506 = queryNorm
            0.19345059 = fieldWeight in 2565, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0390625 = fieldNorm(doc=2565)
      0.5 = coord(1/2)
  0.22222222 = coord(2/9)
```
Abstract

This paper introduces a family of link-based ranking algorithms that propagate page importance through links. In these algorithms there is a damping function that decreases with distance, so a direct link implies more endorsement than a link through a long path. PageRank is the most widely known ranking function of this family. The main objective of this paper is to determine whether this family of ranking techniques has some interest per se, and how different choices for the damping function impact on rank quality and on convergence speed. Even though our results suggest that PageRank can be approximated with other simpler forms of rankings that may be computed more efficiently, our focus is of more speculative nature, in that it aims at separating the kernel of PageRank, that is, link-based importance propagation, from the way propagation decays over paths. We focus on three damping functions, having linear, exponential, and hyperbolic decay on the lengths of the paths. The exponential decay corresponds to PageRank, and the other functions are new. Our presentation includes algorithms, analysis, comparisons and experiments that study their behavior under different parameters in real Web graph data. Among other results, we show how to calculate a linear approximation that induces a page ordering that is almost identical to PageRank's using a fixed small number of iterations; comparisons were performed using Kendall's tau on large domain datasets.

Date

16. 1.2016 10:22:28
Schulzki-Haddouti, C.: Mit Google durchs WWW : Was die immer populärer werdende Suchmaschine vom Rest der Welt unterscheidet (2001) 0.00
```
0.0040038745 = product of:
  0.03603487 = sum of:
    0.03603487 = product of:
      0.07206974 = sum of:
        0.07206974 = weight(_text_:seite in 529) [ClassicSimilarity], result of:
          0.07206974 = score(doc=529,freq=4.0), product of:
            0.16469958 = queryWeight, product of:
              5.601063 = idf(docFreq=443, maxDocs=44218)
              0.02940506 = queryNorm
            0.43758303 = fieldWeight in 529, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              5.601063 = idf(docFreq=443, maxDocs=44218)
              0.0390625 = fieldNorm(doc=529)
      0.5 = coord(1/2)
  0.11111111 = coord(1/9)
```
Abstract

Eine kleine, unscheinbare Suchmaschine hat sich in wenigen Monaten vom Geheimtipp zum Renner entwickelt: Google. Mitte Februar landete Google einen Coup: Es übernahm das Usenet-Archiv von Deja.com. Nicht erst damit ist Google die größte und intelligenteste Suchmaschine. Bis auf das Eingabefeld und das Google-Logo ist nichts zu sehen. Keine Kataloge, keine Nachrichten, kein Übersetzungsdienst, keine Werbung - kein Portal. Google kennt nur eins: Das Suchen von Informationen. Erstaunlich für den Erstnutzer: Oft stehen die relevanten Ergebnisse an erster Stelle. Google arbeitet mit einer ganzen Reihe von Tricks, um seine Nutzer nicht zu frustrieren. Sein Haupttrick: Es bewertet die Webseiten als wichtig, auf die viele andere Webseiten verweisen. Die Seite, auf die am häufigsten verwiesen wird, steht ganz oben. Auf diese Weise macht Google auch Nachbarschaften aus: Als "ähnliche Seite" von Telepolis findet man zum Beispiel c'theory. In der Nachbarschaft des Handelsblatts hingegen findet man andere Wirtschaftszeitungen und -magazine. Entwickelt wurde Google vom Computeringenieur Lawrence Page und dem Mathematiker Sergey Brin. Sie lernten sich an der Stanford University kennen, wo sie "einen Prototypen für eine umfassende Suchmaschine" entwickelten. Der Prototyp mit 24 Millionen Seiten samt Hyperlink-Datenbank war 1997 zunächst auf einem Server der Stanford-Universität zu bewundern. Heute ist Google eine florierende Firma. Rund 40 der 200 Mitarbeiter von Google haben einen Doktortitel, die Hälfte ist im Software-Engineering tätig
Sander-Beuermann, W.: Schürfrechte im Informationszeitalter : Google hin, Microsoft her v das Internet braucht eine freie Suchkultur (2005) 0.00
```
0.003792324 = product of:
  0.034130916 = sum of:
    0.034130916 = sum of:
      0.008650418 = weight(_text_:web in 3245) [ClassicSimilarity], result of:
        0.008650418 = score(doc=3245,freq=2.0), product of:
          0.09596372 = queryWeight, product of:
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.02940506 = queryNorm
          0.09014259 = fieldWeight in 3245, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            3.2635105 = idf(docFreq=4597, maxDocs=44218)
            0.01953125 = fieldNorm(doc=3245)
      0.0254805 = weight(_text_:seite in 3245) [ClassicSimilarity], result of:
        0.0254805 = score(doc=3245,freq=2.0), product of:
          0.16469958 = queryWeight, product of:
            5.601063 = idf(docFreq=443, maxDocs=44218)
            0.02940506 = queryNorm
          0.15470895 = fieldWeight in 3245, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            5.601063 = idf(docFreq=443, maxDocs=44218)
            0.01953125 = fieldNorm(doc=3245)
  0.11111111 = coord(1/9)
```
Content

Suchmaschinen-Monopolisten können bestimmen oder kontrollieren, welche Information wann und auf welchen Rechnern verfügbar ist, und in welcher Reihenfolge die Ergebnisse angezeigt werden. Durch Beobachtung der Abrufe können die Unternehmen genaue Profile ihrer Nutzer erstellen. Um die Vormacht der kommerziellen Wissenswächter zu brechen, bedarf es einer freien Suchkultur - so wie das offene Betriebssystem Linux die Welt vor einer reinen Windows-Monokultur bewahrt hat. Immerhin scheint man auch auf staatlicher Seite das Problem des "Information Overkill" erkannt zu haben. Die öffentliche Hand fördert zahlreiche Projekte, die Ordnung in den Datenwust bringen wollen. Doch die meisten davon sind mehr visionär als realistisch. Vom einst so gefeierten "Semantic Web" etwa ist auch nach Jahren kaum Handfestes zu sehen. Kein Wunder: Solche Vorhaben setzen voraus, dass die Daten zunächst eingesammelt und suchgerecht indiziert werden. Mangels freier Software fehlt diese Voraussetzung. Was also ist nötig, um im Informationszeitalter die freie Verfügbarkeit der Ressourcen sicherzustellen? Die Antwort ist die gleiche wie einst für Kohle, Eisen und Öl: eine Vielfalt von Anbietern. Der beste Weg dorthin führt über freie Suchmaschinen-Software, auf welche die Betreiber solcher Maschinen zurückgreifen können. Dann entstünde ganz von selbst ein offener und dynamischer Wettbewerb. Freie Suchmaschinen-Software ist jedoch sehr rar. Es gibt Ansätze dazu in Russland und ein einziges Projekt in den USA (nutch.org). Auch Europa ist weitgehend Ödnis - bis auf den Lichtblick Yacy, ein Vorhaben des Frankfurter Softwarespezialisten Michael Christen. Yacy ist meines Wissen der weltweit einzige proof-of-concept einer strikt dezentralen Peer-to-Peer-Suchmaschine (suma-lab.de:8080"). Um die Suchmaschinen-Landschaft zu beleben, haben nun 13 Forscher, Politiker und Unternehmer den "Gemeinnützigen Verein zur Förderung der Suchmaschinen-Technologie und des freien Wissenszugangs" (kurz: SuMa-eV, suma-ev.de) mit Sitz in Hannover gegründet. Zu den Gründungsmitgliedern gehören der MP3-Erfinder Karlheinz Brandenburg, der Vizepräsident für Forschung der Universität Hannover Wolfgang Ertmer und ich selbst. Ziel des SuMa-eV ist die Etablierung einer auf möglichst viele autarke Systeme verteilten Suchmaschinen-Infrastruktur, die von ihrem Bauprinzip her kaum monopolisierbar ist. Der Kerngedanke dieser Struktur, die sich aus sehr vielen und sehr unterschiedlichen Bausteinen zusammensetzen kann, liegt in der Autarkie der Einzelsysteme: gesellschaftlicher Pluralismus wird netztopologisch abgebildet. Eigentlich wäre es im Interesse und in der Macht des Staats, die Meinungsvielfalt im Netz besser zu sichern. Während er - abgesehen von ein paar hellhörigen Parlamentariern - noch träumerische Visionen pflegt, müssen Initiativen wie SuMa-eV einspringen."

Broder, A.; Kumar, R.; Maghoul, F.; Raghavan, P.; Rajagopalan, S.; Stata, R.; Tomkins, A.; Wiener, J.: Graph structure in the Web (2000) 0.00

0.0034387421 = product of:
  0.030948678 = sum of:
    0.030948678 = product of:
      0.061897356 = sum of:
        0.061897356 = weight(_text_:web in 5595) [ClassicSimilarity], result of:
          0.061897356 = score(doc=5595,freq=10.0), product of:
            0.09596372 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.02940506 = queryNorm
            0.6450079 = fieldWeight in 5595, product of:
              3.1622777 = tf(freq=10.0), with freq of:
                10.0 = termFreq=10.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.0625 = fieldNorm(doc=5595)
      0.5 = coord(1/2)
  0.11111111 = coord(1/9)

Abstract: The study of the web as a graph is not only fascinating in its own right, but also yields valuable insight into web algorithms for crawling, searching and community discovery, and the sociological phenomena which characterize its evolution. We report on experiments on local and global properties of the web graph using two Altavista crawls each with over 200M pages and 1.5 billion links. Our study indicates that the macroscopic structure of the web is considerably more intricate than suggested by earlier experiments on a smaller scale

Radhakrishnan, A.: Swoogle : an engine for the Semantic Web (2007) 0.00
```
0.0031703631 = product of:
  0.028533269 = sum of:
    0.028533269 = product of:
      0.057066537 = sum of:
        0.057066537 = weight(_text_:web in 4709) [ClassicSimilarity], result of:
          0.057066537 = score(doc=4709,freq=34.0), product of:
            0.09596372 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.02940506 = queryNorm
            0.59466785 = fieldWeight in 4709, product of:
              5.8309517 = tf(freq=34.0), with freq of:
                34.0 = termFreq=34.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.03125 = fieldNorm(doc=4709)
      0.5 = coord(1/2)
  0.11111111 = coord(1/9)
```
Content

"Swoogle, the Semantic web search engine, is a research project carried out by the ebiquity research group in the Computer Science and Electrical Engineering Department at the University of Maryland. It's an engine tailored towards finding documents on the semantic web. The whole research paper is available here. Semantic web is touted as the next generation of online content representation where the web documents are represented in a language that is not only easy for humans but is machine readable (easing the integration of data as never thought possible) as well. And the main elements of the semantic web include data model description formats such as Resource Description Framework (RDF), a variety of data interchange formats (e.g. RDF/XML, Turtle, N-Triples), and notations such as RDF Schema (RDFS), the Web Ontology Language (OWL), all of which are intended to provide a formal description of concepts, terms, and relationships within a given knowledge domain (Wikipedia). And Swoogle is an attempt to mine and index this new set of web documents. The engine performs crawling of semantic documents like most web search engines and the search is available as web service too. The engine is primarily written in Java with the PHP used for the front-end and MySQL for database. Swoogle is capable of searching over 10,000 ontologies and indexes more that 1.3 million web documents. It also computes the importance of a Semantic Web document. The techniques used for indexing are the more google-type page ranking and also mining the documents for inter-relationships that are the basis for the semantic web. For more information on how the RDF framework can be used to relate documents, read the link here. Being a research project, and with a non-commercial motive, there is not much hype around Swoogle. However, the approach to indexing of Semantic web documents is an approach that most engines will have to take at some point of time. When the Internet debuted, there were no specific engines available for indexing or searching. The Search domain only picked up as more and more content became available. One fundamental question that I've always wondered about it is - provided that the search engines return very relevant results for a query - how to ascertain that the documents are indeed the most relevant ones available. There is always an inherent delay in indexing of document. Its here that the new semantic documents search engines can close delay. Experimenting with the concept of Search in the semantic web can only bore well for the future of search technology."

Source

http://www.searchenginejournal.com/swoogle-an-engine-for-the-semantic-web/5469/

Theme

Semantic Web

Spink, A.; Gunar, O.: E-Commerce Web queries : Excite and AskJeeves study (2001) 0.00

0.0030757042 = product of:
  0.027681338 = sum of:
    0.027681338 = product of:
      0.055362675 = sum of:
        0.055362675 = weight(_text_:web in 910) [ClassicSimilarity], result of:
          0.055362675 = score(doc=910,freq=2.0), product of:
            0.09596372 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.02940506 = queryNorm
            0.5769126 = fieldWeight in 910, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.125 = fieldNorm(doc=910)
      0.5 = coord(1/2)
  0.11111111 = coord(1/9)

Gerhart, S.L.: Do Web search engines suppress controversy? : Simulating the exchange process (2004) 0.00

0.0030757042 = product of:
  0.027681338 = sum of:
    0.027681338 = product of:
      0.055362675 = sum of:
        0.055362675 = weight(_text_:web in 8164) [ClassicSimilarity], result of:
          0.055362675 = score(doc=8164,freq=2.0), product of:
            0.09596372 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.02940506 = queryNorm
            0.5769126 = fieldWeight in 8164, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.125 = fieldNorm(doc=8164)
      0.5 = coord(1/2)
  0.11111111 = coord(1/9)

Ding, L.; Finin, T.; Joshi, A.; Peng, Y.; Cost, R.S.; Sachs, J.; Pan, R.; Reddivari, P.; Doshi, V.: Swoogle : a Semantic Web search and metadata engine (2004) 0.00
```
0.0030515809 = product of:
  0.027464228 = sum of:
    0.027464228 = product of:
      0.054928456 = sum of:
        0.054928456 = weight(_text_:web in 4704) [ClassicSimilarity], result of:
          0.054928456 = score(doc=4704,freq=14.0), product of:
            0.09596372 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.02940506 = queryNorm
            0.57238775 = fieldWeight in 4704, product of:
              3.7416575 = tf(freq=14.0), with freq of:
                14.0 = termFreq=14.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.046875 = fieldNorm(doc=4704)
      0.5 = coord(1/2)
  0.11111111 = coord(1/9)
```
Abstract

Swoogle is a crawler-based indexing and retrieval system for the Semantic Web, i.e., for Web documents in RDF or OWL. It extracts metadata for each discovered document, and computes relations between documents. Discovered documents are also indexed by an information retrieval system which can use either character N-Gram or URIrefs as keywords to find relevant documents and to compute the similarity among a set of documents. One of the interesting properties we compute is rank, a measure of the importance of a Semantic Web document.

Content

Vgl. unter: http://www.dblab.ntua.gr/~bikakis/LD/5.pdf Vgl. auch: http://swoogle.umbc.edu/. Vgl. auch: http://ebiquity.umbc.edu/paper/html/id/183/. Vgl. auch: Radhakrishnan, A.: Swoogle : An Engine for the Semantic Web unter: http://www.searchenginejournal.com/swoogle-an-engine-for-the-semantic-web/5469/.

Theme

Semantic Web

Dambeck, H.: Wie Google mit Milliarden Unbekannten rechnet : Teil 2: Ausgerechnet: Der Page Rank für ein Mini-Web aus drei Seiten (2009) 0.00

0.0027185641 = product of:
  0.024467077 = sum of:
    0.024467077 = product of:
      0.048934154 = sum of:
        0.048934154 = weight(_text_:web in 3080) [ClassicSimilarity], result of:
          0.048934154 = score(doc=3080,freq=4.0), product of:
            0.09596372 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.02940506 = queryNorm
            0.5099235 = fieldWeight in 3080, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.078125 = fieldNorm(doc=3080)
      0.5 = coord(1/2)
  0.11111111 = coord(1/9)

Abstract: Ein simples Beispiel eines Mini-Internets aus drei Web-Seiten verdeutlicht, wie dieses Ranking-System in der Praxis funktioniert.

Bradley, P.: ¬The relevance of underpants to searching the Web (2000) 0.00

0.0026912412 = product of:
  0.02422117 = sum of:
    0.02422117 = product of:
      0.04844234 = sum of:
        0.04844234 = weight(_text_:web in 3961) [ClassicSimilarity], result of:
          0.04844234 = score(doc=3961,freq=2.0), product of:
            0.09596372 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.02940506 = queryNorm
            0.50479853 = fieldWeight in 3961, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.109375 = fieldNorm(doc=3961)
      0.5 = coord(1/2)
  0.11111111 = coord(1/9)

Entlich, R.: FAQ: Image Search Engines (2001) 0.00
```
0.0025790567 = product of:
  0.023211509 = sum of:
    0.023211509 = product of:
      0.046423018 = sum of:
        0.046423018 = weight(_text_:web in 155) [ClassicSimilarity], result of:
          0.046423018 = score(doc=155,freq=10.0), product of:
            0.09596372 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.02940506 = queryNorm
            0.48375595 = fieldWeight in 155, product of:
              3.1622777 = tf(freq=10.0), with freq of:
                10.0 = termFreq=10.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.046875 = fieldNorm(doc=155)
      0.5 = coord(1/2)
  0.11111111 = coord(1/9)
```
Abstract

Everyone loves images. The web wasn't anything until images came along, then it was an overnight success. So how does one find a specific image on the web? By using one of a burgeoning number of image-focused search engines. These search engines are simply optimized versions of typical web indexes, with crawlers that go around sucking down web content and indexing it. But with image search engines, they focus on images only, and the web page text that may describe them. As information professionals, we know that this is a clumsy approach at best, but as the author puts it, until more sophisticated methods become available, the tools profiled here will "have to suffice." Seven search engines are thoroughly tested in this review article, with Google's Image Search (http://www.google.com/imghp?hl=en) being the highest rated
Khare, R.; Cutting, D.; Sitaker, K.; Rifkin, A.: Nutch: a flexible and scalable open-source Web search engine (2004) 0.00
```
0.002306778 = product of:
  0.020761002 = sum of:
    0.020761002 = product of:
      0.041522004 = sum of:
        0.041522004 = weight(_text_:web in 852) [ClassicSimilarity], result of:
          0.041522004 = score(doc=852,freq=8.0), product of:
            0.09596372 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.02940506 = queryNorm
            0.43268442 = fieldWeight in 852, product of:
              2.828427 = tf(freq=8.0), with freq of:
                8.0 = termFreq=8.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.046875 = fieldNorm(doc=852)
      0.5 = coord(1/2)
  0.11111111 = coord(1/9)
```
Abstract

Nutch is an open-source Web search engine that can be used at global, local, and even personal scale. Its initial design goal was to enable a transparent alternative for global Web search in the public interest - one of its signature features is the ability to "explain" its result rankings. Recent work has emphasized how it can also be used for intranets; by local communities with richer data models, such as the Creative Commons metadata-enabled search for licensed content; on a personal scale to index a user's files, email, and web-surfing history; and we also report on several other research projects built on Nutch. In this paper, we present how the architecture of the Nutch system enables it to be more flexible and scalable than other comparable systems today.
Semantische Suche über 500 Millionen Web-Dokumente (2009) 0.00
```
0.002306778 = product of:
  0.020761002 = sum of:
    0.020761002 = product of:
      0.041522004 = sum of:
        0.041522004 = weight(_text_:web in 2434) [ClassicSimilarity], result of:
          0.041522004 = score(doc=2434,freq=8.0), product of:
            0.09596372 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.02940506 = queryNorm
            0.43268442 = fieldWeight in 2434, product of:
              2.828427 = tf(freq=8.0), with freq of:
                8.0 = termFreq=8.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.046875 = fieldNorm(doc=2434)
      0.5 = coord(1/2)
  0.11111111 = coord(1/9)
```
Content

"Wissenschaftler an der University of Washington haben eine neue Suchmaschinen-Engine geschrieben, die Zusammenhänge und Fakten aus mehr als 500 Millionen einzelner Web-Seiten zusammentragen kann. Das Werkzeug extrahiert dabei Informationen aus Milliarden von Textzeilen, indem die grundlegenden sprachlichen Beziehungen zwischen Wörtern analysiert werden. Experten glauben, dass solche Systeme zur automatischen Informationsgewinnung eines Tages die Grundlage deutlich smarterer Suchmaschinen bilden werden, als sie heute verfügbar sind. Dazu werden die wichtigsten Datenhappen zunächst von einem Algorithmus intern begutachtet und dann intelligent kombiniert, berichtet Technology Review in seiner Online-Ausgabe. Das Projekt US-Forscher stellt eine deutliche Ausweitung einer zuvor an der gleichen Hochschule entwickelten Technik namens TextRunner dar. Sowohl die Anzahl analysierbarer Seiten als auch die Themengebiete wurden dabei stark erweitert. "TextRunner ist deshalb so bedeutsam, weil es skaliert, ohne dass dabei ein Mensch eingreifen müsste", sagt Peter Norvig, Forschungsdirektor bei Google. Der Internet-Konzern spendete dem Projekt die riesige Datenbank aus einzelnen Web-Seiten, die TextRunner analysiert. "Das System kann Millionen von Beziehungen erkennen und erlernen - und zwar nicht nur jede einzeln. Einen Betreuer braucht die Software nicht, die Informationen werden selbstständig ermittelt.""

Source

http://www.heise.de/newsticker/Semantische-Suche-ueber-500-Millionen-Web-Dokumente--/meldung/140630

Web search service features (2002) 0.00

0.0021748515 = product of:
  0.019573662 = sum of:
    0.019573662 = product of:
      0.039147325 = sum of:
        0.039147325 = weight(_text_:web in 923) [ClassicSimilarity], result of:
          0.039147325 = score(doc=923,freq=4.0), product of:
            0.09596372 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.02940506 = queryNorm
            0.4079388 = fieldWeight in 923, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.0625 = fieldNorm(doc=923)
      0.5 = coord(1/2)
  0.11111111 = coord(1/9)

Abstract: The table shows some of the features and techniques for the most common general Web search services to show how to use them and to help decide which may be the most appropriate. See the notes below that explain the headings. Each service also provides more detailed instructions. Note that some features will be available under an 'advanced', 'power' or other further search option and not from the main page.

Lischka, K.; Kremp, M.: Was der Google-Gegner weiß - und was nicht (2009) 0.00

0.0019223152 = product of:
  0.017300837 = sum of:
    0.017300837 = product of:
      0.034601673 = sum of:
        0.034601673 = weight(_text_:web in 4443) [ClassicSimilarity], result of:
          0.034601673 = score(doc=4443,freq=2.0), product of:
            0.09596372 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.02940506 = queryNorm
            0.36057037 = fieldWeight in 4443, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.078125 = fieldNorm(doc=4443)
      0.5 = coord(1/2)
  0.11111111 = coord(1/9)

Source: http://www.spiegel.de/netzwelt/web/0,1518,623122,00.html

Austin, D.: How Google finds your needle in the Web's haystack : as we'll see, the trick is to ask the web itself to rank the importance of pages... (2006) 0.00
```
0.001902995 = product of:
  0.017126955 = sum of:
    0.017126955 = product of:
      0.03425391 = sum of:
        0.03425391 = weight(_text_:web in 93) [ClassicSimilarity], result of:
          0.03425391 = score(doc=93,freq=16.0), product of:
            0.09596372 = queryWeight, product of:
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.02940506 = queryNorm
            0.35694647 = fieldWeight in 93, product of:
              4.0 = tf(freq=16.0), with freq of:
                16.0 = termFreq=16.0
              3.2635105 = idf(docFreq=4597, maxDocs=44218)
              0.02734375 = fieldNorm(doc=93)
      0.5 = coord(1/2)
  0.11111111 = coord(1/9)
```
Abstract

Imagine a library containing 25 billion documents but with no centralized organization and no librarians. In addition, anyone may add a document at any time without telling anyone. You may feel sure that one of the documents contained in the collection has a piece of information that is vitally important to you, and, being impatient like most of us, you'd like to find it in a matter of seconds. How would you go about doing it? Posed in this way, the problem seems impossible. Yet this description is not too different from the World Wide Web, a huge, highly-disorganized collection of documents in many different formats. Of course, we're all familiar with search engines (perhaps you found this article using one) so we know that there is a solution. This article will describe Google's PageRank algorithm and how it returns pages from the web's collection of 25 billion documents that match search criteria so well that "google" has become a widely used verb. Most search engines, including Google, continually run an army of computer programs that retrieve pages from the web, index the words in each document, and store this information in an efficient format. Each time a user asks for a web search using a search phrase, such as "search engine," the search engine determines all the pages on the web that contains the words in the search phrase. (Perhaps additional information such as the distance between the words "search" and "engine" will be noted as well.) Here is the problem: Google now claims to index 25 billion pages. Roughly 95% of the text in web pages is composed from a mere 10,000 words. This means that, for most searches, there will be a huge number of pages containing the words in the search phrase. What is needed is a means of ranking the importance of the pages that fit the search criteria so that the pages can be sorted with the most important pages at the top of the list. One way to determine the importance of pages is to use a human-generated ranking. For instance, you may have seen pages that consist mainly of a large number of links to other resources in a particular area of interest. Assuming the person maintaining this page is reliable, the pages referenced are likely to be useful. Of course, the list may quickly fall out of date, and the person maintaining the list may miss some important pages, either unintentionally or as a result of an unstated bias. Google's PageRank algorithm assesses the importance of web pages without human evaluation of the content. In fact, Google feels that the value of its service is largely in its ability to provide unbiased results to search queries; Google claims, "the heart of our software is PageRank." As we'll see, the trick is to ask the web itself to rank the importance of pages.

Search (32 results, page 1 of 2)

Authors

Languages

Types

Themes