Search (38 results, page 1 of 2)

Lischka, K.; Kremp, M.: Was der Google-Gegner weiß - und was nicht (2009) 0.03

0.033019383 = product of:
  0.16509691 = sum of:
    0.11176472 = weight(_text_:suchmaschine in 4443) [ClassicSimilarity], result of:
      0.11176472 = score(doc=4443,freq=2.0), product of:
        0.17890577 = queryWeight, product of:
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.031640913 = queryNorm
        0.62471277 = fieldWeight in 4443, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.078125 = fieldNorm(doc=4443)
    0.01609953 = product of:
      0.03219906 = sum of:
        0.03219906 = weight(_text_:online in 4443) [ClassicSimilarity], result of:
          0.03219906 = score(doc=4443,freq=2.0), product of:
            0.096027054 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.031640913 = queryNorm
            0.33531237 = fieldWeight in 4443, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.078125 = fieldNorm(doc=4443)
      0.5 = coord(1/2)
    0.03723266 = weight(_text_:web in 4443) [ClassicSimilarity], result of:
      0.03723266 = score(doc=4443,freq=2.0), product of:
        0.10326045 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.031640913 = queryNorm
        0.36057037 = fieldWeight in 4443, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.078125 = fieldNorm(doc=4443)
  0.2 = coord(3/15)

Abstract: Clevere Präsentation, schwache Datenbasis: Die Suchmaschine Wolfram Alpha wurde vorab schon als "Google Killer" gehandelt - jetzt hat SPIEGEL ONLINE eine erste Version getestet. Sie weiß viel über Aspirin, versagt bei Kultur - und hält die CDU für einen Regionalflughafen.
Source: http://www.spiegel.de/netzwelt/web/0,1518,623122,00.html

Körber, S.: Suchmuster erfahrener und unerfahrener Suchmaschinennutzer im deutschsprachigen World Wide Web (2000) 0.03
```
0.030631492 = product of:
  0.11486809 = sum of:
    0.063223675 = weight(_text_:suchmaschine in 5938) [ClassicSimilarity], result of:
      0.063223675 = score(doc=5938,freq=4.0), product of:
        0.17890577 = queryWeight, product of:
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.031640913 = queryNorm
        0.3533909 = fieldWeight in 5938, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.03125 = fieldNorm(doc=5938)
    0.006439812 = product of:
      0.012879624 = sum of:
        0.012879624 = weight(_text_:online in 5938) [ClassicSimilarity], result of:
          0.012879624 = score(doc=5938,freq=2.0), product of:
            0.096027054 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.031640913 = queryNorm
            0.13412495 = fieldWeight in 5938, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.03125 = fieldNorm(doc=5938)
      0.5 = coord(1/2)
    0.025795544 = weight(_text_:web in 5938) [ClassicSimilarity], result of:
      0.025795544 = score(doc=5938,freq=6.0), product of:
        0.10326045 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.031640913 = queryNorm
        0.24981049 = fieldWeight in 5938, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03125 = fieldNorm(doc=5938)
    0.01940906 = product of:
      0.03881812 = sum of:
        0.03881812 = weight(_text_:analyse in 5938) [ClassicSimilarity], result of:
          0.03881812 = score(doc=5938,freq=2.0), product of:
            0.16670908 = queryWeight, product of:
              5.268782 = idf(docFreq=618, maxDocs=44218)
              0.031640913 = queryNorm
            0.23284946 = fieldWeight in 5938, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.268782 = idf(docFreq=618, maxDocs=44218)
              0.03125 = fieldNorm(doc=5938)
      0.5 = coord(1/2)
  0.26666668 = coord(4/15)
```
Abstract

In einem Labor-Experiment wurden insgesamt achtzehn Studenten und Studentinnen mit zwei offenen Web-Rechercheaufgaben konfrontiert. Während deren Bewältigung mit einer Suchmaschine wurden sie per Proxy-Logfile-Protokollierung verdeckt beobachtet. Sie machten demographische und ihre Webnutzungs-Gewohnheiten betreffende Angaben, bewerteten Aufgaben-, Performance- und Suchmaschinen-Eigenschaften in Fragebögen und stellten sich einem Multiple-Choice-Test zu ihrem Wissen über Suchmaschinen. Die Versuchspersonen wurden gezielt angeworben und eingeteilt: in eine erfahrene und eine unerfahrene Untergruppe mit je neun Teilnehmern. Die Untersuchung beruht auf dem Vergleich der beiden Gruppen: Im Zentrum stehen dabei die Lesezeichen, die sie als Lösungen ablegten, ihre Einschätzungen aus den Fragebögen, ihre Suchphrasen sowie die Muster ihrer Suchmaschinen-Interaktion und Navigation in Zielseiten. Diese aus den Logfiles gewonnen sequentiellen Aktionsmuster wurden vergleichend visualisiert, ausgezählt und interpretiert. Zunächst wird das World Wide Web als strukturell und inhaltlich komplexer Informationsraum beschrieben. Daraufhin beleuchtet der Autor die allgemeinen Aufgaben und Typen von Meta-Medienanwendungen, sowie die Komponenten Index-basierter Suchmaschinen. Im Anschluß daran wechselt die Perspektive von der strukturell-medialen Seite hin zu Nutzungsaspekten. Der Autor beschreibt Nutzung von Meta-Medienanwendungen als Ko-Selektion zwischen Nutzer und Suchmaschine auf der Basis von Entscheidungen und entwickelt ein einfaches, dynamisches Phasenmodell. Der Einfluß unterschiedlicher Wissensarten auf den Selektionsprozeß findet hier Beachtung.Darauf aufbauend werden im folgenden Schritt allgemeine Forschungsfragen und Hypothesen für das Experiment formuliert. Dessen Eigenschaften sind das anschließende Thema, wobei das Beobachtungsinstrument Logfile-Analyse, die Wahl des Suchdienstes, die Formulierung der Aufgaben, Ausarbeitung der Fragebögen und der Ablauf im Zentrum stehen. Im folgenden präsentiert der Autor die Ergebnisse in drei Schwerpunkten: erstens in bezug auf die Performance - was die Prüfung der Hypothesen erlaubt - zweitens in bezug auf die Bewertungen, Kommentare und Suchphrasen der Versuchspersonen und drittens in bezug auf die visuelle und rechnerische Auswertung der Suchmuster. Letztere erlauben einen Einblick in das Suchverhalten der Versuchspersonen. Zusammenfassende Interpretationen und ein Ausblick schließen die Arbeit ab

Content

[Magisterarbeit] - Rez. in: Online Mitteilungen 2001, Nr.69, S.41-43 (K. Patzwaldt) (Vgl. auch: http://www.ideenreich.com/suchmaschinen/kritik.shtml)
Patalong, F.: Life after Google : II. Hilfreiche Geister (2002) 0.03
```
0.029838527 = product of:
  0.111894466 = sum of:
    0.03706034 = sum of:
      0.011384088 = weight(_text_:online in 1163) [ClassicSimilarity], result of:
        0.011384088 = score(doc=1163,freq=4.0), product of:
          0.096027054 = queryWeight, product of:
            3.0349014 = idf(docFreq=5778, maxDocs=44218)
            0.031640913 = queryNorm
          0.11855084 = fieldWeight in 1163, product of:
            2.0 = tf(freq=4.0), with freq of:
              4.0 = termFreq=4.0
            3.0349014 = idf(docFreq=5778, maxDocs=44218)
            0.01953125 = fieldNorm(doc=1163)
      0.025676252 = weight(_text_:recherche in 1163) [ClassicSimilarity], result of:
        0.025676252 = score(doc=1163,freq=2.0), product of:
          0.17150146 = queryWeight, product of:
            5.4202437 = idf(docFreq=531, maxDocs=44218)
            0.031640913 = queryNorm
          0.14971448 = fieldWeight in 1163, product of:
            1.4142135 = tf(freq=2.0), with freq of:
              2.0 = termFreq=2.0
            5.4202437 = idf(docFreq=531, maxDocs=44218)
            0.01953125 = fieldNorm(doc=1163)
    0.023823872 = weight(_text_:software in 1163) [ClassicSimilarity], result of:
      0.023823872 = score(doc=1163,freq=6.0), product of:
        0.12552431 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.031640913 = queryNorm
        0.18979488 = fieldWeight in 1163, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.01953125 = fieldNorm(doc=1163)
    0.02462709 = weight(_text_:web in 1163) [ClassicSimilarity], result of:
      0.02462709 = score(doc=1163,freq=14.0), product of:
        0.10326045 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.031640913 = queryNorm
        0.23849489 = fieldWeight in 1163, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.01953125 = fieldNorm(doc=1163)
    0.026383169 = weight(_text_:site in 1163) [ClassicSimilarity], result of:
      0.026383169 = score(doc=1163,freq=2.0), product of:
        0.1738463 = queryWeight, product of:
          5.494352 = idf(docFreq=493, maxDocs=44218)
          0.031640913 = queryNorm
        0.15176146 = fieldWeight in 1163, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.494352 = idf(docFreq=493, maxDocs=44218)
          0.01953125 = fieldNorm(doc=1163)
  0.26666668 = coord(4/15)
```
Content

"Wie war zu Köln es doch vordem / Mit Heinzelmännchen so bequem! / Denn, war man faul, - man legte sich / hin auf die Bank und pflegte sich! / Heut' wühlt man sich im Web so bunt / Aug und Zeigefinger wund / Nur kluge Surfer sagen sich / Mein Roboter tut das für mich! August Kopisch (1799 bis 1853, hier leicht "upgedated") wusste, was Menschen sich wünschen: Mehr als alles andere die Befreiung von der lästigen Routine des Alltags. Für die sorgten dereinst zu Köln die Heinzelmännchen, heute muss im Web der Bot herhalten. Und siehe da. Auch der erleichtert das Surfer-Leben ganz ungemein. Da ist es eigentlich verwunderlich, dass dienstbare Geister, die Routine-Suchanfragen verkürzen oder verbessern, von so verhältnismäßig wenigen Surfern eingesetzt werden. Wozu soll ein Bot gut sein? Bots gibt es viele. Im Internet versteht man unter dem Kurzwort für Robot ganz allgemein ein Dienstprogramm, das dem Surfer Aufgaben abnimmt und für ihn erledigt. Das können Bots sein, die ständig für die Wahrnehmung einer Website bei Suchmaschinen sorgen, jeden Morgen ein vordefiniertes Sample von Schlagzeilen aus festgelegten Medien zusammentragen oder aber die Rechercheanfragen des Surfers gleich bei einer ganzen Reihe von Suchdiensten abliefern, die Ergebnisse einsammeln, auf einer Html-Seite darstellen und am Ende dann noch die wirklich guten unter ihnen archivieren. Das macht Sinn und schafft Ordnung: Viele Suchanfragen stellt man immer wieder; sei es, weil man beruflich in einem bestimmten Themenfeld unterwegs ist; sei es, weil man sich nach Monaten zwar an eine tolle Website, aber nicht an ihre Adresse erinnert. Dagegen helfen natürlich auch Bookmarks, aber deren sinnvolle Verwaltung will auch erst einmal gelernt sein. Das Tolle an Bots, die auch gleich die Recherche-Archivierung mit erledigen, ist, dass sie ihre Ergebnisse immer im Kontext einer Suchintention darstellen - und zwar nach Relevanz gewichtet. Das hat was. Praktisches Beispiel: Copernic Marktführer in diesem Bereich ist seit Jahren der Software-Client Copernic , dessen Schnupperversion "Basic" nach wie vor kostenlos zu haben ist, während die kostenpflichtige (und weit leistungsfähigere) Vollversion leider immer teurer wird. Vor zwei Jahren war das Programm für rund 20 Dollar zu haben, heute kostet es schon 60 Dollar, die Erhöhung auf 80 Dollar ist bereits angekündigt: Wenn der Satz "Was nichts kostet, taugt nichts" einen Umkehrschluss erlaubt, dann muss sich Copernic seinen heutigen Wert wohl irgendwie verdient haben. Was also bietet so ein Bot? Selbst in der kostenlosen Version schon eine ganze Menge. Da funktioniert Copernic zunächst einmal wie eine Metasuchmaschine: Das Programm leitet eine Suchanfrage an eine Reihe von Suchmaschinen weiter, sammelt Ergebnisse und gewichtet sie. Doppler löscht das Programm, ebenso "zerschossene" Links, denn die prüft das Programm gleich mit, und am Ende steht da eine als Web-Seite aufbereitete Ergebnisliste, die unter dem Stichwort der Suchanfrage auch gleich archiviert bleibt. Und mehr: Copernic fügt in die Darstellung der gefundenen Webseiten "Textmarker" ein, um die Fundorte der Such-Stichworte zu kennzeichnen. Eine Verfeinerung der Suche ist auch über die weitergehende Einengung der Suchbegriffe bei gleichzeitiger Begrenzung der Suche auf die bereits gefundenen Webseiten möglich: Das ist eine Art teilmanuelle, aber hochgradig individuelle Relevanz-Abwägung, ohne gleich alle Texte querlesen zu müssen. In der kostenpflichtigen Vollversion sucht Copernic in einer Unzahl von Datenbanken, Searchengines, bei Shops und auf Unternehmenswebsites, in Archiven und Newsangeboten. Viele der mit einem solchen Bot möglichen Recherchen wären unter Einsatz von Searchengines nur sehr schwer zu leisten.
Ordnung ist die halbe Suche. Gut, wenn man sie selbst nicht halten muss Doch damit ist das Heinzelmännchen noch lang nicht fertig. Das kostenpflichtige "Pro"-Programm verfügt auch über Sammel- und Monitoringfunktionen: Man kann den Bot beauftragen, regelmäßig bestimmte Inhalte zusammenzusuchen. Man kann ihn anweisen, bestimmte Webseiten zu beobachten und immer dann Laut zu geben, wenn sich dort etwas Neues tut: Ein ideales Tool beispielsweise zur Konkurrenzbeobachtung. Wer will, kann sich neben zahlreichen Standard-Suchportfolios auch eigene Suchprofile aus verschiedenen Quellen zusammenstellen. Im Auftrag des Users würde Copernic dann beispielsweise jeden Tag um 12.00 Uhr die Technik-News von Heise, Chip und SPIEGEL ONLINE auf einer Übersichtsseite zusammentragen. Alternativen: Bingooo, BullsEye und Co. Das kostenlose Programm Bingooo kann es zumindest mit der Schnupperversion von Copernic aufnehmen. Die deutsche Entwicklung gewann im Laufe des letzten Jahres einen wachsenden Fankreis: Faktisch kann Bingooo leicht mehr als die kostenlose Copernic-Version, arbeitet die Resultate aber nicht ganz so gut auf. Auch das Handling der Software wirkt im Vergleich mit der inzwischen im Windows-XP-ähnlichen Bonbon-Design daherkommenden, sehr klar strukturierten Copernic-Oberfläche kompliziert. Bingooo gilt selbst Fans darum als Chaos-Client mit viel Kraft. Als Trumpf kann Bingooo aber mit einem Pfund wuchern, das die Konkurrenz nicht zu bieten hat: Der Bot vermag auch auf Festplatten und in Firmennetzen zu suchen. Als viel versprechender Newcomer gilt auch BullsEye , das sich anschickt, Copernic echte Konkurrenz zu machen. Das Programm, zumal in seiner Profi-Version, lässt keine Wünsche übrig, kostet dann aber auch satte 199 Dollar. Schnuppern und probieren ist erlaubt, die Nutzung aber nur für 15 Tage kostenfrei. Wo gibt es Bots? Dabei gibt es teils Gutes, teils Bewährtes für Null bis wenig Dollar im Web: WebFerret etwa gehörte einmal zur Top-Klasse. Der Metasucher mit dem niedlichen Logo bietet solide Technik und das Standardprogramm, das man auch von Metaengines erwartet. Dafür ist er bequem und einfach zu handhaben: der Rest wird dann zur Geschmackssache. Für alltägliche, nicht sonderlich spezialisierte Suchen immer noch eine brauchbare Möglichkeit. Neben solchen allgemeinen Suchwerkzeugen gibt es auch einige ganz spezielle Entwicklungen. LexiBot etwa verspricht, gezielt das so genannte "Deep Web" inklusive der schwer zugänglichen Datenbanken zu erschließen. Das kostet dann allerdings auch schon wieder 289 Dollar für eine Lizenz. Einen ganzen Strauß kostenfreier wie kostenpflichtiger "Search Tools" verzeichnet wieder Searchenginewatch , das sich einmal mehr als nützliche und aktuell informierte Seite erweist. Die meisten der Entwicklerfirmen bieten über ihre Websites Downloadmöglichkeiten, schneller geht es oft über Download.com: Einfach den Namen der entsprechenden Software eingeben, schon ist man da.
Fazit Searchbots sind hochgradig nützliche Werkzeuge für Menschen, die entweder oft und viel, oder einfach gern systematisch im Internet suchen. Ihre besondere Stärke liegt in den Archivfunktionen der Bots: Es ist überraschend, wie oft man auf "alte" Recherchen zurückgreift. Anders als bei Bookmarks überprüfen die wirklich guten Bots zudem ständig die Validität der Links. "Verschwindet" etwas aus dem Web, warnen sie das an - und löschen den entsprechenden Vermerk. Grundsätzlich lässt sich sagen, dass solche Bots all das können, was gute Metasearcher zu bieten haben - plus einiger unterschiedlicher Bonbons für den Nutzer. Wer sich den Umgang mit Bots einmal angewöhnt, will in der Regel auch nicht mehr darauf verzichten. Ansonsten gilt wie immer: Probieren geht über studieren. "Jeder Jeck", sagt man in Köln, "ist anders", und das gilt auch für Surfer: Den richtigen Bot für alle gibt es nicht. Aber für jeden gibt es einen richtigen. Im dritten Teil des Web-Wanderführers "Life after Google" : Suchen und finden kann man auch ganz anders. In aller Welt arbeiten die Entwickler an neuen Suchmethoden, vieles ist "in Beta" schon zu sehen. Ein Ausblick: Wie könnten sie aussehen, die Suchmaschinen der nächsten Generation - und was lässt sich schon nutzen?"

Footnote

Zum Thema: Im Internet: · Searchbots: Copernic http://www.copernic.com · Searchbots: Bingoo http://www.bingoo.de · Searchbots: BullsEye http://www.intelliseek.com/ · Searchbots: WebFerret http://www.ferretsoft.com · Seartchbots: Lexibot http://www.lexibot.com/ · Searchbot-Verzeichnis bei Searchenginewatch http://www.searchenginewatch.com/links/utilities.html · CNet Download: die Site, die alles hat http://www.download.com · August Kopisch: "Wie war zu Köln es doch vordem..." http://www.gutenberg2000.de/autoren/kopisch.htm

Series

SPIEGEL ONLINE - 14. November 2002
Talbot, D.: Durchblick im Infodschungel (2009) 0.02
```
0.020196566 = product of:
  0.10098283 = sum of:
    0.047417752 = weight(_text_:suchmaschine in 2865) [ClassicSimilarity], result of:
      0.047417752 = score(doc=2865,freq=4.0), product of:
        0.17890577 = queryWeight, product of:
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.031640913 = queryNorm
        0.26504317 = fieldWeight in 2865, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.0234375 = fieldNorm(doc=2865)
    0.028588645 = weight(_text_:software in 2865) [ClassicSimilarity], result of:
      0.028588645 = score(doc=2865,freq=6.0), product of:
        0.12552431 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.031640913 = queryNorm
        0.22775385 = fieldWeight in 2865, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.0234375 = fieldNorm(doc=2865)
    0.024976429 = weight(_text_:web in 2865) [ClassicSimilarity], result of:
      0.024976429 = score(doc=2865,freq=10.0), product of:
        0.10326045 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.031640913 = queryNorm
        0.24187797 = fieldWeight in 2865, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.0234375 = fieldNorm(doc=2865)
  0.2 = coord(3/15)
```
Content

"Wissenschaftler an der University of Washington haben eine neue Suchmaschinen-Engine geschrieben, die Zusammenhänge und Fakten aus mehr als 500 Millionen einzelner Web-Seiten zusammentragen kann. Das Werkzeug extrahiert dabei Informationen aus Milliarden von Textzeilen, indem die grundlegenden sprachlichen Beziehungen zwischen Wörtern analysiert werden. Experten glauben, dass solche Systeme zur automatischen Informationsgewinnung eines Tages die Grundlage deutlich smarterer Suchmaschinen bilden werden, als sie heute verfügbar sind. Dazu werden die wichtigsten Datenhappen zunächst von einem Algorithmus intern begutachtet und dann intelligent kombiniert. Das Projekt US-Forscher stellt eine deutliche Ausweitung einer zuvor an der gleichen Hochschule entwickelten Technik namens TextRunner dar. Sowohl die Anzahl analysierbarer Seiten als auch die Themengebiete wurden dabei stark erweitert. "TextRunner ist deshalb so bedeutsam, weil es skaliert, ohne dass dabei ein Mensch eingreifen müsste", sagt Peter Norvig, Forschungsdirektor bei Google. Der Internet-Konzern spendete dem Projekt die riesige Datenbank aus einzelnen Web-Seiten, die TextRunner analysiert. "Das System kann Millionen von Beziehungen erkennen und erlernen - und zwar nicht nur jede einzeln. Einen Betreuer braucht die Software nicht, die Informationen werden selbständig ermittelt." Damit unterscheidet sich der Ansatz von anderen semantischen Systemen, die die Hilfe ihrer Programmierer benötigen. Um beispielsweise aus Millionen von Dokumenten die Namen von Personen zu ermitteln, die als Geschäftsführer arbeiten, müsste eine solche Suchmaschine erst trainiert werden - etwa, in der man ihr beibringt, dass Steve Jobs der CEO von Apple, Steve Ballmer der von Microsoft ist. Bei TextRunner sei das nun nicht mehr nötig. (Google arbeitet an ähnlichen Ideen und setzt die Technik bereits im kleineren Maßstab ein.) TextRunners Algorithmen sorgen dafür, dass nicht mehr manuell eingegriffen werden muss. Ein Nutzer kann beispielsweise "tötet Bakterien" eingeben und die Suchmaschine spuckt Seiten aus, die Fakten nennen wie "Chlor tötet Bakterien", "ultraviolettes Licht tötet Bakterien" oder "Hitze tötet Bakterien". Diese von den Forschern als Dreiergruppen bezeichneten Ergebnisse lassen sich dann in einer Vorschau begutachten, bevor man die eigentliche Website betritt.
Der Prototyp von TextRunner bietet noch eine eher karge Benutzerschnittstelle - er ist auch weniger für die Öffentlichkeit als Suchhilfe gedacht denn als Demonstrator, wie es gelingen kann, Informationen aus 500 Millionen Web-Seiten automatisch zu extrahieren. Oren Etzioni, Computerwissenschaftler und Leiter des Projekts, ist stolz auf das Ergebnis: "Was wir hier zeigen, ist die Fähigkeit einer Software, ein rudimentäres Textverständnis zu erzielen - und zwar in einem Maßstab und einer Ausdehnung, die es bislang noch nie gab." Die Fähigkeit, Inhalte und Bedeutungen schnell zu erkennen, entstammt einem Grundmodell von Wortbeziehungen in der englischen Sprache, das Etzioni und sein Team entwickelt haben. Es funktioniert bei nahezu jedem Thema. "Beispielsweise deckt das einfache Muster "Einheit 1, Verb, Einheit 2" den Satz "Edison erfand die Glühbirne" genauso ab wie "Microsoft kaufte Farecast" - und viele andere Satzmodelle auch." TextRunner nutze nun dieses Schablone, um automatisch aus Texten zu lernen, Sätze zu analysieren und solche Dreiergruppen mit hoher Genauigkeit zu erkennen. Die Software besitzt auch Elemente, um aus Anfragen in natürlicher Sprache einen Sinnzusammenhang abzuleiten. Daran arbeiten Etzioni und sein Team gerade. Findet das System dann beispielsweise eine Seite, auf der steht, dass Säugetiere Warmblüter sind und eine andere, auf der zu lesen ist, dass Hunde Säugetiere sind, kann es daraus schließen, dass Hunde vermutlich als Warmblüter herumlaufen. Der Ansatz ähnelt der Technik hinter dem semantischen Suchspezialisten Powerset, den Microsoft im vergangenen Jahr erworben hat. Kurz vor dem Aufkauf legte die Firma ein Werkzeug vor, das solche Fakten aus immerhin rund zwei Millionen Wikipedia-Seiten extrahieren konnte. TextRunner kann nun aber mit Wikipedia genauso umgehen wie mit jedem anderen Angebot, seien es nun Blog-Einträge, Produktkataloge oder Zeitungsartikel. Jon Kleinberg, IT-Forscher der Cornell University, der die University of Washington-Studie kennt, findet, dass das TextRunner-Projekt besonders bei der Skalierung einen großen Fortschritt bedeute. "Die Arbeit steht für einen wachsenden Trend hin zur Schaffung von Suchwerkzeugen, die Teilinformationen, die sie im Web finden, aktiv in einen größeren Zusammenhang bringen.""

Footnote

Vgl. auch: http://www.heise.de/newsticker/Semantische-Suche-ueber-500-Millionen-Web-Dokumente--/meldung/140630.
Schulzki-Haddouti, C.: Mit Google durchs WWW : Was die immer populärer werdende Suchmaschine vom Rest der Welt unterscheidet (2001) 0.02
```
0.018569889 = product of:
  0.13927415 = sum of:
    0.11176472 = weight(_text_:suchmaschine in 529) [ClassicSimilarity], result of:
      0.11176472 = score(doc=529,freq=8.0), product of:
        0.17890577 = queryWeight, product of:
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.031640913 = queryNorm
        0.62471277 = fieldWeight in 529, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.0390625 = fieldNorm(doc=529)
    0.027509436 = weight(_text_:software in 529) [ClassicSimilarity], result of:
      0.027509436 = score(doc=529,freq=2.0), product of:
        0.12552431 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.031640913 = queryNorm
        0.21915624 = fieldWeight in 529, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.0390625 = fieldNorm(doc=529)
  0.13333334 = coord(2/15)
```
Abstract

Eine kleine, unscheinbare Suchmaschine hat sich in wenigen Monaten vom Geheimtipp zum Renner entwickelt: Google. Mitte Februar landete Google einen Coup: Es übernahm das Usenet-Archiv von Deja.com. Nicht erst damit ist Google die größte und intelligenteste Suchmaschine. Bis auf das Eingabefeld und das Google-Logo ist nichts zu sehen. Keine Kataloge, keine Nachrichten, kein Übersetzungsdienst, keine Werbung - kein Portal. Google kennt nur eins: Das Suchen von Informationen. Erstaunlich für den Erstnutzer: Oft stehen die relevanten Ergebnisse an erster Stelle. Google arbeitet mit einer ganzen Reihe von Tricks, um seine Nutzer nicht zu frustrieren. Sein Haupttrick: Es bewertet die Webseiten als wichtig, auf die viele andere Webseiten verweisen. Die Seite, auf die am häufigsten verwiesen wird, steht ganz oben. Auf diese Weise macht Google auch Nachbarschaften aus: Als "ähnliche Seite" von Telepolis findet man zum Beispiel c'theory. In der Nachbarschaft des Handelsblatts hingegen findet man andere Wirtschaftszeitungen und -magazine. Entwickelt wurde Google vom Computeringenieur Lawrence Page und dem Mathematiker Sergey Brin. Sie lernten sich an der Stanford University kennen, wo sie "einen Prototypen für eine umfassende Suchmaschine" entwickelten. Der Prototyp mit 24 Millionen Seiten samt Hyperlink-Datenbank war 1997 zunächst auf einem Server der Stanford-Universität zu bewundern. Heute ist Google eine florierende Firma. Rund 40 der 200 Mitarbeiter von Google haben einen Doktortitel, die Hälfte ist im Software-Engineering tätig
Patalong, F.: Life after Google : I. Besser suchen, wirklich finden (2002) 0.02
```
0.018272277 = product of:
  0.06852104 = sum of:
    0.02794118 = weight(_text_:suchmaschine in 1165) [ClassicSimilarity], result of:
      0.02794118 = score(doc=1165,freq=2.0), product of:
        0.17890577 = queryWeight, product of:
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.031640913 = queryNorm
        0.15617819 = fieldWeight in 1165, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.01953125 = fieldNorm(doc=1165)
    0.0040248823 = product of:
      0.008049765 = sum of:
        0.008049765 = weight(_text_:online in 1165) [ClassicSimilarity], result of:
          0.008049765 = score(doc=1165,freq=2.0), product of:
            0.096027054 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.031640913 = queryNorm
            0.08382809 = fieldWeight in 1165, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.01953125 = fieldNorm(doc=1165)
      0.5 = coord(1/2)
    0.013754718 = weight(_text_:software in 1165) [ClassicSimilarity], result of:
      0.013754718 = score(doc=1165,freq=2.0), product of:
        0.12552431 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.031640913 = queryNorm
        0.10957812 = fieldWeight in 1165, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.01953125 = fieldNorm(doc=1165)
    0.022800254 = weight(_text_:web in 1165) [ClassicSimilarity], result of:
      0.022800254 = score(doc=1165,freq=12.0), product of:
        0.10326045 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.031640913 = queryNorm
        0.22080335 = fieldWeight in 1165, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.01953125 = fieldNorm(doc=1165)
  0.26666668 = coord(4/15)
```
Content

Google sucht "flach", weil "hochgestochenes" nicht populär ist Das Pageranking-System von Google, mit dem der Suchdienst Ergebnisse in eine "relevante" Reihenfolge bringt, begünstigt populäre Angebote. Fachleute suchen vielleicht gerade die bewusst nicht. Sie sind in aller Regel mit Suchen über Kataloge oder spezialisierte Suchdienste besser bedient. Da keine Suchmaschine es schafft, das WWW, geschweige denn das Internet vollständig abzudecken, gelingt es vielen Suchmaschinen immer wieder, in bestimmten Suchfeldern, Themenbereichen oder auch über regionale Ansätze und Schwerpunkte zu qualitativ hochwertigen Ergebnissen zu kommen, die auch Google ausstechen. Ganz besonders gilt dies für alle Dienste, die gezielt im so genannten "Deep Web" suchen: Gemeint sind damit vor allem Datenbankbestände. An die kommt Google in den seltensten Fällen heran, aber gerade hier sind zumindest im Kontext professioneller Recherchen die Perlen im Web verborgen - egal, ob man Ingenieur, Bibliothekar, Arzt, Möbelrestaurator oder Journalist ist. Patentrezepte gibt es hier nicht, weil alles Suchen im Web abhängig ist von den Interessen des Suchenden. Stets up to date über das Angebot auch an spezialisierten Suchdiensten ist aber die Website Searchenginewatch: Hier sind unter "Specialty Search Engines" entsprechende Links zu finden. Zumindest eines lässt sich pauschal und problemlos für alle Suchenden im Web konstatieren: Es kann nicht schaden, eine Alternative zu Google zu pflegen. Metasucher: Mit Masse zur Klasse Neben kraftvollen Suchmaschinen wie Altavista, Hotbot, Teoma, Wisenut, Inktomi oder AlltheWeb , die alle ihre Eigenheiten, Stärken und Schwächen besitzen (ausprobieren!), glänzen vor allem auch die Metasuchdienste. Das sind Websites, die über ein Suchformular parallel eine ganze Reihe von Quellen abfragen können und die Ergebnisse zusammenfassen. Metasearcher kommen und gehen und leben dabei - aus Perspektive der Surchengine-Anbieter - quasi parasitär auf Kosten der Suchmaschinen. Aus Nutzerperspektive haben sie allerdings einiges zu bieten, und die besten unter ihnen bringen tatsächlich eigene Leistungen ein, die die Qualität der bei anderen Suchdiensten gesammelten Ergebnisse steigert. Denn Metamaschinen "verbreitern" die Suche nicht nur, sie engen sie auch ein: Ein Beispiel wie Ithaki macht das sehr schön deutlich. Der Suchdienst fragt nur Kataloge für Kinderseiten ab - und wer weiß, wie dürftig die in aller Regel für sich genommen sind, wird für den breiteren, aber fest definierten Ansatz dankbar sein. Typisch: So was gibt es für den deutschsprachigen Raum natürlich wieder nicht.
Auch das bringt was: Gezielte Plattformwechsel Das versucht auch ein Dienst wie Pandia : Der Metasearcher kombiniert in seinen Anfragen gute Searchengines mit der Vollindexierung qualitativ hochwertiger Inhalte-Angebote. So kombiniert Pandia gezielt die Encyclopedia Britannica, Lexika und Searchengines mit den Datenbeständen von Amazon. Wozu das gut sein soll und kann, zeigt das praktische Beispiel einer sehr sachlich orientierten Suche: "Retina Implant". Dabei geht es um Techniken, über oparative Eingriffe und Implantate an Netzhaut-Degeneration erblindeter Menschen das Augenlicht (zumindest teilweise) wieder zu geben. Pandia beantwortet die Suche zunächst mit dem Verweis auf etliche universitäre und privatwirtschaftliche Forschungsinstitute. 13 von 15 Suchergebnissen sind 100 Prozent relevant: Hier geht es ab in die Forschung. Die letzten beiden verweisen zum einen auf eine Firma, die solche Implantate herstellt, die andere auf einen Fachkongress unter anderem zu diesem Thema: Das ist schon beeindruckend treffsicher. Und dann geht's erst los: Mit einem Klick überträgt Pandia die Suchabfrage auf das Suchmuster "Nachrichtensuche", als Resultat werden Presse- und Medienberichte geliefert. Deren Relevanz ist leicht niedriger: Um Implantate geht es immer, um Augen nicht unbedingt, aber in den meisten Fällen. Nicht schlecht. Noch ein Klick, und die Suche im "Pandia Plus Directory" reduziert die Trefferanzahl auf zwei: Ein Treffer führt zur Beschreibung des universitären "Retinal Implant Project", der andere zu Intelligent Implants, einer von Bonner Forschern gegründeten Firma, die sich auf solche Implantate spezialisiert hat - und nebenbei weltweit zu den führenden zählt. Noch ein Klick, und Pandia versucht, Bücher zum Thema zu finden: Die gibt es bisher nicht, aber mit Pandias Hilfe ließe sich sicher eins recherchieren und schreiben. Trotzdem: Keiner der angesprochenen Dienste taugt zum Universalwerkzeug. Was der eine kann, das schafft der andere nicht. Da hilft nur ausprobieren. Der Suchdienst muss zum Sucher passen. Fazit und Ausblick So gut Google auch ist, es geht noch besser. Die intelligente Kombination der besten Fertigkeiten guter Suchwerkzeuge schlägt selbst den Platzhirsch unter den Suchdiensten. Doch darum geht es ja gar nicht. Es geht darum, die Suche im Web effektiv zu gestalten, und das will nach wie vor gelernt sein. Noch einfacher und effektiver geht das mit zahlreichen, oft kostenlosen Werkzeugen, die entweder als eigenständige Software (Bots) für Suche und Archivierung sorgen, oder aber als Add-On in den heimischen Browser integriert werden können. Doch dazu mehr im zweiten Teil dieses kleinen Web-Wanderführers"

Series

SPIEGEL ONLINE - 13. November 2002

Semantische Suche über 500 Millionen Web-Dokumente (2009) 0.02

0.017470047 = product of:
  0.087350234 = sum of:
    0.009659718 = product of:
      0.019319436 = sum of:
        0.019319436 = weight(_text_:online in 2434) [ClassicSimilarity], result of:
          0.019319436 = score(doc=2434,freq=2.0), product of:
            0.096027054 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.031640913 = queryNorm
            0.20118743 = fieldWeight in 2434, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.046875 = fieldNorm(doc=2434)
      0.5 = coord(1/2)
    0.033011325 = weight(_text_:software in 2434) [ClassicSimilarity], result of:
      0.033011325 = score(doc=2434,freq=2.0), product of:
        0.12552431 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.031640913 = queryNorm
        0.2629875 = fieldWeight in 2434, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.046875 = fieldNorm(doc=2434)
    0.044679187 = weight(_text_:web in 2434) [ClassicSimilarity], result of:
      0.044679187 = score(doc=2434,freq=8.0), product of:
        0.10326045 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.031640913 = queryNorm
        0.43268442 = fieldWeight in 2434, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.046875 = fieldNorm(doc=2434)
  0.2 = coord(3/15)

Content: "Wissenschaftler an der University of Washington haben eine neue Suchmaschinen-Engine geschrieben, die Zusammenhänge und Fakten aus mehr als 500 Millionen einzelner Web-Seiten zusammentragen kann. Das Werkzeug extrahiert dabei Informationen aus Milliarden von Textzeilen, indem die grundlegenden sprachlichen Beziehungen zwischen Wörtern analysiert werden. Experten glauben, dass solche Systeme zur automatischen Informationsgewinnung eines Tages die Grundlage deutlich smarterer Suchmaschinen bilden werden, als sie heute verfügbar sind. Dazu werden die wichtigsten Datenhappen zunächst von einem Algorithmus intern begutachtet und dann intelligent kombiniert, berichtet Technology Review in seiner Online-Ausgabe. Das Projekt US-Forscher stellt eine deutliche Ausweitung einer zuvor an der gleichen Hochschule entwickelten Technik namens TextRunner dar. Sowohl die Anzahl analysierbarer Seiten als auch die Themengebiete wurden dabei stark erweitert. "TextRunner ist deshalb so bedeutsam, weil es skaliert, ohne dass dabei ein Mensch eingreifen müsste", sagt Peter Norvig, Forschungsdirektor bei Google. Der Internet-Konzern spendete dem Projekt die riesige Datenbank aus einzelnen Web-Seiten, die TextRunner analysiert. "Das System kann Millionen von Beziehungen erkennen und erlernen - und zwar nicht nur jede einzeln. Einen Betreuer braucht die Software nicht, die Informationen werden selbstständig ermittelt.""
Source: http://www.heise.de/newsticker/Semantische-Suche-ueber-500-Millionen-Web-Dokumente--/meldung/140630

Austin, D.: How Google finds your needle in the Web's haystack : as we'll see, the trick is to ask the web itself to rank the importance of pages... (2006) 0.02
```
0.015528813 = product of:
  0.077644065 = sum of:
    0.019256605 = weight(_text_:software in 93) [ClassicSimilarity], result of:
      0.019256605 = score(doc=93,freq=2.0), product of:
        0.12552431 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.031640913 = queryNorm
        0.15340936 = fieldWeight in 93, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.02734375 = fieldNorm(doc=93)
    0.02152901 = weight(_text_:evaluation in 93) [ClassicSimilarity], result of:
      0.02152901 = score(doc=93,freq=2.0), product of:
        0.13272417 = queryWeight, product of:
          4.1947007 = idf(docFreq=1811, maxDocs=44218)
          0.031640913 = queryNorm
        0.16220866 = fieldWeight in 93, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.1947007 = idf(docFreq=1811, maxDocs=44218)
          0.02734375 = fieldNorm(doc=93)
    0.036858454 = weight(_text_:web in 93) [ClassicSimilarity], result of:
      0.036858454 = score(doc=93,freq=16.0), product of:
        0.10326045 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.031640913 = queryNorm
        0.35694647 = fieldWeight in 93, product of:
          4.0 = tf(freq=16.0), with freq of:
            16.0 = termFreq=16.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.02734375 = fieldNorm(doc=93)
  0.2 = coord(3/15)
```
Abstract

Imagine a library containing 25 billion documents but with no centralized organization and no librarians. In addition, anyone may add a document at any time without telling anyone. You may feel sure that one of the documents contained in the collection has a piece of information that is vitally important to you, and, being impatient like most of us, you'd like to find it in a matter of seconds. How would you go about doing it? Posed in this way, the problem seems impossible. Yet this description is not too different from the World Wide Web, a huge, highly-disorganized collection of documents in many different formats. Of course, we're all familiar with search engines (perhaps you found this article using one) so we know that there is a solution. This article will describe Google's PageRank algorithm and how it returns pages from the web's collection of 25 billion documents that match search criteria so well that "google" has become a widely used verb. Most search engines, including Google, continually run an army of computer programs that retrieve pages from the web, index the words in each document, and store this information in an efficient format. Each time a user asks for a web search using a search phrase, such as "search engine," the search engine determines all the pages on the web that contains the words in the search phrase. (Perhaps additional information such as the distance between the words "search" and "engine" will be noted as well.) Here is the problem: Google now claims to index 25 billion pages. Roughly 95% of the text in web pages is composed from a mere 10,000 words. This means that, for most searches, there will be a huge number of pages containing the words in the search phrase. What is needed is a means of ranking the importance of the pages that fit the search criteria so that the pages can be sorted with the most important pages at the top of the list. One way to determine the importance of pages is to use a human-generated ranking. For instance, you may have seen pages that consist mainly of a large number of links to other resources in a particular area of interest. Assuming the person maintaining this page is reliable, the pages referenced are likely to be useful. Of course, the list may quickly fall out of date, and the person maintaining the list may miss some important pages, either unintentionally or as a result of an unstated bias. Google's PageRank algorithm assesses the importance of web pages without human evaluation of the content. In fact, Google feels that the value of its service is largely in its ability to provide unbiased results to search queries; Google claims, "the heart of our software is PageRank." As we'll see, the trick is to ask the web itself to rank the importance of pages.
Sander-Beuermann, W.: Schürfrechte im Informationszeitalter : Google hin, Microsoft her v das Internet braucht eine freie Suchkultur (2005) 0.01
```
0.014529367 = product of:
  0.072646834 = sum of:
    0.039514795 = weight(_text_:suchmaschine in 3245) [ClassicSimilarity], result of:
      0.039514795 = score(doc=3245,freq=4.0), product of:
        0.17890577 = queryWeight, product of:
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.031640913 = queryNorm
        0.22086932 = fieldWeight in 3245, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.01953125 = fieldNorm(doc=3245)
    0.023823872 = weight(_text_:software in 3245) [ClassicSimilarity], result of:
      0.023823872 = score(doc=3245,freq=6.0), product of:
        0.12552431 = queryWeight, product of:
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.031640913 = queryNorm
        0.18979488 = fieldWeight in 3245, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          3.9671519 = idf(docFreq=2274, maxDocs=44218)
          0.01953125 = fieldNorm(doc=3245)
    0.009308165 = weight(_text_:web in 3245) [ClassicSimilarity], result of:
      0.009308165 = score(doc=3245,freq=2.0), product of:
        0.10326045 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.031640913 = queryNorm
        0.09014259 = fieldWeight in 3245, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.01953125 = fieldNorm(doc=3245)
  0.2 = coord(3/15)
```
Abstract

Artikel als Reaktion auf das Angebot von Google: http://scholar.google.com/. Begleitkommentar des Verfassers: Der "Google-Scholar" (http://scholar.google.com/) ist durchaus eine bemerkenswerte Entwicklung von Google, welche die Internet-Suchtechnik voranbringt - zumindest vordergruendig. Der Satz auf der Scholar Startseite "Stand on the shoulders of giants" drueckt es treffend aus: derart gigantische Ressourcen hat eben im Suchmaschinenbereich sonst niemand. Und genau DAS ist der Punkt: das Quasi-Monopol von Google (spaeter u.U. Microsoft) wird dadurch NOCH staerker werden. Ich halte diese Entwicklung fuer bedrohlich. An dieser Stelle ist kein Vorwurf an Google zu richten: dort verhaelt man sich nur so, wie es der Markt verlangt. Der Vorwurf ist dorthin zu richten, wo diese Entwicklung gesehen und ignoriert wird. Ich erlebe es immer wieder, auch in "hochrangigen" Gespraechen, dass als "Argument" gegen alternative Enticklungen vorgebracht wird "was wollt ihr da eigentlich - es gibt doch Google und die sind doch gut". Solche Kurzsichtigkeit ist kaum uebertreffbar. Von der Zeitschrift "Technology Review" des Heise-Verlages (das deutsche Pendant zum MIT-Review) wurde ich gebeten, hierzu einen Artikel zu schreiben. Sie finden diesen Artikel bei Interesse im WWW unter http://suma-ev.de/tech-rev1.html Daraus hat sich eine Diskussion ueber unabhaengige Suchmaschinen ergeben, die ich hier kurz skizzieren moechte: ----------------------------------------------------------------------- Unabhaengige Suchmaschinen sind in einem weiten Spektrum von Moeglichkeiten denkbar: 1. von voellig freien, nicht strukturierten, losen Zusammenschluessen, z.B. auf Peer-to-Peer Basis (a la YACY: http://suma-lab.de/) 2. bis hin zu staatlich gewollter Unabhaengigkeit durch gesetzliche Regelungen (aehnlich der Intention beim oeffentlich-rechtlichen Rundfunk und Fernsehen); Stichwort: oeffentlich-rechtliche Suchmaschine 3. Dazwischen sind Optionen denkbar, die beides kombinieren: eine Vielzahl von Betreibern kleinerer Suchmaschinen (Mini-Sucher), die sich zu Verbuenden organisieren, in denen Organisationen des oeffentlich-rechtlichen Raumes, wie z.B. Bibliotheken und Universitaeten als klassische Wissensvermittler, eine tragende Rolle spielen. 4. Und moeglicherweise sehen SIE noch ganz andere Moeglichkeiten ...?

Content

Suchmaschinen-Monopolisten können bestimmen oder kontrollieren, welche Information wann und auf welchen Rechnern verfügbar ist, und in welcher Reihenfolge die Ergebnisse angezeigt werden. Durch Beobachtung der Abrufe können die Unternehmen genaue Profile ihrer Nutzer erstellen. Um die Vormacht der kommerziellen Wissenswächter zu brechen, bedarf es einer freien Suchkultur - so wie das offene Betriebssystem Linux die Welt vor einer reinen Windows-Monokultur bewahrt hat. Immerhin scheint man auch auf staatlicher Seite das Problem des "Information Overkill" erkannt zu haben. Die öffentliche Hand fördert zahlreiche Projekte, die Ordnung in den Datenwust bringen wollen. Doch die meisten davon sind mehr visionär als realistisch. Vom einst so gefeierten "Semantic Web" etwa ist auch nach Jahren kaum Handfestes zu sehen. Kein Wunder: Solche Vorhaben setzen voraus, dass die Daten zunächst eingesammelt und suchgerecht indiziert werden. Mangels freier Software fehlt diese Voraussetzung. Was also ist nötig, um im Informationszeitalter die freie Verfügbarkeit der Ressourcen sicherzustellen? Die Antwort ist die gleiche wie einst für Kohle, Eisen und Öl: eine Vielfalt von Anbietern. Der beste Weg dorthin führt über freie Suchmaschinen-Software, auf welche die Betreiber solcher Maschinen zurückgreifen können. Dann entstünde ganz von selbst ein offener und dynamischer Wettbewerb. Freie Suchmaschinen-Software ist jedoch sehr rar. Es gibt Ansätze dazu in Russland und ein einziges Projekt in den USA (nutch.org). Auch Europa ist weitgehend Ödnis - bis auf den Lichtblick Yacy, ein Vorhaben des Frankfurter Softwarespezialisten Michael Christen. Yacy ist meines Wissen der weltweit einzige proof-of-concept einer strikt dezentralen Peer-to-Peer-Suchmaschine (suma-lab.de:8080"). Um die Suchmaschinen-Landschaft zu beleben, haben nun 13 Forscher, Politiker und Unternehmer den "Gemeinnützigen Verein zur Förderung der Suchmaschinen-Technologie und des freien Wissenszugangs" (kurz: SuMa-eV, suma-ev.de) mit Sitz in Hannover gegründet. Zu den Gründungsmitgliedern gehören der MP3-Erfinder Karlheinz Brandenburg, der Vizepräsident für Forschung der Universität Hannover Wolfgang Ertmer und ich selbst. Ziel des SuMa-eV ist die Etablierung einer auf möglichst viele autarke Systeme verteilten Suchmaschinen-Infrastruktur, die von ihrem Bauprinzip her kaum monopolisierbar ist. Der Kerngedanke dieser Struktur, die sich aus sehr vielen und sehr unterschiedlichen Bausteinen zusammensetzen kann, liegt in der Autarkie der Einzelsysteme: gesellschaftlicher Pluralismus wird netztopologisch abgebildet. Eigentlich wäre es im Interesse und in der Macht des Staats, die Meinungsvielfalt im Netz besser zu sichern. Während er - abgesehen von ein paar hellhörigen Parlamentariern - noch träumerische Visionen pflegt, müssen Initiativen wie SuMa-eV einspringen."
Niemann, J.: "Ich cuil das mal" : Neue Suchmaschine fordert Google heraus (2008) 0.01
```
0.011182685 = product of:
  0.083870135 = sum of:
    0.0782353 = weight(_text_:suchmaschine in 2049) [ClassicSimilarity], result of:
      0.0782353 = score(doc=2049,freq=8.0), product of:
        0.17890577 = queryWeight, product of:
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.031640913 = queryNorm
        0.43729892 = fieldWeight in 2049, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.02734375 = fieldNorm(doc=2049)
    0.0056348355 = product of:
      0.011269671 = sum of:
        0.011269671 = weight(_text_:online in 2049) [ClassicSimilarity], result of:
          0.011269671 = score(doc=2049,freq=2.0), product of:
            0.096027054 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.031640913 = queryNorm
            0.11735933 = fieldWeight in 2049, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.02734375 = fieldNorm(doc=2049)
      0.5 = coord(1/2)
  0.13333334 = coord(2/15)
```
Abstract

Die neue Suchmaschine "Cuil" ist mit ehrgeizigen Zielen und großen Worten online gegangen. Dass sie keine Nutzerdaten sammelt, macht sie attraktiv - ihre deutschen Suchergebnisse weniger.

Content

"Daran, dass der Suchmaschinen-Gigant Google immer und in allem der Größte und Beste sein muss, haben sich Internet-Nutzer aus aller Welt längst gewöhnt. Und als das Unternehmen am Wochenende in seinem offiziellen Blog damit angab, nun den Meilenstein von eine Billion gefundener eigenständiger URLs erreicht zu haben, war das eigentlich kaum noch ein Grund aufzuhorchen. Zumal bisher der Google-Index auf 30 bis 50 Milliarden geschätzt wurde und unklar ist, ob die angeblichen Billionen Links auch indexiert sind und nicht zu großen Teilen auch zu den selben Seiten führen. Wenn nun aber plötzlich eine andere, völlig neue Suchmaschine namens "Cuil" - gesprochen "Cool"- am Start ist und behauptet, 121 Milliarden Seiten zu durchsuchen und dabei überhaupt keine Nutzerdaten speichert, ist das hingegen schon ein Anlass zum Aufhorchen. Schließlich ist man angesichts der "Daten-Kraken"-Meldungen über Google und seine Speichermethoden dankbar für jede Alternative. Gegründet wurde Cuil im Jahre 2006 von dem Ehepaar Tom Costello, ein früherer IBM-Manager und Stanford-Professor und Anna Patterson, ehemalige Google-Mitarbeiterin, in Menlo Park in Kalifornien mit einem Startkapital von 33 Millionen Dollar und startete am Wochenende offiziell den Suchbetrieb. Der ist allerdings noch stark verbesserungsfähig. Während Cuil zu dem Begriff "Schwangerschaft" angeblich 6.768.056 Treffer aufweisen kann, die allerdings in ihrer Priorisierung von Medikamenten, Blogs und Büchern eher unbrauchbar sind, stehen dem englischsprachigen User unter dem Begriff Pregnancy immerhin 241.127.157 auf den ersten Blick sehr präzise Treffer zur Verfügung. Da erscheint die Aussage Costellos, man wolle "Suchenden content-basierte Ergebnisse präsentieren und nicht nur populäre" weniger absurd. Google hat beim selben deutschen Suchbegriff über acht Millionen Treffer, zu Pregnancy über 111 Millionen. Im englischen steht Cuil Google also nicht nach, während es im deutschsprachigen Bereich allerdings auch bei Namen, Orten und Wikipedia-Einträgen noch recht bescheiden aussieht.
Viel interessanter als die imposante Zahl von 121 Milliarden, die für Sucher im Netz im Zweifelsfall viel Irrelevantes bedeutet, ist die von Google abweichende Suchergebnis-Anordnung in Spalten und zumindest der Wille, die Treffer thematisch zu ordnen und mit Bildern und beschreibendem Kontext zu versehen. Auch die Tatsache, dass laut Datenschutzrichtlinien die IP-Adressen nicht gespeichert werden und die in Cookies dokumentierten Daten über das Surfverhalten der Nutzer auch nicht, könnte potenzielle Nutzer eher locken als schiere Link-Masse. Denn Cuil ist bei weitem nicht das erste Konkurrenzprodukt von Google, erst kürzlich startete Wikipedia-Gründer Jimmy Wales das bisher ziemlich erfolglose "Wikia". Während Google in den USA laut New York Times 61,5 der Suchanfragen verbucht, hat Yahoo dort immerhin 20,9 Prozent und Microsofts Live Search 9,2 Prozent - also wäre es für Cuil schon mal ein Anfang, Microsoft Konkurrenz zu machen. Derzeit ist die neue Suchmaschine dem großen Anfrage-Ansturm allerdings nicht gewachsen und deshalb häufig nicht erreichbar."
Bates, M.E.: Quick answers to odd questions (2004) 0.01
```
0.009891073 = product of:
  0.07418305 = sum of:
    0.019346658 = weight(_text_:web in 3071) [ClassicSimilarity], result of:
      0.019346658 = score(doc=3071,freq=6.0), product of:
        0.10326045 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.031640913 = queryNorm
        0.18735787 = fieldWeight in 3071, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.0234375 = fieldNorm(doc=3071)
    0.05483639 = weight(_text_:site in 3071) [ClassicSimilarity], result of:
      0.05483639 = score(doc=3071,freq=6.0), product of:
        0.1738463 = queryWeight, product of:
          5.494352 = idf(docFreq=493, maxDocs=44218)
          0.031640913 = queryNorm
        0.31543028 = fieldWeight in 3071, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          5.494352 = idf(docFreq=493, maxDocs=44218)
          0.0234375 = fieldNorm(doc=3071)
  0.13333334 = coord(2/15)
```
Content

"One of the things I enjoyed the most when I was a reference librarian was the wide range of questions my clients sent my way. What was the original title of the first Godzilla movie? (Gojira, released in 1954) Who said 'I'm as pure as the driven slush'? (Tallulah Bankhead) What percentage of adults have gone to a jazz performance in the last year? (11%) I have found that librarians, speech writers and journalists have one thing in common - we all need to find information on all kinds of topics, and we usually need the answers right now. The following are a few of my favorite sites for finding answers to those there-must-be-an-answer-out-there questions. - For the electronic equivalent to the "ready reference" shelf of resources that most librarians keep hidden behind their desks, check out RefDesk . It is particularly good for answering factual questions - Where do I get the new Windows XP Service Pack? Where is the 386 area code? How do I contact my member of Congress? - Another resource for lots of those quick-fact questions is InfoPlease, the publishers of the Information Please almanac .- Right now, it's full of Olympics data, but it also has links to facts and factoids that you would look up in an almanac, atlas, or encyclopedia. - If you want numbers, start with the Statistical Abstract of the US. This source, produced by the U.S. Census Bureau, gives you everything from the divorce rate by state to airline cost indexes going back to 1980. It is many librarians' secret weapon for pulling numbers together quickly. - My favorite question is "how does that work?" Haven't you ever wondered how they get that Olympic torch to continue to burn while it is being carried by runners from one city to the next? Or how solar sails manage to propel a spacecraft? For answers, check out the appropriately-named How Stuff Works. - For questions about movies, my first resource is the Internet Movie Database. It is easy to search, is such a popular site that mistakes are corrected quickly, and is a fun place to catch trailers of both upcoming movies and those dating back to the 30s. - When I need to figure out who said what, I still tend to rely on the print sources such as Bartlett's Familiar Quotations . No, the current edition is not available on the web, but - and this is the librarian in me - I really appreciate the fact that I not only get the attribution but I also see the source of the quote. There are far too many quotes being attributed to a celebrity, but with no indication of the publication in which the quote appeared. Take, for example, the much-cited quote of Margaret Meade, "Never doubt that a small group of thoughtful committed people can change the world; indeed, it's the only thing that ever has!" Then see the page on the Institute for Intercultural Studies site, founded by Meade, and read its statement that it has never been able to verify this alleged quote from Meade. While there are lots of web-based sources of quotes (see QuotationsPage.com and Bartleby, for example), unless the site provides the original source for the quotation, I wouldn't rely on the citation. Of course, if you have a hunch as to the source of a quote, and it was published prior to 1923, head over to Project Gutenberg , which includes the full text of over 12,000 books that are in the public domain. When I needed to confirm a quotation of the Red Queen in "Through the Looking Glass", this is where I started. - And if you are stumped as to where to go to find information, instead of Googling it, try the Librarians' Index to the Internet. While it is somewhat US-centric, it is a great directory of web resources."
Radhakrishnan, A.: Swoogle : an engine for the Semantic Web (2007) 0.01
```
0.009046065 = product of:
  0.06784548 = sum of:
    0.006439812 = product of:
      0.012879624 = sum of:
        0.012879624 = weight(_text_:online in 4709) [ClassicSimilarity], result of:
          0.012879624 = score(doc=4709,freq=2.0), product of:
            0.096027054 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.031640913 = queryNorm
            0.13412495 = fieldWeight in 4709, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.03125 = fieldNorm(doc=4709)
      0.5 = coord(1/2)
    0.06140567 = weight(_text_:web in 4709) [ClassicSimilarity], result of:
      0.06140567 = score(doc=4709,freq=34.0), product of:
        0.10326045 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.031640913 = queryNorm
        0.59466785 = fieldWeight in 4709, product of:
          5.8309517 = tf(freq=34.0), with freq of:
            34.0 = termFreq=34.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03125 = fieldNorm(doc=4709)
  0.13333334 = coord(2/15)
```
Content

"Swoogle, the Semantic web search engine, is a research project carried out by the ebiquity research group in the Computer Science and Electrical Engineering Department at the University of Maryland. It's an engine tailored towards finding documents on the semantic web. The whole research paper is available here. Semantic web is touted as the next generation of online content representation where the web documents are represented in a language that is not only easy for humans but is machine readable (easing the integration of data as never thought possible) as well. And the main elements of the semantic web include data model description formats such as Resource Description Framework (RDF), a variety of data interchange formats (e.g. RDF/XML, Turtle, N-Triples), and notations such as RDF Schema (RDFS), the Web Ontology Language (OWL), all of which are intended to provide a formal description of concepts, terms, and relationships within a given knowledge domain (Wikipedia). And Swoogle is an attempt to mine and index this new set of web documents. The engine performs crawling of semantic documents like most web search engines and the search is available as web service too. The engine is primarily written in Java with the PHP used for the front-end and MySQL for database. Swoogle is capable of searching over 10,000 ontologies and indexes more that 1.3 million web documents. It also computes the importance of a Semantic Web document. The techniques used for indexing are the more google-type page ranking and also mining the documents for inter-relationships that are the basis for the semantic web. For more information on how the RDF framework can be used to relate documents, read the link here. Being a research project, and with a non-commercial motive, there is not much hype around Swoogle. However, the approach to indexing of Semantic web documents is an approach that most engines will have to take at some point of time. When the Internet debuted, there were no specific engines available for indexing or searching. The Search domain only picked up as more and more content became available. One fundamental question that I've always wondered about it is - provided that the search engines return very relevant results for a query - how to ascertain that the documents are indeed the most relevant ones available. There is always an inherent delay in indexing of document. Its here that the new semantic documents search engines can close delay. Experimenting with the concept of Search in the semantic web can only bore well for the future of search technology."

Source

http://www.searchenginejournal.com/swoogle-an-engine-for-the-semantic-web/5469/

Theme

Semantic Web
bbu/c't: Ask Jeeves mit verbesserten Suchfunktionen (2005) 0.01
```
0.008769047 = product of:
  0.065767854 = sum of:
    0.044705886 = weight(_text_:suchmaschine in 3453) [ClassicSimilarity], result of:
      0.044705886 = score(doc=3453,freq=2.0), product of:
        0.17890577 = queryWeight, product of:
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.031640913 = queryNorm
        0.2498851 = fieldWeight in 3453, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.03125 = fieldNorm(doc=3453)
    0.021061972 = weight(_text_:web in 3453) [ClassicSimilarity], result of:
      0.021061972 = score(doc=3453,freq=4.0), product of:
        0.10326045 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.031640913 = queryNorm
        0.2039694 = fieldWeight in 3453, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03125 = fieldNorm(doc=3453)
  0.13333334 = coord(2/15)
```
Abstract

Mit nicht völlig neuen, aber überarbeiteten Suchfunktionen erweitert das zum Firmenimperium des US-Medienzaren Barry Diller gehörende Unternehmen Ask Jeeves das Leistungsspektrum seiner Suchmaschine. Mit der Ergebnisverfeinerungsfunktion Focus erhält der Suchende auf der rechten oberen Bildschirmseite eine Liste, die das Thema seiner Suche thematisch aufgliedern soll. Eine zweite Neuerung verspricht präzise Antworten auf als Fragen formulierte Sucheinträge. So ergibt der Eintrag "Lady Diana" zum Beispiel eine Liste mit den Items Princess Di, Princess Dianas Life, Princess Diana's Wedding. Interessant dabei ist, dass diese Liste nicht einfach aus einem monolithischen Block von Schlüsselwörtern besteht, sondern in drei Kategorien aufgeteilt ist: "Narrow Your Search", "Expand Your Search" und "Related Names". Waren die eben genannten Beispiele aus der ersten Kategorie, finden sich unter Expand Your Search Einträge wie Royal Family, Princess Di Ring, Princess Di Prince Charles History oder Prince William Harry, allerdings auch Who Is Louis De Funes? "Related Names" verweist auf Einträge wie Diana Spencer, Prince Harry oder Imran Khan. Die Suchfunktion soll also die thematische Verfeinerung oder Ausweitung gleichermaßen wie die Fortsetzung der Suche mit einem verwandten Thema ermöglichen. Auf die Frage "who invented the telephone" erhält der Suchende als ersten Eintrag die Antwort "The telephone was invented by Alexander Graham Bell" mit dem roten Vermerk "Web Answer'. Bemerkenswert ist hier, dass auf eine Frage nicht nur eine passende Webseite mit der Antwort angezeigt wird, sondern die ausformulierte Antwort direkt aus der vorgeschlagenen Webseite zitiert wird. Die Frage "who is the mother of Albert Einstein" gibt immerhin einen Eintrag unter "Narrow Your Search" mit "Albert Einstein Family tree". Ask Jeeves wird wohl noch eine weitere Neuerung bevorstehen: Auf einer Pressekonferenz in San Francisco bemerkte Chief Executive Barry Diller, dass das Unternehmen über eine Namensänderung von Ask Jeeves nachdenke. Wahrscheinlich werde auf eines der beiden Worte verzichtet werden. Mit dem Sucheintrag "How will Ask Jeeves be called in the future" erhält man bislang jedoch noch keine "Web Answer". (26.05.2005 15:30)
Dodge, M.: ¬A map of Yahoo! (2000) 0.01
```
0.0073641115 = product of:
  0.055230834 = sum of:
    0.034124296 = weight(_text_:web in 1555) [ClassicSimilarity], result of:
      0.034124296 = score(doc=1555,freq=42.0), product of:
        0.10326045 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.031640913 = queryNorm
        0.3304682 = fieldWeight in 1555, product of:
          6.4807405 = tf(freq=42.0), with freq of:
            42.0 = termFreq=42.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.015625 = fieldNorm(doc=1555)
    0.021106536 = weight(_text_:site in 1555) [ClassicSimilarity], result of:
      0.021106536 = score(doc=1555,freq=2.0), product of:
        0.1738463 = queryWeight, product of:
          5.494352 = idf(docFreq=493, maxDocs=44218)
          0.031640913 = queryNorm
        0.12140917 = fieldWeight in 1555, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.494352 = idf(docFreq=493, maxDocs=44218)
          0.015625 = fieldNorm(doc=1555)
  0.13333334 = coord(2/15)
```
Content

"Introduction Yahoo! is the undisputed king of the Web directories, providing one of the key information navigation tools on the Internet. It has maintained its popularity over many Internet-years as the most visited Web site, against intense competition. This is because it does a good job of shifting, cataloguing and organising the Web [1] . But what would a map of Yahoo!'s hierarchical classification of the Web look like? Would an interactive map of Yahoo!, rather than the conventional listing of sites, be more useful as navigational tool? We can get some idea what a map of Yahoo! might be like by taking a look at ET-Map, a prototype developed by Hsinchun Chen and colleagues in the Artificial Intelligence Lab [2] at the University of Arizona. ET-Map was developed in 1995 as part of innovative research in automatic Internet homepage categorization and it charts a large chunk of Yahoo!, from the entertainment section representing some 110,000 different Web links. The map is a two-dimensional, multi-layered category map; its aim is to provide an intuitive visual information browsing tool. ET-Map can be browsed interactively, explored and queried, using the familiar point-and-click navigation style of the Web to find information of interest.
The View From Above Browsing for a particular piece on information on the Web can often feel like being stuck in an unfamiliar part of town walking around at street level looking for a particular store. You know the store is around there somewhere, but your viewpoint at ground level is constrained. What you really want is to get above the streets, hovering half a mile or so up in the air, to see the whole neighbourhood. This kind of birds-eye view function has been memorably described by David D. Clark, Senior Research Scientist at MIT's Laboratory for Computer Science and the Chairman of the Invisible Worlds Protocol Advisory Board, as the missing "up button" on the browser [3] . ET-Map is a nice example of a prototype for Clark's "up-button" view of an information space. The goal of information maps, like ET-Map, is to provide the browser with a sense of the lie of the information landscape, what is where, the location of clusters and hotspots, what is related to what. Ideally, this 'big-picture' all-in-one visual summary needs to fit on a single standard computer screen. ET-Map is one of my favourite examples, but there are many other interesting information maps being developed by other researchers and companies (see inset at the bottom of this page). How does ET-Map work? Here is a sequence of screenshots of a typical browsing session with ET-Map, which ends with access to Web pages on jazz musician Miles Davis. You can also tryout ET-Map for yourself, using a fully working demo on the AI Lab's website [4] . We begin with the top-level map showing forty odd broad entertainment 'subject regions' represented by regularly shaped tiles. Each tile is a visual summary of a group of Web pages with similar content. These tiles are shaded different colours to differentiate them, while labels identify the subject of the tile and the number in brackets telling you how many individual Web page links it contains. ET-Map uses two important, but common-sense, spatial concepts in its organisation and representation of the Web. Firstly, the 'subject regions' size is directly related to the number of Web pages in that category. For example, the 'MUSIC' subject area contains over 11,000 pages and so has a much larger area than the neighbouring area of 'LIVE' which only has 4,300 odd pages. This is intuitively meaningful, as the largest tiles are visually more prominent on the map and are likely to be more significant as they contain the most links. In addition, a second spatial concept, that of neighbourhood proximity, is applied so 'subject regions' closely related in term of content are plotted close to each other on the map. For example, 'FILM' and 'YEAR'S OSCARS', at the bottom left, are neighbours in both semantic and spatial space. This make senses as many things in the real-world are ordered in this way, with things that are alike being spatially close together (e.g. layout of goods in a store, or books in a library). Importantly, ET-Map is also a multi-layer map, with sub-maps showing greater informational resolution through a finer degree of categorization. So for any subject region that contains more than two hundred Web pages, a second-level map, with more detailed categories is generated. This subdivision of information space is repeated down the hierarchy as far as necessary. In the example, the user selected the 'MUSIC' subject region which, not surprisingly, contained many thousands of pages. A second-level map with numerous different music categories is then presented to the user. Delving deeper, the user wants to learn more about jazz music, so clicking on the 'JAZZ' tile leads to a third-level map, a fine-grained map of jazz related Web pages. Finally, selecting the 'MILES DAVIS' subject region leads to more a conventional looking ranking of pages from which the user selects one to download.
ET-Map was created using a sophisticated AI technique called Kohonen self-organizing map, a neural network approach that has been used for automatic analysis and classification of semantic content of text documents like Web pages. I do not pretend to fully understand how this technique works; I tend to think of it as a clever 'black-box' that group together things that are alike [5] . It is a real challenge to automatically classify pages from a very heterogeneous information collection like the Web into categories that will match the conceptions of a typical user. Directories like Yahoo! tend to rely on the skill of human editors to achieve this. ET-Map is an interesting prototype that I think highlights well the potential for a map-based approach to Web browsing. I am surprised none of the major search engines or directories have introduced the option of mapping results. Although, I am sure many are working on ideas. People certainly need all the help they get, as Web growth shows no sign of slowing. Just last month it was reported that the Web had surpassed one billion indexable pages [6].
Research Prototypes Visual SiteMap Developed by Xia Lin, based at the College of Library and Information Science, Drexel University. CVG Cyberspace geography visualization, developed by Luc Girardin, at The Graduate Institute of International Studies, Switzerland. WEBSOM Maps the thousands of articles posted on Usenet newsgroups. It is being developed by researchers at the Neural Networks Research Centre, Helsinki University of Technology in Finland. TreeMaps Developed by Brian Johnson, Ben Shneiderman and colleagues in the Human-Computer Interaction Lab at the University of Maryland. Commercial Information Maps: NewsMaps Provides interactive information landscapes summarizing daily news stories, developed Cartia, Inc. Web Squirrel Creates maps known as information farms. It is developed by Eastgate Systems, Inc. Umap Produces interactive maps of Web searches. Map of the Market An interactive map of the market performance of the stocks of major US corporations developed by SmartMoney.com."
Palm, G.: ¬Der Zeitgeist in der Suchmaschine : Unser alltäglicher "Google-Hupf" und seine Spuren (2002) 0.01
```
0.0064527392 = product of:
  0.09679108 = sum of:
    0.09679108 = weight(_text_:suchmaschine in 1226) [ClassicSimilarity], result of:
      0.09679108 = score(doc=1226,freq=6.0), product of:
        0.17890577 = queryWeight, product of:
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.031640913 = queryNorm
        0.5410171 = fieldWeight in 1226, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1226)
  0.06666667 = coord(1/15)
```
Abstract

Zeitmaschinen gibt es schon länger, spätestens seit H. G. Wells, aber eine Zeitgeistmaschine existiert erst seit 1998: Google. Trend-Gurus und ihre Trend-Büros gehören demnächst der Vergangenheit an. Eine weitere Ironie des Netzes, das heute bereits verabschiedet, was doch für morgen bestimmt war. Google macht die ohnehin so anfechtbare Zunft der Seher tendenziell arbeitslos, weil die Suchmaschine der Suchmaschinen sich nicht auf Nostradamus oder Horoskop, Kassandra oder Kaffeesatz, sondern auf Suchanfragen verlässt. Was die Welt umtreibt, was mega-in oder mega-out ist, bildet sich in Googles Zeitgeistfeature ab. Das komplexe Wunder von Google ist der Vokal "o", der bekanntlich erstaunlich dehnbar ist, wenn die Welt auf der Suche nach sich selbst ist. Google führt sich auf ein Wortspiel mit dem mathematischen Begriff "googol" zurück, eine 1 mit 100 Nullen. Rechnet man Googles Partnerschaften mit Yahoo und anderen dazu, wird pro Tag ca. 150 Millionen mal gegoogelt - Tendenz selbstverständlich steigend. Nach Google-Mitgründer Larry Page besteht der Anspruch der perfekten Suchmaschine darin, dass sie genau versteht, was der Suchende will und ihn exakt bedient. Doch das ist nur die längst nicht erreichte Sonnenseite der blitzschnell generierten Suchantworten der digitalen Wissensgesellschaft. Die vielen Fragen der Wissbegierigen sind selbst Antworten - Antworten auf die Frage nach den Interessen, Wünschen und Begierden der Netzgesellschaft.
Teutsch, K.: ¬Die Welt ist doch eine Scheibe : Google-Herausforderer eyePlorer (2009) 0.01
```
0.0054372414 = product of:
  0.040779307 = sum of:
    0.02794118 = weight(_text_:suchmaschine in 2678) [ClassicSimilarity], result of:
      0.02794118 = score(doc=2678,freq=2.0), product of:
        0.17890577 = queryWeight, product of:
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.031640913 = queryNorm
        0.15617819 = fieldWeight in 2678, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.01953125 = fieldNorm(doc=2678)
    0.012838126 = product of:
      0.025676252 = sum of:
        0.025676252 = weight(_text_:recherche in 2678) [ClassicSimilarity], result of:
          0.025676252 = score(doc=2678,freq=2.0), product of:
            0.17150146 = queryWeight, product of:
              5.4202437 = idf(docFreq=531, maxDocs=44218)
              0.031640913 = queryNorm
            0.14971448 = fieldWeight in 2678, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.4202437 = idf(docFreq=531, maxDocs=44218)
              0.01953125 = fieldNorm(doc=2678)
      0.5 = coord(1/2)
  0.13333334 = coord(2/15)
```
Content

Einstein, Weizsäcker und Hitler Zu Demonstrationszwecken wird die eyePlorer-Scheibe an die Wand projiziert. Gibt man im kleinen Suchfeld in der Mitte den Namen Werner Heisenberg ein, verwandelt sich die Scheibe in einen Tortenboden. Die einzelnen Stücke entsprechen Kategorien wie "Person", "Technologie" oder "Organisation". Sie selbst sind mit bunten Knöpfen bedeckt, unter denen sich die Informationen verbergen. So kommt es, dass man beim Thema Heisenberg nicht nur auf die Kollegen Einstein, Weizsäcker und Schrödinger trifft, sondern auch auf Adolf Hitler. Ein Klick auf den entsprechenden Button stellt unter anderem heraus: Heisenberg kam 1933 unter Beschuss der SS, weil er sich nicht vor den Karren einer antisemitischen Physikbewegung spannen ließ. Nach diesem Prinzip spült die frei assoziierende Maschine vollautomatisch immer wieder neue Fakten an, um die der Nutzer zwar nicht gebeten hat, die ihn bei seiner Recherche aber möglicherweise unterstützen und die er später - die Maschine ist noch ausbaubedürftig - auch modellieren darf. Aber will man das, sich von einer Maschine beraten lassen? "Google ist wie ein Zoo", sekundiert Ralf von Grafenstein. "In einem Gehege steht eine Giraffe, im anderen ein Raubtier, aber die sind klar getrennt voneinander durch Gitter und Wege. Es gibt keine Möglichkeit, sie zusammen anzuschauen. Da kommen wir ins Spiel. Wir können Äpfel mit Birnen vergleichen!" Die Welt ist eine Scheibe oder die Scheibe eben eine Welt, auf der vieles mit vielem zusammenhängt und manches auch mit nichts. Der Vorteil dieser Maschine ist, dass sie in Zukunft Sinn stiften könnte, wo andere nur spröde auf Quellen verweisen. "Google ist ja ein unheimlich heterogenes Erlebnis mit ständigen Wartezeiten und Mausklicks dazwischen. Das kostet mich viel zu viel Metagedankenkraft", sagt Hirsch. "Wir wollten eine Maschine mit einer ästhetisch ansprechenden Umgebung bauen, aus der ich mich kaum wegbewege, denn sie liefert mir Informationen in meinen Gedanken hinein."
Wenn die Maschine denkt Zur Hybris des Projekts passt, dass der eyePlorer ursprünglich HAL heißen sollte - wie der außer Rand und Band geratene Bordcomputer aus Kubricks "2001: Odyssee im Weltraum". Wenn man die Buchstaben aber jeweils um eine Alphabetposition nach rechts verrückt, ergibt sich IBM. Was passiert mit unserem Wissen, wenn die Maschine selbst anfängt zu denken? Ralf von Grafenstein macht ein ernstes Gesicht. "Es ist nicht unser Ansinnen, sie alleinzulassen. Es geht bei uns ja nicht nur darum, zu finden, sondern auch mitzumachen. Die Community ist wichtig. Der Dialog ist beiderseitig." Der Lotse soll in Form einer wachsamen Gemeinschaft also an Bord bleiben. Begünstigt wird diese Annahme auch durch die aufkommenden Anfasstechnologien, mit denen das iPhone derzeit so erfolgreich ist: "Allein zehn Prozent der menschlichen Gehirnleistung gehen auf den Pinzettengriff zurück." Martin Hirsch wundert sich, dass diese Erkenntnis von der IT-Branche erst jetzt berücksichtigt wird. Auf berührungssensiblen Bildschirmen sollen die Nutzer mit wenigen Handgriffen bald spielerisch Inhalte schaffen und dem System zur Verfügung stellen. So wird aus der Suchmaschine ein "Sparringspartner" und aus einem Informationsknopf ein "Knowledge Nugget". Wie auch immer man die Erkenntniszutaten des Internetgroßmarkts serviert: Wissen als Zeitwort ist ein länglicher Prozess. Im Moment sei die Maschine noch auf dem Stand eines Zweijährigen, sagen ihre Schöpfer. Sozialisiert werden soll sie demnächst im Internet, ihre Erziehung erfolgt dann durch die Nutzer. Als er Martin Hirsch mit seiner Scheibe zum ersten Mal gesehen habe, dachte Ralf von Grafenstein: "Das ist überfällig! Das wird kommen! Das muss raus!" Jetzt ist es da, klein, unschuldig und unscheinbar. Man findet es bei Google."
Sietmann, R.: Suchmaschine für das akademische Internet (2004) 0.01
```
0.0052686394 = product of:
  0.07902959 = sum of:
    0.07902959 = weight(_text_:suchmaschine in 5742) [ClassicSimilarity], result of:
      0.07902959 = score(doc=5742,freq=4.0), product of:
        0.17890577 = queryWeight, product of:
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.031640913 = queryNorm
        0.44173864 = fieldWeight in 5742, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          5.6542544 = idf(docFreq=420, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5742)
  0.06666667 = coord(1/15)
```
Abstract

In Zusammenarbeit mit der norwegischen Suchtechnologie-Firma Fast Search & Transfer hat die Universitätsbibliothek Bielefeld den Prototyp einer Suchmaschine für wissenschaftliche Bibliotheken entwickelt. Dieser demonstriert jetzt mit dem öffentlichen Zugriff auf ausgewählte digitalisierte Sammlungen der Projektteilnehmer die neuen Möglichkeiten des akademischen Retrieval. <http://www.heise.de/RealMedia/ads/adstream_lx.ads/www.heise.de/newsticker/meldungen/wissenschaft/954604605/Middle1/he-test-contentads/zaehler.html/38363566383735383364653062323630?_RM_EMPTY_> Während kommerzielle Suchmaschinen wie Google oder Yahoo sich nicht an akademischen Kriterien orientieren, beschränkt sich die Bielefeld Academic Search Engine (BASE ) auf die von wissenschaftlichen Bibliotheken erschlossenen und aufbereiteten Inhalte. Dazu gehören Hochschulschriften, Preprints, elektronische Zeitschriften und digitale Sammlungen, wie beispielsweise die "Internet Library of Early Journals" des Oxford University Library Service und die "Wissenschaftlichen Rezensionsorgane und Literaturzeitschriften des 18. und 19. Jahrhunderts aus dem deutschen Sprachraum" der UB Bielefeld. Wer etwa bei Google die Stichworte "Immanuel Kant" +Frieden eingibt, kommt zwar schnell an den Originaltext des Aufsatzes "Zum ewigen Frieden" heran, tut sich jedoch schwer, unter den bunt gemischten über 11.000 Treffern gezielt weiter zu recherchieren. Das BASE-Modell dagegen stellt dem Nutzer hierfür vielfältige Navigationshilfen und Metainformationen zur Verfügung. So erleichtert unter anderem die Verfeinerung der Suche auf das Erscheinungsjahr den Zugriff auf die zeitgenössische Diskussion der berühmten Schrift des Königsberger Philosophen. Derzeit ermöglicht der BASE-Prototyp das Retrieval in 15 verschiedenen Archivquellen. Darunter befinden sich die Zeitschriften der Aufklärung, die Elektronischen Dissertationen der Universität Bochum, das elektronische Journal Documenta Mathematica sowie die Mathematischen Volltexte des Springer-Verlags. Der geplante Ausbau soll sich auf eine verteilte Architektur stützen, in der von einzelnen Bibliotheken lokal erstellte Indexe gemeinsam zu einem virtuellen Master-Index beitragen. Dies würde dem Nutzer die nahtlose Navigation durch die verteilten Bestände erlauben."

Lossau, N.: Search engine technology and digital libraries : libraries need to discover the academic internet (2004) 0.00

0.004977671 = product of:
  0.03733253 = sum of:
    0.011269671 = product of:
      0.022539342 = sum of:
        0.022539342 = weight(_text_:online in 1161) [ClassicSimilarity], result of:
          0.022539342 = score(doc=1161,freq=2.0), product of:
            0.096027054 = queryWeight, product of:
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.031640913 = queryNorm
            0.23471867 = fieldWeight in 1161, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.0349014 = idf(docFreq=5778, maxDocs=44218)
              0.0546875 = fieldNorm(doc=1161)
      0.5 = coord(1/2)
    0.026062861 = weight(_text_:web in 1161) [ClassicSimilarity], result of:
      0.026062861 = score(doc=1161,freq=2.0), product of:
        0.10326045 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.031640913 = queryNorm
        0.25239927 = fieldWeight in 1161, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.0546875 = fieldNorm(doc=1161)
  0.13333334 = coord(2/15)

Abstract: With the development of the World Wide Web, the "information search" has grown to be a significant business sector of a global, competitive and commercial market. Powerful players have entered this market, such as commercial internet search engines, information portals, multinational publishers and online content integrators. Will Google, Yahoo or Microsoft be the only portals to global knowledge in 2010? If libraries do not want to become marginalized in a key area of their traditional services, they need to acknowledge the challenges that come with the globalisation of scholarly information, the existence and further growth of the academic internet

Boldi, P.; Santini, M.; Vigna, S.: PageRank as a function of the damping factor (2005) 0.00
```
0.004939298 = product of:
  0.037044734 = sum of:
    0.026327467 = weight(_text_:web in 2564) [ClassicSimilarity], result of:
      0.026327467 = score(doc=2564,freq=4.0), product of:
        0.10326045 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.031640913 = queryNorm
        0.25496176 = fieldWeight in 2564, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.0390625 = fieldNorm(doc=2564)
    0.010717267 = product of:
      0.021434534 = sum of:
        0.021434534 = weight(_text_:22 in 2564) [ClassicSimilarity], result of:
          0.021434534 = score(doc=2564,freq=2.0), product of:
            0.110801086 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.031640913 = queryNorm
            0.19345059 = fieldWeight in 2564, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0390625 = fieldNorm(doc=2564)
      0.5 = coord(1/2)
  0.13333334 = coord(2/15)
```
Abstract

PageRank is defined as the stationary state of a Markov chain. The chain is obtained by perturbing the transition matrix induced by a web graph with a damping factor alpha that spreads uniformly part of the rank. The choice of alpha is eminently empirical, and in most cases the original suggestion alpha=0.85 by Brin and Page is still used. Recently, however, the behaviour of PageRank with respect to changes in alpha was discovered to be useful in link-spam detection. Moreover, an analytical justification of the value chosen for alpha is still missing. In this paper, we give the first mathematical analysis of PageRank when alpha changes. In particular, we show that, contrarily to popular belief, for real-world graphs values of alpha close to 1 do not give a more meaningful ranking. Then, we give closed-form formulae for PageRank derivatives of any order, and an extension of the Power Method that approximates them with convergence O(t**k*alpha**t) for the k-th derivative. Finally, we show a tight connection between iterated computation and analytical behaviour by proving that the k-th iteration of the Power Method gives exactly the PageRank value obtained using a Maclaurin polynomial of degree k. The latter result paves the way towards the application of analytical methods to the study of PageRank.

Date

16. 1.2016 10:22:28

Source

http://vigna.di.unimi.it/ftp/papers/PageRankAsFunction.pdf [Proceedings of the ACM World Wide Web Conference (WWW), 2005]
Broder, A.; Kumar, R.; Maghoul, F.; Raghavan, P.; Rajagopalan, S.; Stata, R.; Tomkins, A.; Wiener, J.: Graph structure in the Web (2000) 0.00
```
0.004440254 = product of:
  0.06660381 = sum of:
    0.06660381 = weight(_text_:web in 5595) [ClassicSimilarity], result of:
      0.06660381 = score(doc=5595,freq=10.0), product of:
        0.10326045 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.031640913 = queryNorm
        0.6450079 = fieldWeight in 5595, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.0625 = fieldNorm(doc=5595)
  0.06666667 = coord(1/15)
```
Abstract

The study of the web as a graph is not only fascinating in its own right, but also yields valuable insight into web algorithms for crawling, searching and community discovery, and the sociological phenomena which characterize its evolution. We report on experiments on local and global properties of the web graph using two Altavista crawls each with over 200M pages and 1.5 billion links. Our study indicates that the macroscopic structure of the web is considerably more intricate than suggested by earlier experiments on a smaller scale

Search (38 results, page 1 of 2)

Authors

Languages

Types

Themes