Search (94 results, page 1 of 5)

Lehrke, C.: Architektur von Suchmaschinen : Googles Architektur, insb. Crawler und Indizierer (2005) 0.11
```
0.1131138 = product of:
  0.2827845 = sum of:
    0.24987002 = weight(_text_:crawler in 867) [ClassicSimilarity], result of:
      0.24987002 = score(doc=867,freq=4.0), product of:
        0.39420572 = queryWeight, product of:
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.048587184 = queryNorm
        0.6338569 = fieldWeight in 867, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.0390625 = fieldNorm(doc=867)
    0.032914463 = weight(_text_:22 in 867) [ClassicSimilarity], result of:
      0.032914463 = score(doc=867,freq=2.0), product of:
        0.17014404 = queryWeight, product of:
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.048587184 = queryNorm
        0.19345059 = fieldWeight in 867, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.0390625 = fieldNorm(doc=867)
  0.4 = coord(2/5)
```
Abstract

Das Internet mit seinen ständig neuen Usern und seinem extremen Wachstum bringt viele neue Herausforderungen mit sich. Aufgrund dieses Wachstums bedienen sich die meisten Leute der Hilfe von Suchmaschinen um Inhalte innerhalb des Internet zu finden. Suchmaschinen nutzen für die Beantwortung der User-Anfragen Information Retrieval Techniken. Problematisch ist nur, dass traditionelle Information Retrieval (IR) Systeme für eine relativ kleine und zusammenhängende Sammlung von Dokumenten entwickelt wurden. Das Internet hingegen unterliegt einem ständigen Wachstum, schnellen Änderungsraten und es ist über geographisch verteilte Computer verteilt. Aufgrund dieser Tatsachen müssen die alten Techniken erweitert oder sogar neue IRTechniken entwickelt werden. Eine Suchmaschine die diesen Herausforderungen vergleichsweise erfolgreich entgegnet ist Google. Ziel dieser Arbeit ist es aufzuzeigen, wie Suchmaschinen funktionieren. Der Fokus liegt dabei auf der Suchmaschine Google. Kapitel 2 wird sich zuerst mit dem Aufbau von Suchmaschinen im Allgemeinen beschäftigen, wodurch ein grundlegendes Verständnis für die einzelnen Komponenten geschaffen werden soll. Im zweiten Teil des Kapitels wird darauf aufbauend ein Überblick über die Architektur von Google gegeben. Kapitel 3 und 4 dienen dazu, näher auf die beiden Komponenten Crawler und Indexer einzugehen, bei denen es sich um zentrale Elemente im Rahmen von Suchmaschinen handelt.

Pages

22 S

Thiele, J.: Sie haben 502.456 Treffer! (1999) 0.07

0.07067391 = product of:
  0.35336956 = sum of:
    0.35336956 = weight(_text_:crawler in 3868) [ClassicSimilarity], result of:
      0.35336956 = score(doc=3868,freq=2.0), product of:
        0.39420572 = queryWeight, product of:
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.048587184 = queryNorm
        0.89640903 = fieldWeight in 3868, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.078125 = fieldNorm(doc=3868)
  0.2 = coord(1/5)

Object: Crawler

Reinke, S.; Schmidt, M.: Einmal suchen, alles finden : 7 Meta-Suchmaschinen im Test (2001) 0.07

0.07067391 = product of:
  0.35336956 = sum of:
    0.35336956 = weight(_text_:crawler in 176) [ClassicSimilarity], result of:
      0.35336956 = score(doc=176,freq=2.0), product of:
        0.39420572 = queryWeight, product of:
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.048587184 = queryNorm
        0.89640903 = fieldWeight in 176, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.078125 = fieldNorm(doc=176)
  0.2 = coord(1/5)

Abstract: Von MetaSuchmaschinen oder Metacrawlern erwarten viele Datensucher Wunder. Die Crawler durchstöbern Kataloge von Suchmaschinen, fassen Ergebnisse zusammen, gleichen sie ab und präsentieren sie. CHIP hat sieben deutschsprachige, kostenlose Metacrawler getestet

Esser, M.: Was Sie über Suchmaschinen wissen sollten (1998) 0.06

0.05653913 = product of:
  0.28269565 = sum of:
    0.28269565 = weight(_text_:crawler in 2335) [ClassicSimilarity], result of:
      0.28269565 = score(doc=2335,freq=2.0), product of:
        0.39420572 = queryWeight, product of:
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.048587184 = queryNorm
        0.7171272 = fieldWeight in 2335, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.0625 = fieldNorm(doc=2335)
  0.2 = coord(1/5)

Object: Crawler

Reibold, H.: Findigkeit gefragt (2000) 0.06

0.05653913 = product of:
  0.28269565 = sum of:
    0.28269565 = weight(_text_:crawler in 4283) [ClassicSimilarity], result of:
      0.28269565 = score(doc=4283,freq=2.0), product of:
        0.39420572 = queryWeight, product of:
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.048587184 = queryNorm
        0.7171272 = fieldWeight in 4283, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.0625 = fieldNorm(doc=4283)
  0.2 = coord(1/5)

Object: Crawler

Stock, M.; Stock, W.G.: Internet-Suchwerkzeuge im Vergleich : Teil 1: Retrievaltests mit Known Item searches (2000) 0.05

0.049471736 = product of:
  0.24735868 = sum of:
    0.24735868 = weight(_text_:crawler in 5772) [ClassicSimilarity], result of:
      0.24735868 = score(doc=5772,freq=2.0), product of:
        0.39420572 = queryWeight, product of:
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.048587184 = queryNorm
        0.6274863 = fieldWeight in 5772, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5772)
  0.2 = coord(1/5)

Object: Web-Crawler

Dresler, S.; Grosse, A.G.; Rösner, A.: Realisierung und Optimierung der Informationsbeschaffung von Internet-Suchmaschinen am Beispiel von www.crawler.de (1997) 0.04

0.042404346 = product of:
  0.21202172 = sum of:
    0.21202172 = weight(_text_:crawler in 716) [ClassicSimilarity], result of:
      0.21202172 = score(doc=716,freq=2.0), product of:
        0.39420572 = queryWeight, product of:
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.048587184 = queryNorm
        0.5378454 = fieldWeight in 716, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.046875 = fieldNorm(doc=716)
  0.2 = coord(1/5)

Object: Crawler

Kaiser, C.: Mit "Neomo" und "Turbo 10" neue Initiativen auf dem deutschen und britischen Suchmarkt (2005) 0.04
```
0.042404346 = product of:
  0.21202172 = sum of:
    0.21202172 = weight(_text_:crawler in 3434) [ClassicSimilarity], result of:
      0.21202172 = score(doc=3434,freq=2.0), product of:
        0.39420572 = queryWeight, product of:
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.048587184 = queryNorm
        0.5378454 = fieldWeight in 3434, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.046875 = fieldNorm(doc=3434)
  0.2 = coord(1/5)
```
Abstract

"Search Engine Strategies Conference" (SES) in München mit 160 Teilnehmern. Die Vortragenden waren im Regelfall sehr kompetent, und die Zuhörerschaft schien gut vorinformiert zu sein. Trotzdem wäre bei manchen Vorträgen mehr Inhalt und Fachkompetenz wünschenswert gewesen - wie beispielsweise beim Vortrag von Google. Die geplante Session "Treffen Sie die Crawler" fand leider nicht statt. Mittlerweile gibt es andere interessante Konferenzen in Europas, die sich mit Suchmaschinenmarketing und -optimierung befassten, wie das "Suchmaschinenmarketingseminar" in Heidelberg im November 2004, das wenig besucht war, aber hochinteressante Fachvorträge und Diskussionsforen bot. Die SES gilt bisher als das wichtigste Branchenereignis für Suchmaschinenmarketing und -optimierung weltweit. Hier treffen sich Websiteanbieter, Suchmaschinenmarketingagenturen und Suchmaschinenbetreiber. Außer allgemeinen Einblicken in die aktuelle Entwicklung der Branche bietet die SES Informationen zu Themen wie dynamische Websites, Websitestruktur, Verlinkung und Keywordanalysen. Neue Themen waren "lokale Suche", die aktuelle Entwicklung im deutschen Suchmarkt und markenrechtliche Probleme. Websiteanbieter konnten in den "Website-Klinik"-Sessions ihre Sites von Experten prüfen lassen und praktische Tipps zur Verbesserung des Rankings einholen.
Becker, A: Neue Suchmaschinen für Fortgeschrittene : Neue Such-Angebote: Die fünf Top-Newcomer im Überblick (2000) 0.04
```
0.035336956 = product of:
  0.17668478 = sum of:
    0.17668478 = weight(_text_:crawler in 1526) [ClassicSimilarity], result of:
      0.17668478 = score(doc=1526,freq=2.0), product of:
        0.39420572 = queryWeight, product of:
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.048587184 = queryNorm
        0.44820452 = fieldWeight in 1526, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1526)
  0.2 = coord(1/5)
```
Content

Kart00.com - Anstatt seine Resultate traditionell als Liste darzustellen, zeichnet der Meta-Sucher eine Ergebniskarte. Vorteil: Die bildliche Darstellung sorgtfür einen überzeugenden Themenüberblick. Teoma.com - Die Maschine fahndet mit drei unterschiedlichen Methoden: via Volltextsuche, über Expertenseiten und mithilfe von Schlagwörtern. Vorteil: Durch die innovative 3D-Suche erzielt Teoma bei speziellen Recherchen beachtliche Ergebnisse. Wondir.com - Zu jeder Anfrage gibt es bei Wondir Antworten auf fünf Ebenen. Von einer Trefferliste bis hin zu einem Experten-MailKontakt. Vorteil: ideal für komplizierte und wissenschaftliche Themen. Turb10.com - Der neue britische Meta-Crawler durchforstet gleichzeitig sowohl das normale als auch das Deep Web. Vorteil: Dank Turb10.com muss niemand mehr für Deep-Web-Recherchen auf spezielle Zusatzprogramme zurückgreifen. Hotbot.com - Der Ex-Volitextdienst setzt jetzt auf Service. Über seine Startseite lassen sich vier Top-Dienste (u.a. Google, FAST) abfragen. Vorteil: Hotbot bietet vier Spitzenangebote auf einen Klick.
Jörn, F.: Wie Google für uns nach der ominösen Gluonenkraft stöbert : Software-Krabbler machen sich vor der Anfrage auf die Suche - Das Netz ist etwa fünfhundertmal größer als alles Durchforschte (2001) 0.03
```
0.03353588 = product of:
  0.0838397 = sum of:
    0.07067391 = weight(_text_:crawler in 3684) [ClassicSimilarity], result of:
      0.07067391 = score(doc=3684,freq=2.0), product of:
        0.39420572 = queryWeight, product of:
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.048587184 = queryNorm
        0.1792818 = fieldWeight in 3684, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.015625 = fieldNorm(doc=3684)
    0.013165785 = weight(_text_:22 in 3684) [ClassicSimilarity], result of:
      0.013165785 = score(doc=3684,freq=2.0), product of:
        0.17014404 = queryWeight, product of:
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.048587184 = queryNorm
        0.07738023 = fieldWeight in 3684, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.015625 = fieldNorm(doc=3684)
  0.4 = coord(2/5)
```
Abstract

Der weitere Speicher wird für die URL-Adreßdatenbank gebraucht, welche die Krabbler steuert, und als Zwischenspeicher für frisch aufgesuchte Dokumente, die dort ihrer Indizierung harren. An Anfragen kommen bei Infoseek, die T-Online und andere bedienen, täglich zwei Millionen herein; Hauptsuchzeit ist abends 20 bis 23 Uhr. Ja, Spitzenreiter der Suchbegriffe ist immer noch Sex. Gehen wir auf die Suche nach Seltenem. Im internationalen Wettstreit um die weitreichendste Netzausforschung hat zur Zeit die Suchmaschine Google (www.Google.com, "search 1.346.966.000 web pages") mit über 700 Millionen indizierten, teils sogar gespeicherten Seiten die Nase vorn, zumal sie dank ihrer Linktechnik weitere fast 700 Millionen Seiten kennt. Täglich bekommt Google 70 Millionen Anfragen. An zweiter Stelle mit knapp 600 Millionen Seiten folgt Fast, als "Alltheweb" bekannt (www.alltheweb.com), danach etwa gleichrangig mit über 500 Millionen Seiten der Oldtimer Altavista (www.altavista.com), Inktomi und Webtop (www.webtop.com). Inktomi liefert seine Ergebnisse an andere, erst an Hotbot, dann an Microsoft (www.msn.com), bis zum Juli 2000 auch an Yahoo (www.yahoo.com). Yahoo, geboren 1994, ist die älteste und immer noch eine sehr beliebte Suchmaschine, nicht, weil sie Exotika wie "Gluonenkraft" liefern könnte-, sondern weil sich dort rund 150 Katalogisierer Menschen! - um Stichwörter kümmern. Nur wenn die nichts fanden, werden fremde Ergebnisse zugespielt, inzwischen von Google. Ähnlich ist das bei Look Smart (www.looksmart.com), die von Inktomi unterversorgt wird. In hartnäckigen Fällen nutze man Übersuchmaschinen, sogenannte Meta-Crawler wie www.ixquick.com oder hier www.metager.de, die den eingegebenen Begriff automatisch in mehreren Suchmaschinen aufzuspüren versuchen (nicht in Google). Bei den meisten Suchen geht es jedoch nicht um seltene Begriffe. Von den 75 Millionen Ausdrücken, die Altavista einst zählte, werden üblicherweise triviale gesucht. Die Datenbankgröße der Suchmaschine ist dann belanglos. Zudem stehen viele Inhalte mehrfach im Netz, und der Suchende will nicht fünfmal dasselbe vorgespielt bekommen. Bei den meist viel zu vielen Treffern ist die wirkliche Frage deren Anzeigereihenfolge. Da wird versucht, nach Häufigkeit des Wortes im Text zu sortieren oder danach, ob es im Titel und näher am Textanfang vorkommt. Die Suchmaschinen erklären selbst ein wenig davon, zugleich als Aufforderung an WebDesigner, einfache Seiten zu machen, sich kurz und möglichst rahmenlos zu fassen. Speziell für die Suchmaschinen haben die meisten Webseiten im Kopfeintrag Stichwörter, im Quelltext der Seite von jedermann zu sehen. Webseiten können sich "Roboter" sogar verbitten. In den Suchmaschinen-Redaktionen wird für viele Begriffe die Ausgabe manuell festgelegt - wobei zuweilen bereits ein gutes "Placement" bezahlt wird, was sicher bedenklich ist. Für den Neuankömmling Google haben sich 1998 Sergey Brin und Larry Page etwas Besonderes ausgedacht: Die Seiten werden nach Beliebtheit bewertet, und die hängt davon ab, wie viele (beliebte) Seiten zur jeweiligen Seite einen Link hin haben. Das ist gut für klassische Inhalte. Neuigkeiten, auf die noch niemand deutet, werden so nicht gefunden. Für allgemeine Fragen kommt die Lösung nicht von großen Automaten, sondern von spezialisierten Auskunfteien, die rubriziert nach Sachgebieten vorgehen.

Date

22. 6.2005 9:52:00
Söhler, M.: Schluss mit Schema F (2011) 0.03
```
0.028269565 = product of:
  0.14134783 = sum of:
    0.14134783 = weight(_text_:crawler in 4439) [ClassicSimilarity], result of:
      0.14134783 = score(doc=4439,freq=2.0), product of:
        0.39420572 = queryWeight, product of:
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.048587184 = queryNorm
        0.3585636 = fieldWeight in 4439, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.03125 = fieldNorm(doc=4439)
  0.2 = coord(1/5)
```
Content

"Wörter haben oft mehrere Bedeutungen. Einige kennen den "Kanal" als künstliche Wasserstraße, andere vom Fernsehen. Die Waage kann zum Erfassen des Gewichts nützlich sein oder zur Orientierung auf der Horoskopseite. Casablanca ist eine Stadt und ein Film zugleich. Wo Menschen mit der Zeit Bedeutungen unterscheiden und verarbeiten lernen, können dies Suchmaschinen von selbst nicht. Stets listen sie dumpf hintereinander weg alles auf, was sie zu einem Thema finden. Damit das nicht so bleibt, haben sich nun Google, Yahoo und die zu Microsoft gehörende Suchmaschine Bing zusammengetan, um der Suche im Netz mehr Verständnis zu verpassen. Man spricht dabei auch von einer "semantischen Suche". Das Ergebnis heißt Schema.org. Wer die Webseite einmal besucht, sich ein wenig in die Unterstrukturen hereinklickt und weder Vorkenntnisse im Programmieren noch im Bereich des semantischen Webs hat, wird sich überfordert und gelangweilt wieder abwenden. Doch was hier entstehen könnte, hat das Zeug dazu, Teile des Netzes und speziell die Funktionen von Suchmaschinen mittel- oder langfristig zu verändern. "Große Player sind dabei, sich auf Standards zu einigen", sagt Daniel Bahls, Spezialist für Semantische Technologien beim ZBW Leibniz-Informationszentrum Wirtschaft in Hamburg. "Die semantischen Technologien stehen schon seit Jahren im Raum und wurden bisher nur im kleineren Kontext verwendet." Denn Schema.org lädt Entwickler, Forscher, die Semantic-Web-Community und am Ende auch alle Betreiber von Websites dazu ein, an der Umgestaltung der Suche im Netz mitzuwirken. Inhalte von Websites sollen mit einem speziellen, aber einheitlichen Vokabular für die Crawler - die Analyseprogramme der Suchmaschinen - gekennzeichnet und aufbereitet werden.
Option für Metager als Standardsuchmaschine, Suchmaschine nach dem Peer-to-Peer-Prinzip (2021) 0.03
```
0.028269565 = product of:
  0.14134783 = sum of:
    0.14134783 = weight(_text_:crawler in 431) [ClassicSimilarity], result of:
      0.14134783 = score(doc=431,freq=2.0), product of:
        0.39420572 = queryWeight, product of:
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.048587184 = queryNorm
        0.3585636 = fieldWeight in 431, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.03125 = fieldNorm(doc=431)
  0.2 = coord(1/5)
```
Content

YaCy: Suchmaschine nach dem Peer-to-Peer-Prinzip. YaCy ist eine dezentrale, freie Suchmaschine. Die Besonderheit: die freie Suchmaschine läuft nicht auf zentralen Servern eines einzelnen Betreibers, sondern funktioniert nach dem Peer-to-Peer (P2P) Prinzip. Dieses basiert darauf, dass die YaCy-Nutzer aufgerufene Webseiten auf ihrem Computer lokal indexieren. Jeder Nutzer "ercrawlt" sich damit einen kleinen Index, den er durch Kommunikation mit anderen YaCy-Peers teilen kann. Das Programm sorgt dafür, dass durch die kleinen dezentralen Crawler einzelner Nutzer schließlich ein globaler Gesamtindex entsteht. Je mehr Nutzer Teil dieser dezentralen Suche sind, desto größer wird der gemeinsame Index, auf den der einzelne Nutzer dann Zugriff haben kann. Seit kurzem befindet sich YaCy im Verbund unserer abgefragten Suchmaschinen. Wir sind somit auch Teil des Indexes der Suchmaschine.
Söhler, M.: "Dumm wie Google" war gestern : semantische Suche im Netz (2011) 0.02
```
0.024735868 = product of:
  0.12367934 = sum of:
    0.12367934 = weight(_text_:crawler in 4440) [ClassicSimilarity], result of:
      0.12367934 = score(doc=4440,freq=2.0), product of:
        0.39420572 = queryWeight, product of:
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.048587184 = queryNorm
        0.31374314 = fieldWeight in 4440, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.02734375 = fieldNorm(doc=4440)
  0.2 = coord(1/5)
```
Content

- Neue Standards Doch was hier entstehen könnte, hat das Zeug dazu, Teile des Netzes und speziell die Funktionen von Suchmaschinen mittel- oder langfristig zu verändern. "Große Player sind dabei, sich auf Standards zu einigen", sagt Daniel Bahls, Spezialist für Semantische Technologien beim ZBW Leibniz-Informationszentrum Wirtschaft in Hamburg. "Die semantischen Technologien stehen schon seit Jahren im Raum und wurden bisher nur im kleineren Kontext verwendet." Denn Schema.org lädt Entwickler, Forscher, die Semantic-Web-Community und am Ende auch alle Betreiber von Websites dazu ein, an der Umgestaltung der Suche im Netz mitzuwirken. "Damit wollen Google, Bing und Yahoo! dem Info-Chaos im WWW den Garaus machen", schreibt André Vatter im Blog ZBW Mediatalk. Inhalte von Websites sollen mit einem speziellen, aber einheitlichen Vokabular für die Crawler der Suchmaschinen gekennzeichnet und aufbereitet werden. Indem Schlagworte, so genannte Tags, in den Code von Websites eingebettet werden, sind Suchmachinen nicht mehr so sehr auf die Analyse der natürlichen Sprache angewiesen, um Texte inhaltlich zu erfassen. Im Blog wird dies als "Semantic Web light" bezeichnet - ein semantisches Web auf niedrigster Ebene. Aber selbst das werde "schon viel bewirken", meint Bahls. "Das semantische Web wird sich über die nächsten Jahrzehnte evolutionär weiterentwickeln." Einen "Abschluss" werde es nie geben, "da eine einheitliche Formalisierung von Begrifflichkeiten auf feiner Stufe kaum möglich ist."

Großjohann, K.: Gathering-, Harvesting-, Suchmaschinen (1996) 0.02

0.02234308 = product of:
  0.1117154 = sum of:
    0.1117154 = weight(_text_:22 in 3227) [ClassicSimilarity], result of:
      0.1117154 = score(doc=3227,freq=4.0), product of:
        0.17014404 = queryWeight, product of:
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.048587184 = queryNorm
        0.6565931 = fieldWeight in 3227, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.09375 = fieldNorm(doc=3227)
  0.2 = coord(1/5)

Date: 7. 2.1996 22:38:41
Pages: 22 S

Höfer, W.: Detektive im Web (1999) 0.02

0.02234308 = product of:
  0.1117154 = sum of:
    0.1117154 = weight(_text_:22 in 4007) [ClassicSimilarity], result of:
      0.1117154 = score(doc=4007,freq=4.0), product of:
        0.17014404 = queryWeight, product of:
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.048587184 = queryNorm
        0.6565931 = fieldWeight in 4007, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.09375 = fieldNorm(doc=4007)
  0.2 = coord(1/5)

Date: 22. 8.1999 20:22:06

Rensman, J.: Blick ins Getriebe (1999) 0.02

0.02234308 = product of:
  0.1117154 = sum of:
    0.1117154 = weight(_text_:22 in 4009) [ClassicSimilarity], result of:
      0.1117154 = score(doc=4009,freq=4.0), product of:
        0.17014404 = queryWeight, product of:
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.048587184 = queryNorm
        0.6565931 = fieldWeight in 4009, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.09375 = fieldNorm(doc=4009)
  0.2 = coord(1/5)

Date: 22. 8.1999 21:22:59

Hentschel, A.; Schmidt, M.: Google: erste Krise (2008) 0.02
```
0.021202173 = product of:
  0.10601086 = sum of:
    0.10601086 = weight(_text_:crawler in 1812) [ClassicSimilarity], result of:
      0.10601086 = score(doc=1812,freq=2.0), product of:
        0.39420572 = queryWeight, product of:
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.048587184 = queryNorm
        0.2689227 = fieldWeight in 1812, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.0234375 = fieldNorm(doc=1812)
  0.2 = coord(1/5)
```
Content

"Am 7. September feiert die Google-Seite ihren zehnten Geburtstag. Die Bilanz dieser Dekade ist durchaus überwältigend. Gerade bescheinigte das Marktforschungs-Unternehmen comScore Google einen Anteil von 61,6 Prozent am weltweiten Suchmaschinen-Markt. Der Gigant aus Mountain View machte letztes Jahr 16,5 Milliarden US-Dollar Umsatz und erwirtschaftete 4,2 Milliarden US-Dollar Gewinn - gegenüber 2006 ein Plus von bemerkenswerten 30 Prozent. Viele Gründe zum Feiern. Eigentlich. Doch die Stimmung beim weltgrößten Suchmaschinen-Betreiber ist getrübt. Die gleichen Marktforscher sagen Google nämlich ein Ende der glorreichen Zeiten voraus. Die Gründe: Die User verstecken sich vor Google, klicken seltener auf Werbebanner und achten stärker denn je auf ihre Privatsphäre im Internet. In den USA schrumpfte das Anzeigengeschäft allein von Dezember 2007 bis Januar 2008 um sieben Prozent. Der Aktienkurs der Suchmaschine brach ob dieser Zurückhaltung ein, seit letztem November verlor Google 40 Prozent seines Börsenwertes - immerhin 80 Milliarden US-Dollar. Das rückläufige Geschäft verdeutlicht ein gravierendes Problem. Es wird für Google immer schwerer, Werbung dort einzublenden, wo die Webnutzer sind. Die Platzierung funktioniert vereinfacht so: Um seinen Webseitenindex aktuell zu halten, schickt Google Crawler durch das Web. Sie erfassen für das Indizierungs-Programm Google-bot die Inhalte der Webseiten - anhand häufig auftauchender Begriffe sowie von Content- und Title-Tags. So weiß Google, auf welchen Seiten welche Inhalte stehen und kann passende Werbung schalten. In Zeiten dröger HTML-Seiten war das mehr als ausreichend. Doch das Web hat sich schneller geändert als Google seinen Googlebot. Der nämlich kann nicht alle Seitenformate erfassen. Die Inhalte von Flash-Dateien und dynamischen Webseiten etwa bleiben außen vor, zielgenaue Werbung lässt sich hier nicht schalten. Dummerweise boomen ausgerechnet diese Formate im populären "Web 2.0". Eigentlich ein rein technisches Problem, für das die Suchmaschine noch keine Lösung hat.

Stock, M.; Stock, W.G.: Recherchieren im Internet (2004) 0.02

0.021065256 = product of:
  0.10532628 = sum of:
    0.10532628 = weight(_text_:22 in 4686) [ClassicSimilarity], result of:
      0.10532628 = score(doc=4686,freq=2.0), product of:
        0.17014404 = queryWeight, product of:
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.048587184 = queryNorm
        0.61904186 = fieldWeight in 4686, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.125 = fieldNorm(doc=4686)
  0.2 = coord(1/5)

Date: 27.11.2005 18:04:22

ap: Suchmaschinen in neuem Gewand : Metaspinner kennt 600 Millionen Seiten (1999) 0.02

0.0184321 = product of:
  0.09216049 = sum of:
    0.09216049 = weight(_text_:22 in 4224) [ClassicSimilarity], result of:
      0.09216049 = score(doc=4224,freq=2.0), product of:
        0.17014404 = queryWeight, product of:
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.048587184 = queryNorm
        0.5416616 = fieldWeight in 4224, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.5018296 = idf(docFreq=3622, maxDocs=44218)
          0.109375 = fieldNorm(doc=4224)
  0.2 = coord(1/5)

Date: 3. 5.1997 8:44:22

Charisius, H.: Gängige Suchmaschinen übersehen weite Bereiche des Internet, neue Dienste helfen beim Heben der Info-Schätze : Mehr drin, als man denkt (2003) 0.02
```
0.017668478 = product of:
  0.08834239 = sum of:
    0.08834239 = weight(_text_:crawler in 1721) [ClassicSimilarity], result of:
      0.08834239 = score(doc=1721,freq=2.0), product of:
        0.39420572 = queryWeight, product of:
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.048587184 = queryNorm
        0.22410226 = fieldWeight in 1721, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.113368 = idf(docFreq=35, maxDocs=44218)
          0.01953125 = fieldNorm(doc=1721)
  0.2 = coord(1/5)
```
Content

"Wenn Chris Sherman über das Internet spricht, schweift er mitunter ab zu den Sternen. "Wie das Universum ist auch das Web voll dunkler Materie", sagt der Suchmaschinenexperte aus Los Angeles. "Die Astronomen erzählen uns, dass selbst das stärkste Teleskop höchstens zehn Prozent der Himmelskörper im All aufspüren kann. " Der Rest sei dunkel und somit unsichtbar. Genauso verhalte es sich mit Informationen im Web. "Das meiste Wissen", so Sherman, "bleibt selbst den besten Suchmaschinen verborgen." Höchstens ein Zehntel des Internet können die digitalen Spürhunde durchwühlen. Der Rest bleibt unter der Oberfläche im so genannten Deep Web verborgen, verteilt auf Datenbanken, Archive und Foren, oder treibt unverlinkt im Info-Meer - unerreichbar für Suchmaschinen. Eine Studie von Brightplanet, einer US-Firma für Suchtechnologie, rechnet vor, dass im Deep Web 400- bis 550-mal mehr Daten liegen als im oberflächlichen Surface-Web, in dem Google & Co. fischen können." Wenn Informationen die wichtigste Ware im 21. Jahrhundert sind, dann ist das tiefe Web unschätzbar wertvoll", sagt Michael Bergman aus dem Brightplanet-Vorstand. Um ihren Index zu pflegen und zu erweitern, schicken Suchmaschinen ihre Spione, so genannte Spider oder Crawler, durchs Netz. Diese Software-Roboter hangeln sich von Link zu Link und speichern jede neue Seite, die sie erreichen. "Millionen unverlinkter Web-Auftritte oder dynamisch aus Datenbanken erzeugte Dokumente gehen ihnen dabei durch die Maschen", schätzt Wolfgang Sander-Beuermann, Leiter des Suchmaschinenlabors der Uni Hannover. Andere Seiten sperren die Agenten bewusst aus. Ein versteckter Hinweis oder eine Passwortabfrage blockt die Spider ab, zum Beispiel am Eingang zu Firmen-Intranets. An manche Inhalte kommen die Spider nicht heran, weil sie mit deren Datenformat nichts anfangen können: Musikdateien, Bilder und Textdokumente sind schwer verdauliche Brocken für die Agenten, die auf den Internet-Code HTML spezialisiert sind. Den größten Teil des Deep Web füllen "Datenbanken mit gesichertem und für jedermann zugänglichem Wissen", weiß Netz-Ausloter Sherman, der zusammen mit dem Bibliothekar und Informationsspezialisten Gary Price in dem Buch "The Invisible Web" die Tiefenregionen des Internet erstmals für die breite Masse der Anwender sichtbar macht. Zu den wertvollsten Informationsquellen zählen kostenlose Archive, die Kataloge öffentlicher Bibliotheken, Datenbanken von Universitäten, Behörden, Patentämtern oder des Statistischen Bundesamts, ferner Newsgroups, das sind themenspezifische Schwarze Bretter im Netz, und digitale Produktkataloge. "Die Suchmaschinen können nicht in diesen Schätzen stöbem, weil sie erst gar nicht hineingelangen", erklärt Sherman. Vor dem Zugriff zum Beispiel auf das kostenlose Archiv von FOCUS muss der Nutzer per Eingabemaske nach Schlagwörtern recherchieren. Die Crux für Google & Co. bringt Sherman auf den Punkt: "Sie können nicht tippen" -und müssen deshalb draußen bleiben. Dasselbe Spiel beim größten deutschen Buchkatalog: Die digitalen Fahnder finden ihn zwar und führen den Suchenden zur Deutschen Bibliothek unter www.ddb.de. In dem Verzeichnis, das über acht Millionen Druckerzeugnisse listet, muss der Gast dann selbst weitersuchen. Für Suchmaschinen ist der Index unsichtbar. Auch an der gezielten Recherche nach Albert Einsteins Lebenslauf scheitern automatische Findhilfen. So meldet Google zwar 680 000 Treffer für Albert Einstein. Nur die Vita, die neben 25 000 weiteren im Archiv von www.biography.com liegt, findet der beliebte Generalist nicht.

Search (94 results, page 1 of 5)

Authors

Years

Types

Themes

Subjects