Search (160 results, page 1 of 8)

  • × theme_ss:"Suchmaschinen"
  1. Hölzig, C.: Google spürt Grippewellen auf : Die neue Anwendung ist bisher auf die USA beschränkt (2008) 0.06
    0.05517666 = product of:
      0.11035332 = sum of:
        0.11035332 = sum of:
          0.0830902 = weight(_text_:500 in 2403) [ClassicSimilarity], result of:
            0.0830902 = score(doc=2403,freq=2.0), product of:
              0.3075407 = queryWeight, product of:
                6.113391 = idf(docFreq=265, maxDocs=44218)
                0.050306078 = queryNorm
              0.27017626 = fieldWeight in 2403, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                6.113391 = idf(docFreq=265, maxDocs=44218)
                0.03125 = fieldNorm(doc=2403)
          0.027263116 = weight(_text_:22 in 2403) [ClassicSimilarity], result of:
            0.027263116 = score(doc=2403,freq=2.0), product of:
              0.17616332 = queryWeight, product of:
                3.5018296 = idf(docFreq=3622, maxDocs=44218)
                0.050306078 = queryNorm
              0.15476047 = fieldWeight in 2403, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                3.5018296 = idf(docFreq=3622, maxDocs=44218)
                0.03125 = fieldNorm(doc=2403)
      0.5 = coord(1/2)
    
    Content
    "Vor Google gibt es kein Entrinnen. Nun macht sich die größte Internetsuchmaschine daran, auch gefährliche Grippewellen in den USA vorauszusagen - und das schneller als die US-Gesundheitsbehörde. In den Regionen, in denen die Influenza grassiert, häufen sich erfahrungsgemäß auch die Online-Anfragen im Internet speziell zu diesem Thema. "Wir haben einen engen Zusammenhang feststellen können zwischen Personen, die nach themenbezogenen Informationen suchen, und Personen, die tatsächlich an der Grippe erkrankt sind", schreibt Google. Ein Webtool namens "Google Flu Trends" errechnet aus den Anfragen die Ausbreitung von Grippeviren. Auch wenn nicht jeder Nutzer erkrankt sei, spiegele die Zahl der Anfragen doch ziemlich genau die Entwicklung einer Grippewelle wider. Das belege ein Vergleich mit den Daten der US-Seuchenkontrollbehörde CDC, die in den meisten Fällen nahezu identisch seien. Die Internet-Suchmaschine könne anders als die Gesundheitsbehörde täglich auf aktuelle Daten zurückgreifen. Dadurch sei Google in der Lage, die Grippesaison ein bis zwei Wochen früher vorherzusagen. Und Zeit bedeutet Leben, wie Lyn Finelli sagt, Leiter der Abteilung Influenza der USSeuchenkontrollbehörde: "Je früher wir gewarnt werden, desto früher können wir handeln. Dies kann die Anzahl der Erkrankten erheblich minimieren." "Google Flu Trends" ist das erste Projekt, das Datenbanken einer Suchmaschine nutzt, um einen auftretenden Grippevirus zu lokalisieren - zurzeit nur in den USA, aber weltweite Prognosen wären ein folgerichtiger nächster Schritt. Philip M. Polgreen von der Universität von Iowa verspricht sich noch viel mehr: "Theoretisch können wir diese Flut an Informationen dazu nutzen, auch den Verlauf anderer Krankheiten besser zu studieren." Um das Grippe-Ausbreitungsmodell zu erstellen, hat Google mehrere hundert Milliarden Suchanfragen aus den vergangenen Jahren analysiert. Datenschützer haben den Internetgiganten bereits mehrfach als "datenschutzfeindlich" eingestuft. Die Anwender wüssten weder, was mit den gesammelten Daten passiere, noch wie lange gespeicherte Informationen verfügbar seien. Google versichert jedoch, dass "Flu Trends" die Privatsphäre wahre. Das Tool könne niemals dazu genutzt werden, einzelne Nutzer zu identifizieren, da wir bei der Erstellung der Statistiken lediglich anonyme Datenmaterialien nutzen. Die Muster, die wir in den Daten analysieren, ergeben erst in einem größeren Kontext Sinn." An einer echten Virus-Grippe - nicht zu verwechseln mit einer Erkältung - erkranken weltweit mehrere Millionen Menschen, mehr als 500 000 sterben daran."
    Date
    3. 5.1997 8:44:22
  2. Semantische Suche über 500 Millionen Web-Dokumente (2009) 0.05
    0.053968668 = product of:
      0.107937336 = sum of:
        0.107937336 = product of:
          0.21587467 = sum of:
            0.21587467 = weight(_text_:500 in 2434) [ClassicSimilarity], result of:
              0.21587467 = score(doc=2434,freq=6.0), product of:
                0.3075407 = queryWeight, product of:
                  6.113391 = idf(docFreq=265, maxDocs=44218)
                  0.050306078 = queryNorm
                0.7019385 = fieldWeight in 2434, product of:
                  2.4494898 = tf(freq=6.0), with freq of:
                    6.0 = termFreq=6.0
                  6.113391 = idf(docFreq=265, maxDocs=44218)
                  0.046875 = fieldNorm(doc=2434)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Content
    "Wissenschaftler an der University of Washington haben eine neue Suchmaschinen-Engine geschrieben, die Zusammenhänge und Fakten aus mehr als 500 Millionen einzelner Web-Seiten zusammentragen kann. Das Werkzeug extrahiert dabei Informationen aus Milliarden von Textzeilen, indem die grundlegenden sprachlichen Beziehungen zwischen Wörtern analysiert werden. Experten glauben, dass solche Systeme zur automatischen Informationsgewinnung eines Tages die Grundlage deutlich smarterer Suchmaschinen bilden werden, als sie heute verfügbar sind. Dazu werden die wichtigsten Datenhappen zunächst von einem Algorithmus intern begutachtet und dann intelligent kombiniert, berichtet Technology Review in seiner Online-Ausgabe. Das Projekt US-Forscher stellt eine deutliche Ausweitung einer zuvor an der gleichen Hochschule entwickelten Technik namens TextRunner dar. Sowohl die Anzahl analysierbarer Seiten als auch die Themengebiete wurden dabei stark erweitert. "TextRunner ist deshalb so bedeutsam, weil es skaliert, ohne dass dabei ein Mensch eingreifen müsste", sagt Peter Norvig, Forschungsdirektor bei Google. Der Internet-Konzern spendete dem Projekt die riesige Datenbank aus einzelnen Web-Seiten, die TextRunner analysiert. "Das System kann Millionen von Beziehungen erkennen und erlernen - und zwar nicht nur jede einzeln. Einen Betreuer braucht die Software nicht, die Informationen werden selbstständig ermittelt.""
    Source
    http://www.heise.de/newsticker/Semantische-Suche-ueber-500-Millionen-Web-Dokumente--/meldung/140630
  3. Griesbaum, J.; Rittberger, M.; Bekavac, B.: Deutsche Suchmaschinen im Vergleich : AltaVista.de, Fireball.de, Google.de und Lycos.de (2002) 0.05
    0.051931378 = product of:
      0.103862755 = sum of:
        0.103862755 = product of:
          0.20772551 = sum of:
            0.20772551 = weight(_text_:500 in 1159) [ClassicSimilarity], result of:
              0.20772551 = score(doc=1159,freq=2.0), product of:
                0.3075407 = queryWeight, product of:
                  6.113391 = idf(docFreq=265, maxDocs=44218)
                  0.050306078 = queryNorm
                0.67544067 = fieldWeight in 1159, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  6.113391 = idf(docFreq=265, maxDocs=44218)
                  0.078125 = fieldNorm(doc=1159)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Footnote
    Unter: http://www.inf.uni-konstanz.de/~griesbau/texte.html elektronisch als Volltext (PDF 500 KB), Präsentation (PDF 460 KB)
  4. bay: Google übernimmt Deja-Archiv (2001) 0.04
    0.0415451 = product of:
      0.0830902 = sum of:
        0.0830902 = product of:
          0.1661804 = sum of:
            0.1661804 = weight(_text_:500 in 5636) [ClassicSimilarity], result of:
              0.1661804 = score(doc=5636,freq=2.0), product of:
                0.3075407 = queryWeight, product of:
                  6.113391 = idf(docFreq=265, maxDocs=44218)
                  0.050306078 = queryNorm
                0.5403525 = fieldWeight in 5636, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  6.113391 = idf(docFreq=265, maxDocs=44218)
                  0.0625 = fieldNorm(doc=5636)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Abstract
    Deja.com hat sein Archiv mit Diskussionsbeiträgen aus dem Usenet an die Suchmaschine Google verkauft. Die neue Bedienoberfläche (groups.google.com) prüft noch nicht die 500 Millionen Texte, die Deja seit 1995 gesammelt hat; sie werden schrittweise in die eigene, sechs Monate alte Datenbank integriert. Das Usenet lässt sich über das Web (netnews.web.de) oder besser spezielle Software nutzen, etwa (Free) Agent (www.forteinc.com)
  5. Puschwadt, O.: Auf Platz eins gegoogelt : Erfolgsgeschichte - Von der Garagenfirma zum Marktführer (2005) 0.04
    0.04138249 = product of:
      0.08276498 = sum of:
        0.08276498 = sum of:
          0.062317647 = weight(_text_:500 in 5177) [ClassicSimilarity], result of:
            0.062317647 = score(doc=5177,freq=2.0), product of:
              0.3075407 = queryWeight, product of:
                6.113391 = idf(docFreq=265, maxDocs=44218)
                0.050306078 = queryNorm
              0.20263219 = fieldWeight in 5177, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                6.113391 = idf(docFreq=265, maxDocs=44218)
                0.0234375 = fieldNorm(doc=5177)
          0.020447336 = weight(_text_:22 in 5177) [ClassicSimilarity], result of:
            0.020447336 = score(doc=5177,freq=2.0), product of:
              0.17616332 = queryWeight, product of:
                3.5018296 = idf(docFreq=3622, maxDocs=44218)
                0.050306078 = queryNorm
              0.116070345 = fieldWeight in 5177, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                3.5018296 = idf(docFreq=3622, maxDocs=44218)
                0.0234375 = fieldNorm(doc=5177)
      0.5 = coord(1/2)
    
    Content
    "Thomas Schick ist begeisterter Internetsurfer. Er nutzt das World Wide Web mehrmals täglich - sowohl beruflich als auch privat. Ich hole mir die Informationen, die ich brauche, fast nur noch aus dem Netz", so der 30-jährige Düsseldorfer. Seine Haupt-Recherchequelle ist dabei die Suchmaschine Google. "Dort finde ich einfach alles", lautet sein kurzes Statement. Wie Schick greift der Großteil der Internetnutzer weltweit auf die mittlerweile beliebteste und meist genutzte Suchmaschine zu. 200 Millionen Abrufe täglich wurden im Jähr 2004 unter www.google.com und den mehr als 85 internationalen Ablegern registriert. Sie rangiert damit weit vor den Suchmaschinen von Yahoo oder Microsoft. Angeblich sollen mehr als 70 Prozent aller Anfragen im Internet über Google laufen. Am 7. September 1998 ging die von den beiden Studenten Larry Page und Sergey Brin entwickelte Suchmaschine als Nachfolger ihrer Suchsoftware Pagerank ins Netz. Mittlerweile gehört ihre einstige Garagen-Firma mit über 3000 Mitarbeitern zu den bekanntesten Marken weltweit und ist seit August 2004 sogar an der Börse notiert. Laut "Financial Times" gehört Google - gemessen am Börsenwert - inzwischen zu den hundert größten Unternehmen weltweit. Der Name Google leitet sich von dem mathematischen Begriff Googol ab, der für eine 1 gefolgt von 100 Nullen steht - also ein riesiger Wert. Hiermit soll auf die immense Zahl von Webseiten, auf die Google zugreift, bereits im Namen hingewiesen werden. In Wirklichkeit greift Google allerdings nach Angaben des Computerverlages heise.de "nur" auf etwas mehr als acht Milliarden Seiten zu. Bei geschätzten 500 Milliarden Webseiten Weltweit macht sich diese Zahl dann doch recht klein aus. Dennoch umfasst die Google-Suche weit mehr als die anderer Suchmaschinen: Doch nicht nur eine allgemeine Text-Suche ist bei Google möglich. Es gibt auch Funktionen, die nach Bildern suchen oder auf Wörterbücher, Fahrpläne der Bahn, Stadtpläne und Aktienkurse zugreifen. Auch die Shopping-Suchmaschine Froogle oder der Freemail-Dienst Gmail gehören mittlerweile zum Angebot. Die Omnipräsenz von Google in Deutschland lässt sich allein schon daran ablesen, dass der Begriff "googeln" sogar Einzug in den guten alten Duden gefunden hat. Dort findet man den Eintrag seit der 23. Auflage (2004). "Googeln" bedeutet laut Duden im Allgemeinen etwas im Internet suchen und im Besonderen die Suche in der Suchmaschine Google. Die Marke Google ist also zu einem Synonym für Internetrecherche schlechthin geworden. Dem minimalistischen Design der Startseite ist Google bis heute treu geblieben. An bestimmten Tagen oder zu Ereignissen - so zum Beispiel an Weihnachten oder zu den Olympischen Spielen - wird das Logo allerdings zum Thema des Tages passend verändert. Diese so genannten Google Doodles ersetzen dann das normale Logo. Sie werden alle von dem Koreaner Dennis Hwang entworfen.
    Date
    3. 5.1997 8:44:22
  6. Li, L.; Shang, Y.; Zhang, W.: Improvement of HITS-based algorithms on Web documents 0.04
    0.039949693 = product of:
      0.079899386 = sum of:
        0.079899386 = product of:
          0.23969816 = sum of:
            0.23969816 = weight(_text_:3a in 2514) [ClassicSimilarity], result of:
              0.23969816 = score(doc=2514,freq=2.0), product of:
                0.4264955 = queryWeight, product of:
                  8.478011 = idf(docFreq=24, maxDocs=44218)
                  0.050306078 = queryNorm
                0.56201804 = fieldWeight in 2514, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  8.478011 = idf(docFreq=24, maxDocs=44218)
                  0.046875 = fieldNorm(doc=2514)
          0.33333334 = coord(1/3)
      0.5 = coord(1/2)
    
    Content
    Vgl.: http%3A%2F%2Fdelab.csd.auth.gr%2F~dimitris%2Fcourses%2Fir_spring06%2Fpage_rank_computing%2Fp527-li.pdf. Vgl. auch: http://www2002.org/CDROM/refereed/643/.
  7. Jörn, F.: Wie Google für uns nach der ominösen Gluonenkraft stöbert : Software-Krabbler machen sich vor der Anfrage auf die Suche - Das Netz ist etwa fünfhundertmal größer als alles Durchforschte (2001) 0.04
    0.0361926 = product of:
      0.0723852 = sum of:
        0.0723852 = sum of:
          0.058753643 = weight(_text_:500 in 3684) [ClassicSimilarity], result of:
            0.058753643 = score(doc=3684,freq=4.0), product of:
              0.3075407 = queryWeight, product of:
                6.113391 = idf(docFreq=265, maxDocs=44218)
                0.050306078 = queryNorm
              0.19104347 = fieldWeight in 3684, product of:
                2.0 = tf(freq=4.0), with freq of:
                  4.0 = termFreq=4.0
                6.113391 = idf(docFreq=265, maxDocs=44218)
                0.015625 = fieldNorm(doc=3684)
          0.013631558 = weight(_text_:22 in 3684) [ClassicSimilarity], result of:
            0.013631558 = score(doc=3684,freq=2.0), product of:
              0.17616332 = queryWeight, product of:
                3.5018296 = idf(docFreq=3622, maxDocs=44218)
                0.050306078 = queryNorm
              0.07738023 = fieldWeight in 3684, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                3.5018296 = idf(docFreq=3622, maxDocs=44218)
                0.015625 = fieldNorm(doc=3684)
      0.5 = coord(1/2)
    
    Abstract
    Der weitere Speicher wird für die URL-Adreßdatenbank gebraucht, welche die Krabbler steuert, und als Zwischenspeicher für frisch aufgesuchte Dokumente, die dort ihrer Indizierung harren. An Anfragen kommen bei Infoseek, die T-Online und andere bedienen, täglich zwei Millionen herein; Hauptsuchzeit ist abends 20 bis 23 Uhr. Ja, Spitzenreiter der Suchbegriffe ist immer noch Sex. Gehen wir auf die Suche nach Seltenem. Im internationalen Wettstreit um die weitreichendste Netzausforschung hat zur Zeit die Suchmaschine Google (www.Google.com, "search 1.346.966.000 web pages") mit über 700 Millionen indizierten, teils sogar gespeicherten Seiten die Nase vorn, zumal sie dank ihrer Linktechnik weitere fast 700 Millionen Seiten kennt. Täglich bekommt Google 70 Millionen Anfragen. An zweiter Stelle mit knapp 600 Millionen Seiten folgt Fast, als "Alltheweb" bekannt (www.alltheweb.com), danach etwa gleichrangig mit über 500 Millionen Seiten der Oldtimer Altavista (www.altavista.com), Inktomi und Webtop (www.webtop.com). Inktomi liefert seine Ergebnisse an andere, erst an Hotbot, dann an Microsoft (www.msn.com), bis zum Juli 2000 auch an Yahoo (www.yahoo.com). Yahoo, geboren 1994, ist die älteste und immer noch eine sehr beliebte Suchmaschine, nicht, weil sie Exotika wie "Gluonenkraft" liefern könnte-, sondern weil sich dort rund 150 Katalogisierer Menschen! - um Stichwörter kümmern. Nur wenn die nichts fanden, werden fremde Ergebnisse zugespielt, inzwischen von Google. Ähnlich ist das bei Look Smart (www.looksmart.com), die von Inktomi unterversorgt wird. In hartnäckigen Fällen nutze man Übersuchmaschinen, sogenannte Meta-Crawler wie www.ixquick.com oder hier www.metager.de, die den eingegebenen Begriff automatisch in mehreren Suchmaschinen aufzuspüren versuchen (nicht in Google). Bei den meisten Suchen geht es jedoch nicht um seltene Begriffe. Von den 75 Millionen Ausdrücken, die Altavista einst zählte, werden üblicherweise triviale gesucht. Die Datenbankgröße der Suchmaschine ist dann belanglos. Zudem stehen viele Inhalte mehrfach im Netz, und der Suchende will nicht fünfmal dasselbe vorgespielt bekommen. Bei den meist viel zu vielen Treffern ist die wirkliche Frage deren Anzeigereihenfolge. Da wird versucht, nach Häufigkeit des Wortes im Text zu sortieren oder danach, ob es im Titel und näher am Textanfang vorkommt. Die Suchmaschinen erklären selbst ein wenig davon, zugleich als Aufforderung an WebDesigner, einfache Seiten zu machen, sich kurz und möglichst rahmenlos zu fassen. Speziell für die Suchmaschinen haben die meisten Webseiten im Kopfeintrag Stichwörter, im Quelltext der Seite von jedermann zu sehen. Webseiten können sich "Roboter" sogar verbitten. In den Suchmaschinen-Redaktionen wird für viele Begriffe die Ausgabe manuell festgelegt - wobei zuweilen bereits ein gutes "Placement" bezahlt wird, was sicher bedenklich ist. Für den Neuankömmling Google haben sich 1998 Sergey Brin und Larry Page etwas Besonderes ausgedacht: Die Seiten werden nach Beliebtheit bewertet, und die hängt davon ab, wie viele (beliebte) Seiten zur jeweiligen Seite einen Link hin haben. Das ist gut für klassische Inhalte. Neuigkeiten, auf die noch niemand deutet, werden so nicht gefunden. Für allgemeine Fragen kommt die Lösung nicht von großen Automaten, sondern von spezialisierten Auskunfteien, die rubriziert nach Sachgebieten vorgehen.
    Die Beiträge, eine Art E-Mails mit gestrengen Usancen, finden sich dann auf vielen kooperierenden Servern, auf uralten nichtkommerziellen Fido- oder Zerberus-Boxen und bei großen Internet-Anbietern à la T-Online, die die Eintrage wie kommunizierende Röhren untereinander austauschen. Die mit Newsreader-Zusatzsoftware zu lesenden, zuweilen ruppigen Beiträge dieser Zehntausenden von Newsgroups im "Usenet" sind ein wahres Dorado für Tips und Meinungen, für praktische Hilfe und unermüdliche Kollegialität - oft zum Ärger der Produkthersteller, gelegentlich zur Entlastung von deren Kundendiensten. Frage-und-Antwort-Fäden (Threads) verästeln sich zu einem Baum der Meinungen und des Wissens. Einen Überblick gibt etwa Tile.net oder groups.google.com, versuchsweise mag man als Sprachfreund bei http://faql.de einsteigen. Über www.deja.com konnte man überall browsergeführt mitdiskutieren und seinen Senf dazugeben. Ende 2000 ging es damit bergab, am 12. Februar stellte Deja seinen Dienst ein. Domänenname und Datenbank (mehr als ein Terabyte mit über 500 Millionen Beiträgen seit 1995) wurden von Altavista an Google verkauft und sind unter der alten Adresse lebendig. Nur neue Beiträge kann man dort nicht mehr loswerden und muß sich dazu schon direkt zum jeweiligen Forum bemühen. Manche Suchmaschinen bieten maschinelle Übersetzungen. Die Ergebnisse helfen Amerikanern, uns zu verstehen, mit Phantasie und gutem Willen, Auf seiner sehenswerten englischen Suchseite bietet dies Google an, so wie seit längerem Altavista - vom selben Übersetzer. Gefundenen Text bekommt man ins Englische übersetzt; klickt man weiter, so auch die weiteren Seiten. Man sollte sich nicht darüber lustig machen, selbst wenn eines Dichters Werk als "its factory" erscheint und die Stadt Essen als "meal". Die Wunscheinstellungen (speicherbar, wenn man Cookies zuläßt) bei Google lassen übrigens zu, daß die gefundenen Seiten, ob original, ob übersetzt, in einem neuen Browserfenster aufscheinen.'Alle anderen machen das auch wenn man die Shift-Taste beim Klicken drückt. Hoffen wir, daß uns diese offene Wunderwelt des Internet mit ihren Suchmaschinen noch lange erhalten bleibt und daß kommende Multimedia-Inhalte nicht in einem Wust von Formaten untergehen. Das Netz muß Schranken überwinden können, für Maschinen, letztlich aber von Mensch zu Mensch
    Date
    22. 6.2005 9:52:00
  8. Park, E.-K.; Ra, D.-Y.; Jang, M.-G.: Techniques for improving web retrieval effectiveness (2005) 0.03
    0.031158824 = product of:
      0.062317647 = sum of:
        0.062317647 = product of:
          0.124635294 = sum of:
            0.124635294 = weight(_text_:500 in 1060) [ClassicSimilarity], result of:
              0.124635294 = score(doc=1060,freq=2.0), product of:
                0.3075407 = queryWeight, product of:
                  6.113391 = idf(docFreq=265, maxDocs=44218)
                  0.050306078 = queryNorm
                0.40526438 = fieldWeight in 1060, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  6.113391 = idf(docFreq=265, maxDocs=44218)
                  0.046875 = fieldNorm(doc=1060)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Abstract
    This paper talks about several schemes for improving retrieval effectiveness that can be used in the named page finding tasks of web information retrieval (Overview of the TREC-2002 web track. In: Proceedings of the Eleventh Text Retrieval Conference TREC-2002, NIST Special Publication #500-251, 2003). These methods were applied on top of the basic information retrieval model as additional mechanisms to upgrade the system. Use of the title of web pages was found to be effective. It was confirmed that anchor texts of incoming links was beneficial as suggested in other works. Sentence-query similarity is a new type of information proposed by us and was identified to be the best information to take advantage of. Stratifying and re-ranking the retrieval list based on the maximum count of index terms in common between a sentence and a query resulted in significant improvement of performance. To demonstrate these facts a large-scale web information retrieval system was developed and used for experimentation.
  9. Großjohann, K.: Gathering-, Harvesting-, Suchmaschinen (1996) 0.03
    0.028916903 = product of:
      0.057833806 = sum of:
        0.057833806 = product of:
          0.11566761 = sum of:
            0.11566761 = weight(_text_:22 in 3227) [ClassicSimilarity], result of:
              0.11566761 = score(doc=3227,freq=4.0), product of:
                0.17616332 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.050306078 = queryNorm
                0.6565931 = fieldWeight in 3227, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.09375 = fieldNorm(doc=3227)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Date
    7. 2.1996 22:38:41
    Pages
    22 S
  10. Höfer, W.: Detektive im Web (1999) 0.03
    0.028916903 = product of:
      0.057833806 = sum of:
        0.057833806 = product of:
          0.11566761 = sum of:
            0.11566761 = weight(_text_:22 in 4007) [ClassicSimilarity], result of:
              0.11566761 = score(doc=4007,freq=4.0), product of:
                0.17616332 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.050306078 = queryNorm
                0.6565931 = fieldWeight in 4007, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.09375 = fieldNorm(doc=4007)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Date
    22. 8.1999 20:22:06
  11. Rensman, J.: Blick ins Getriebe (1999) 0.03
    0.028916903 = product of:
      0.057833806 = sum of:
        0.057833806 = product of:
          0.11566761 = sum of:
            0.11566761 = weight(_text_:22 in 4009) [ClassicSimilarity], result of:
              0.11566761 = score(doc=4009,freq=4.0), product of:
                0.17616332 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.050306078 = queryNorm
                0.6565931 = fieldWeight in 4009, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.09375 = fieldNorm(doc=4009)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Date
    22. 8.1999 21:22:59
  12. Mostafa, J.: Bessere Suchmaschinen für das Web (2006) 0.03
    0.02758833 = product of:
      0.05517666 = sum of:
        0.05517666 = sum of:
          0.0415451 = weight(_text_:500 in 4871) [ClassicSimilarity], result of:
            0.0415451 = score(doc=4871,freq=2.0), product of:
              0.3075407 = queryWeight, product of:
                6.113391 = idf(docFreq=265, maxDocs=44218)
                0.050306078 = queryNorm
              0.13508813 = fieldWeight in 4871, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                6.113391 = idf(docFreq=265, maxDocs=44218)
                0.015625 = fieldNorm(doc=4871)
          0.013631558 = weight(_text_:22 in 4871) [ClassicSimilarity], result of:
            0.013631558 = score(doc=4871,freq=2.0), product of:
              0.17616332 = queryWeight, product of:
                3.5018296 = idf(docFreq=3622, maxDocs=44218)
                0.050306078 = queryNorm
              0.07738023 = fieldWeight in 4871, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                3.5018296 = idf(docFreq=3622, maxDocs=44218)
                0.015625 = fieldNorm(doc=4871)
      0.5 = coord(1/2)
    
    Content
    Viele digitale Inhalte können mit Suchmaschinen nicht erschlossen werden, weil die Systeme, die diese verwalten, Webseiten auf andere Weise speichern, als die Nutzer sie betrachten. Erst durch die Anfrage des Nutzers entsteht die jeweils aktuelle Webseite. Die typischen Webtrawler sind von solchen Seiten überfordert und können deren Inhalte nicht erschließen. Dadurch bleibt ein Großteil der Information - schätzungsweise 500-mal so viel wie das, was das konventionelle Web umfasst - für Anwender verborgen. Doch nun laufen Bemühungen, auch dieses »versteckte Web« ähnlich leicht durchsuchbar zu machen wie seinen bisher zugänglichen Teil. Zu diesem Zweck haben Programmierer eine neuartige Software entwickelt, so genannte Wrapper. Sie macht sich zu Nutze, dass online verfügbare Information standardisierte grammatikalische Strukturen enthält. Wrapper erledigen ihre Arbeit auf vielerlei Weise. Einige nutzen die gewöhnliche Syntax von Suchanfragen und die Standardformate der Online-Quellen, um auf versteckte Inhalte zuzugreifen. Andere verwenden so genannte ApplikationsprogrammSchnittstellen (APIs), die Software in die Lage versetzen, standardisierte Operationen und Befehle auszuführen. Ein Beispiel für ein Programm, das auf versteckte Netzinhalte zugreifen kann, ist der von BrightPlanet entwickelte »Deep Query Manager«. Dieser wrapperbasierte Anfragemanager stellt Portale und Suchmasken für mehr als 70 000 versteckte Webquellen bereit. Wenn ein System zur Erzeugung der Rangfolge Links oder Wörter nutzt, ohne dabei zu berücksichtigen, welche Seitentypen miteinander verglichen werden, besteht die Gefahr des Spoofing: Spaßvögel oder Übeltäter richten Webseiten mit geschickt gewählten Wörtern gezielt ein, um das Rangberechnungssystem in die Irre zu führen. Noch heute liefert die Anfrage nach »miserable failure« (»klägliches Versagen«) an erster Stelle eine offizielle Webseite des Weißen Hauses mit der Biografie von Präsident Bush.
    Date
    22. 1.2006 18:34:49
  13. Stock, M.; Stock, W.G.: Recherchieren im Internet (2004) 0.03
    0.027263116 = product of:
      0.054526232 = sum of:
        0.054526232 = product of:
          0.109052464 = sum of:
            0.109052464 = weight(_text_:22 in 4686) [ClassicSimilarity], result of:
              0.109052464 = score(doc=4686,freq=2.0), product of:
                0.17616332 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.050306078 = queryNorm
                0.61904186 = fieldWeight in 4686, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.125 = fieldNorm(doc=4686)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Date
    27.11.2005 18:04:22
  14. Talbot, D.: Durchblick im Infodschungel (2009) 0.03
    0.026984334 = product of:
      0.053968668 = sum of:
        0.053968668 = product of:
          0.107937336 = sum of:
            0.107937336 = weight(_text_:500 in 2865) [ClassicSimilarity], result of:
              0.107937336 = score(doc=2865,freq=6.0), product of:
                0.3075407 = queryWeight, product of:
                  6.113391 = idf(docFreq=265, maxDocs=44218)
                  0.050306078 = queryNorm
                0.35096925 = fieldWeight in 2865, product of:
                  2.4494898 = tf(freq=6.0), with freq of:
                    6.0 = termFreq=6.0
                  6.113391 = idf(docFreq=265, maxDocs=44218)
                  0.0234375 = fieldNorm(doc=2865)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Content
    "Wissenschaftler an der University of Washington haben eine neue Suchmaschinen-Engine geschrieben, die Zusammenhänge und Fakten aus mehr als 500 Millionen einzelner Web-Seiten zusammentragen kann. Das Werkzeug extrahiert dabei Informationen aus Milliarden von Textzeilen, indem die grundlegenden sprachlichen Beziehungen zwischen Wörtern analysiert werden. Experten glauben, dass solche Systeme zur automatischen Informationsgewinnung eines Tages die Grundlage deutlich smarterer Suchmaschinen bilden werden, als sie heute verfügbar sind. Dazu werden die wichtigsten Datenhappen zunächst von einem Algorithmus intern begutachtet und dann intelligent kombiniert. Das Projekt US-Forscher stellt eine deutliche Ausweitung einer zuvor an der gleichen Hochschule entwickelten Technik namens TextRunner dar. Sowohl die Anzahl analysierbarer Seiten als auch die Themengebiete wurden dabei stark erweitert. "TextRunner ist deshalb so bedeutsam, weil es skaliert, ohne dass dabei ein Mensch eingreifen müsste", sagt Peter Norvig, Forschungsdirektor bei Google. Der Internet-Konzern spendete dem Projekt die riesige Datenbank aus einzelnen Web-Seiten, die TextRunner analysiert. "Das System kann Millionen von Beziehungen erkennen und erlernen - und zwar nicht nur jede einzeln. Einen Betreuer braucht die Software nicht, die Informationen werden selbständig ermittelt." Damit unterscheidet sich der Ansatz von anderen semantischen Systemen, die die Hilfe ihrer Programmierer benötigen. Um beispielsweise aus Millionen von Dokumenten die Namen von Personen zu ermitteln, die als Geschäftsführer arbeiten, müsste eine solche Suchmaschine erst trainiert werden - etwa, in der man ihr beibringt, dass Steve Jobs der CEO von Apple, Steve Ballmer der von Microsoft ist. Bei TextRunner sei das nun nicht mehr nötig. (Google arbeitet an ähnlichen Ideen und setzt die Technik bereits im kleineren Maßstab ein.) TextRunners Algorithmen sorgen dafür, dass nicht mehr manuell eingegriffen werden muss. Ein Nutzer kann beispielsweise "tötet Bakterien" eingeben und die Suchmaschine spuckt Seiten aus, die Fakten nennen wie "Chlor tötet Bakterien", "ultraviolettes Licht tötet Bakterien" oder "Hitze tötet Bakterien". Diese von den Forschern als Dreiergruppen bezeichneten Ergebnisse lassen sich dann in einer Vorschau begutachten, bevor man die eigentliche Website betritt.
    Der Prototyp von TextRunner bietet noch eine eher karge Benutzerschnittstelle - er ist auch weniger für die Öffentlichkeit als Suchhilfe gedacht denn als Demonstrator, wie es gelingen kann, Informationen aus 500 Millionen Web-Seiten automatisch zu extrahieren. Oren Etzioni, Computerwissenschaftler und Leiter des Projekts, ist stolz auf das Ergebnis: "Was wir hier zeigen, ist die Fähigkeit einer Software, ein rudimentäres Textverständnis zu erzielen - und zwar in einem Maßstab und einer Ausdehnung, die es bislang noch nie gab." Die Fähigkeit, Inhalte und Bedeutungen schnell zu erkennen, entstammt einem Grundmodell von Wortbeziehungen in der englischen Sprache, das Etzioni und sein Team entwickelt haben. Es funktioniert bei nahezu jedem Thema. "Beispielsweise deckt das einfache Muster "Einheit 1, Verb, Einheit 2" den Satz "Edison erfand die Glühbirne" genauso ab wie "Microsoft kaufte Farecast" - und viele andere Satzmodelle auch." TextRunner nutze nun dieses Schablone, um automatisch aus Texten zu lernen, Sätze zu analysieren und solche Dreiergruppen mit hoher Genauigkeit zu erkennen. Die Software besitzt auch Elemente, um aus Anfragen in natürlicher Sprache einen Sinnzusammenhang abzuleiten. Daran arbeiten Etzioni und sein Team gerade. Findet das System dann beispielsweise eine Seite, auf der steht, dass Säugetiere Warmblüter sind und eine andere, auf der zu lesen ist, dass Hunde Säugetiere sind, kann es daraus schließen, dass Hunde vermutlich als Warmblüter herumlaufen. Der Ansatz ähnelt der Technik hinter dem semantischen Suchspezialisten Powerset, den Microsoft im vergangenen Jahr erworben hat. Kurz vor dem Aufkauf legte die Firma ein Werkzeug vor, das solche Fakten aus immerhin rund zwei Millionen Wikipedia-Seiten extrahieren konnte. TextRunner kann nun aber mit Wikipedia genauso umgehen wie mit jedem anderen Angebot, seien es nun Blog-Einträge, Produktkataloge oder Zeitungsartikel. Jon Kleinberg, IT-Forscher der Cornell University, der die University of Washington-Studie kennt, findet, dass das TextRunner-Projekt besonders bei der Skalierung einen großen Fortschritt bedeute. "Die Arbeit steht für einen wachsenden Trend hin zur Schaffung von Suchwerkzeugen, die Teilinformationen, die sie im Web finden, aktiv in einen größeren Zusammenhang bringen.""
    Footnote
    Vgl. auch: http://www.heise.de/newsticker/Semantische-Suche-ueber-500-Millionen-Web-Dokumente--/meldung/140630.
  15. Google Answers vor Start in Deutschland? (2005) 0.03
    0.025965689 = product of:
      0.051931378 = sum of:
        0.051931378 = product of:
          0.103862755 = sum of:
            0.103862755 = weight(_text_:500 in 3436) [ClassicSimilarity], result of:
              0.103862755 = score(doc=3436,freq=2.0), product of:
                0.3075407 = queryWeight, product of:
                  6.113391 = idf(docFreq=265, maxDocs=44218)
                  0.050306078 = queryNorm
                0.33772033 = fieldWeight in 3436, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  6.113391 = idf(docFreq=265, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=3436)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Abstract
    Euroforum-Jahrestagung "Zukunftsforum Medien" in Köln. Google erwägt, noch in diesem Jahr in Deutschland einen Suchservice gegen Bezahlung herauszubringen. Dies teilte Yuri Narciss, Google-Manager für Vertikale Märkte in Deutschland mit. "Google Answers"laufe bereits erfolgreich in den Vereinigten Staaten. Der Nutzer als Auftraggeber legt fest, was ihm die Antwort wert ist. Der maximale Einsatz beträgt 200 Dollar. Die Antwort kommt aus dem Kreis von 500 Experten, die von Google geprüft und zertifiziert worden sind. Anschließend steht die bezahlte Antwort allen Nutzern kostenfrei zur Verfügung. "Etwa ein Drittel aller Anfragen in unserer Suchmaschine haben einen kommerziellen Hintergrund," so Narciss.
  16. tz: Mein Freund Google und ich (2006) 0.03
    0.025965689 = product of:
      0.051931378 = sum of:
        0.051931378 = product of:
          0.103862755 = sum of:
            0.103862755 = weight(_text_:500 in 2144) [ClassicSimilarity], result of:
              0.103862755 = score(doc=2144,freq=2.0), product of:
                0.3075407 = queryWeight, product of:
                  6.113391 = idf(docFreq=265, maxDocs=44218)
                  0.050306078 = queryNorm
                0.33772033 = fieldWeight in 2144, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  6.113391 = idf(docFreq=265, maxDocs=44218)
                  0.0390625 = fieldNorm(doc=2144)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Abstract
    Ob Online-Übersetzer, Taschenrechner oder Zugfahrplan - für all das ist einzig und alleine das Eingabefeld der Google-Suchmaschine im Browser nötig. Zusammen mit anderen Diensten wie Google-Mail, der Desktopsuche oder der Toolbar stellt der SuchmaschinenPrimus ein ganzes Arsenal an nützlichen Online-Funktionen bereit. Google ist wohl die bekannteste Internet-Suchmaschine der Welt und hat sich seit seiner Gründung 1998 durch Larry Page und Sergey Brin zum unangefochtenen Marktführer unter den Suchmaschinen entwickelt. Seit 2004 führt sogar der Duden den Begriff "googeln" (sprich: gugeln) als Synonym für die Suche im Internet mit Hilfe von Suchmaschinen aller Art auf. Der eigentümlich Name wird auf ein Wortspiel mit dem Begriff "Googol" zurückgeführt welcher die Zahl 10 hoch 100 (einer 1 mit 100 Nullen) bezeichnet und soll dem Benutzer eine Vorstellung von der schieren Menge der in Google gelisteten Informationen vermitteln. Nach Angaben von Google ermöglicht die Suchmaschine zwischenzeitlich die Suche in über acht Milliarden URLs! Die Menge der insgesamt im WWW enthaltenen Informationen wird übrigens auf 500 Milliarden geschätzt. Neben dieser "IndexSuche" stellt Google aber noch ein eigenes Verzeichnis bereit, in welchem Informationen nach Kategorien wie Computer, Kultur oder Wissenschaft bereitgestellt werden. Auch das Durchsuchen der populären Newsgroups geht mit Hilfe der Google-Groups einfach von der Hand, stets das passende Bild zum Suchbegriff findet sich übrigens über http://images.google.de. Weitere Informationen über Google und Google Inc. unter: http://www.google.de/intl/.
  17. MacLeod, R.: Promoting a subject gateway : a case study from EEVL (Edinburgh Engineering Virtual Library) (2000) 0.02
    0.024097418 = product of:
      0.048194837 = sum of:
        0.048194837 = product of:
          0.09638967 = sum of:
            0.09638967 = weight(_text_:22 in 4872) [ClassicSimilarity], result of:
              0.09638967 = score(doc=4872,freq=4.0), product of:
                0.17616332 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.050306078 = queryNorm
                0.54716086 = fieldWeight in 4872, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.078125 = fieldNorm(doc=4872)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Date
    22. 6.2002 19:40:22
  18. Vidmar, D.J.: Darwin on the Web : the evolution of search tools (1999) 0.02
    0.023855226 = product of:
      0.047710452 = sum of:
        0.047710452 = product of:
          0.095420904 = sum of:
            0.095420904 = weight(_text_:22 in 3175) [ClassicSimilarity], result of:
              0.095420904 = score(doc=3175,freq=2.0), product of:
                0.17616332 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.050306078 = queryNorm
                0.5416616 = fieldWeight in 3175, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.109375 = fieldNorm(doc=3175)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Source
    Computers in libraries. 19(1999) no.5, S.22-28
  19. Back, J.: ¬An evaluation of relevancy ranking techniques used by Internet search engines (2000) 0.02
    0.023855226 = product of:
      0.047710452 = sum of:
        0.047710452 = product of:
          0.095420904 = sum of:
            0.095420904 = weight(_text_:22 in 3445) [ClassicSimilarity], result of:
              0.095420904 = score(doc=3445,freq=2.0), product of:
                0.17616332 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.050306078 = queryNorm
                0.5416616 = fieldWeight in 3445, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.109375 = fieldNorm(doc=3445)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Date
    25. 8.2005 17:42:22
  20. ap: Suchmaschinen in neuem Gewand : Metaspinner kennt 600 Millionen Seiten (1999) 0.02
    0.023855226 = product of:
      0.047710452 = sum of:
        0.047710452 = product of:
          0.095420904 = sum of:
            0.095420904 = weight(_text_:22 in 4224) [ClassicSimilarity], result of:
              0.095420904 = score(doc=4224,freq=2.0), product of:
                0.17616332 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.050306078 = queryNorm
                0.5416616 = fieldWeight in 4224, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.109375 = fieldNorm(doc=4224)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Date
    3. 5.1997 8:44:22

Languages

  • d 92
  • e 65
  • f 1
  • nl 1
  • More… Less…

Types

  • a 143
  • el 12
  • m 7
  • p 2
  • x 2
  • r 1
  • More… Less…