Document (#29886)

Author
Hosbach, W.
Title
¬Die Suche denkt mit : Moderne Suchtechnologien
Source
PC Magazin. 2006, H.1, S.44-45
Year
2006
Series
Special: Alles Finden
Abstract
Google und Co. sind auf dem Weg in die Sackgasse. Die Zukunft gehört der Suche mit Intelligenz und Bedeutung. Denn dann hat die Suche Sinn und Verstand
Content
"Stellen Sie sich vor, ein Fremder bittet Sie in seiner Sprache um Hilfe. Sie verstehen: "Drink" und "Bier". Wenn Sie in München leben, schicken Sie den Mann auf dem schnellsten Weg ins Hofbräuhaus. Google würde ebenso handeln: Die meisten Suchenden, die "Drink Bier" von sich geben, suchen das Hofbräuhaus (Popularitätsprinzip). Aber vielleicht wollte er wissen, wo er eine Flasche Bier kaufen kann oder ob Sie ein Bier mit ihm trinken möchten? Sie haben ihn Schlichtweg nichtverstanden. So geht es den Suchmaschinen auch. Umso erstaunlicher ist es, wie präzise deren Antworten oft sind. Wenn man aber etwas sucht, was nicht dem Popularitätsprinzip entspricht, was also vom Suchen der Vielen abweicht, so steht man vor Zehntausenden von Treffern. Besser wäre es, wenn die Suchmaschine versteht, was man sucht. Wenn sie etwas von der Bedeutung der Sucheingabe und der Bedeutung der Webseiten wüsste. Aber die steht in den Seiten nicht drin. Eine komplette Bedeutungshierarchie müsste dem jetzigen Web hinzugefügt werden. Im Kleinen gibt es Ansätze dazu unter dem Namen Semantic Web (www w3. org/2001/sw; in der Sprachwissenschaft beschäftigt sich die Semantik mit der Bedeutung). Der Autor fügt HTML-Dokumenten die Bedeutung in Form von XML-Metatags zu. Ein Beispiel für RDF ist RDF Site Summary (RSS). Eine RSS-Webseite (z.B. www.pc-magazin .de) bietet Nachrichten. Im Gegensatz zu einer normalen Nachrichtenseite sind über XML-Tags Bedeutungen zugefügt. <title> bedeutet: Hier folgt eine Überschrift, <description>: Hier folgt die Inhaltsangabe. Ein RSS Reader (z.B. Thunderbird) kann nun ganz klar erkennen, was eine Überschrift ist, und muss sie nicht über Standardelemente (<b>, <h1>) erraten. Eine andere semantische Anwendung könnte ein Musiker-Netz sein mit Bedeutungs-Tags für Instrumente, Konzerte, Terminen, Downloads etc. Hier könnte man mit entsprechenden Programmen (Browser-Extensions) sehr viel präziser suchen. Eine Besonderheit ist, das RSS auch über Hyperlinks arbeitet. Metainformationen müssen sich nicht auf der Seite selbst finden, sondern eine andere Seite kann sie aufführen. So erschließt sich eine Interessensgruppe fremde Ressourcen und bringt sie in einen eigenen Bedeutungszusammenhang, der vom Autor einer Seite vielleicht nicht gesehen oder nicht einmal gewollt wurde.
Mehr Intelligenz Semantik bedeutet bislang Handarbeit. Das ist lästig und kostspielig. Der Computer soll die Bedeutung bitte selbst verstehen! Im Forschungsbereich der Künstlichen Intelligenz (KI) arbeiten Wissenschaftler auch an derVerbesserung der Suche. Die Forscher vom Fraunhofer Institut für Integrierte Publikations- und Informationssysteme unter der Leitung von Prof. Thomas Hofmann haben ein Verfahren vorgestellt, das Konzepte von Texten extrahiert. "Konzepte bilden eine Brücke zwischen der Ausdrucksweise in einem Dokument und der in der Anfrage", erläutert Hofmann seinen Ansatz. So findet der Suchende alle relevanten Dokumente, selbst wenn die Suchbegriffe nicht direkt vorkommen. Das funktioniert derzeit nur in einem thematisch begrenzten Raum, z.B. einem Webauftritt über Medizin, Handel, Hardware... Bevor die Suchmaschine die Dokumente indiziert, errechnet sie die Konzepte aus einer begrenzten Sammlung an Dokumenten. Diese hat der Betreuer des Systems so ausgewählt, dass sie für das Themengebiet und den Webauftritt charakteristisch sind. Mit Methoden der Statistik und Wahrscheinlichkeitsrechnung (Probabilistic Latent Semantic Analysis; kurz pLSA) extrahiert der Roboter einige hundert bis tausend Konzepte. Die bestehen aus Begriffen und deren Art, gemeinsam in Dokumenten aufzutreten (Häufigkeit, Ort, Beziehung etc.) Für das Beispiel Handel gibt es etwa ein Konzept für Import oder eines für Buchhaltung. Stehen die Konzepte fest, erstellt die Suchmaschine den Index, indem sie alle Dokumente der Domäne den Konzepten zuordnet. Wenn der Anwender nun sucht, so versucht die Suchmaschine, die Anfrage ebenfalls Konzepten zuzuordnen, und wählt dementsprechend die Ergebnisse aus. Hoffmanns System ist auf der Webseite www.medlineplus.com im Einsatz. Gibt der Anwender z.B. +bird +flu ein, so sucht die Suchmaschine genau die Worte - ohne +, jedoch mit Konzept. Die Frage, ob eine konzeptbasierte Suchmaschine für das ganze Web möglich ist, bezweifelt Hofmann derzeit: "Das ist eine Frage der Skalierbarkeit. Die statistische Analyse ist nicht ganz trivial und braucht eine entsprechende Rechenleistung. Auf lange Sicht wird das aber kommen.
Im Web müsste die KI-Suchmaschine Hunderttausende von Konzepten bewältigen. Das ist kostspielig. Eine intelligente Suche wäre pro Anfrage vielleicht zehnmal teuerer als eine jetzige, bei vielen Millionen täglichen Anfragen ist das ein erheblicher Kostenfaktor. Dennoch laufen bei Google Entwicklungen in diese Richtung. Der Marktführer muss Technologieführer bleiben, um zu überleben. Mehr Sprache Die KI arbeitet daran, die Sprache immer besser zu verstehen, bis hin zur Möglichkeit, Fakten ausSätzen zu extrahieren. Das erfordert eine genaue gramma tikalische und semantische Analyse. Auch da haben sichstatistische Verfahren durchgesetzt, die eine große Menge an Sätzen auswerten. Das öffnet auch Wege zum automatischen Übersetzen von Sprachen, was wieder für die Suche relevant ist. An die Grenzen kommt die KI dann, wenn sie Fakten aus mehreren Dokumenten zusammensetzen soll- also Bedeutung im synthetischen Schluss aus verschiedenen Quellen extrahieren. Ebenso wenig kann die KI etwas über die Glaubwürdigkeit einer Quelle sagen. Das schaffen wir als Menschen ja oft kaum. Es gibt auch Methoden, mit denen Suchmaschinen den Suchenden besser verstehen. Sucht er z.B. nach Flügel, so weiß das Tool erst einmal nicht, ob ein Instrument, ein Gebäude, ein Vogel oder ein Flugzeug gemeint ist. Das könnte die Suchmaschine aber vermuten, wenn sie den Anwender besser kennt: Ist er Musiker oder Flugzeugkonstrukteur? Mit KI könnte sie das lernen, z.B. aus seinen bisherigen Suchanfragen (Orchester oder Triebwerke?). Sie könnte auch die Festplatte des Anwenders durchsuchen, um anhand der Dokumente festzustellen, womit der Suchende sich beschäftigt und was ihn interessiert. Das interessiert aber auch das Finanzamt und Adresshändler. Viele Anwender werden Probleme mit der Vertraulichkeit ihrer Daten sehen. Bei einer Internet-Suchmaschine müssten die Informationen als Profile auf dem Server liegen. Wer will das schon?"
Footnote
Vgl. base.google.com
Theme
Suchmaschinen
Object
Google Base

Similar documents (author)

  1. Hosbach, W.: Wühltische im Web : Suchmaschinen im Vergleich (2000) 6.01
    6.010904 = sum of:
      6.010904 = weight(author_txt:hosbach in 4657) [ClassicSimilarity], result of:
        6.010904 = fieldWeight in 4657, product of:
          1.0 = tf(freq=1.0), with freq of:
            1.0 = termFreq=1.0
          9.617446 = idf(docFreq=7, maxDocs=44218)
          0.625 = fieldNorm(doc=4657)
    
  2. Hosbach, W.: Action im Faktenkino : 6 Multimedia-Lexika im Test (2002) 6.01
    6.010904 = sum of:
      6.010904 = weight(author_txt:hosbach in 969) [ClassicSimilarity], result of:
        6.010904 = fieldWeight in 969, product of:
          1.0 = tf(freq=1.0), with freq of:
            1.0 = termFreq=1.0
          9.617446 = idf(docFreq=7, maxDocs=44218)
          0.625 = fieldNorm(doc=969)
    
  3. Hosbach, W.: Silberscheibenweise Wissen : Fünf Multimedia-Lexika im Test (2003) 6.01
    6.010904 = sum of:
      6.010904 = weight(author_txt:hosbach in 1927) [ClassicSimilarity], result of:
        6.010904 = fieldWeight in 1927, product of:
          1.0 = tf(freq=1.0), with freq of:
            1.0 = termFreq=1.0
          9.617446 = idf(docFreq=7, maxDocs=44218)
          0.625 = fieldNorm(doc=1927)
    
  4. Hosbach, W.: Gates gegen Google : Neue Suchmaschine von MSN (2005) 6.01
    6.010904 = sum of:
      6.010904 = weight(author_txt:hosbach in 3221) [ClassicSimilarity], result of:
        6.010904 = fieldWeight in 3221, product of:
          1.0 = tf(freq=1.0), with freq of:
            1.0 = termFreq=1.0
          9.617446 = idf(docFreq=7, maxDocs=44218)
          0.625 = fieldNorm(doc=3221)
    
  5. Hosbach, W.: Suche: Nadel : Desktop-Suchmaschinen (2006) 6.01
    6.010904 = sum of:
      6.010904 = weight(author_txt:hosbach in 4730) [ClassicSimilarity], result of:
        6.010904 = fieldWeight in 4730, product of:
          1.0 = tf(freq=1.0), with freq of:
            1.0 = termFreq=1.0
          9.617446 = idf(docFreq=7, maxDocs=44218)
          0.625 = fieldNorm(doc=4730)
    

Similar documents (content)

  1. Henzinger, M.; Wiesemann, M.: Google-Forschungschefin Monika Henzinger beklagt Manipulationen von Suchmaschinen : "Tricks der Porno-Branche" (2002) 0.21
    0.20687568 = sum of:
      0.20687568 = product of:
        0.41375136 = sum of:
          0.019436607 = weight(abstract_txt:sind in 1137) [ClassicSimilarity], result of:
            0.019436607 = score(doc=1137,freq=2.0), product of:
              0.07484522 = queryWeight, product of:
                3.9174201 = idf(docFreq=2390, maxDocs=44218)
                0.019105742 = queryNorm
              0.2596907 = fieldWeight in 1137, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                3.9174201 = idf(docFreq=2390, maxDocs=44218)
                0.046875 = fieldNorm(doc=1137)
          0.061282128 = weight(abstract_txt:google in 1137) [ClassicSimilarity], result of:
            0.061282128 = score(doc=1137,freq=3.0), product of:
              0.14058615 = queryWeight, product of:
                1.3705322 = boost
                5.3689504 = idf(docFreq=559, maxDocs=44218)
                0.019105742 = queryNorm
              0.43590444 = fieldWeight in 1137, product of:
                1.7320508 = tf(freq=3.0), with freq of:
                  3.0 = termFreq=3.0
                5.3689504 = idf(docFreq=559, maxDocs=44218)
                0.046875 = fieldNorm(doc=1137)
          0.040171336 = weight(abstract_txt:dann in 1137) [ClassicSimilarity], result of:
            0.040171336 = score(doc=1137,freq=1.0), product of:
              0.15300463 = queryWeight, product of:
                1.4297835 = boost
                5.601063 = idf(docFreq=443, maxDocs=44218)
                0.019105742 = queryNorm
              0.26254982 = fieldWeight in 1137, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                5.601063 = idf(docFreq=443, maxDocs=44218)
                0.046875 = fieldNorm(doc=1137)
          0.045245156 = weight(abstract_txt:zukunft in 1137) [ClassicSimilarity], result of:
            0.045245156 = score(doc=1137,freq=1.0), product of:
              0.16563107 = queryWeight, product of:
                1.4876093 = boost
                5.8275905 = idf(docFreq=353, maxDocs=44218)
                0.019105742 = queryNorm
              0.2731683 = fieldWeight in 1137, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                5.8275905 = idf(docFreq=353, maxDocs=44218)
                0.046875 = fieldNorm(doc=1137)
          0.046972558 = weight(abstract_txt:denn in 1137) [ClassicSimilarity], result of:
            0.046972558 = score(doc=1137,freq=1.0), product of:
              0.16982041 = queryWeight, product of:
                1.506305 = boost
                5.9008293 = idf(docFreq=328, maxDocs=44218)
                0.019105742 = queryNorm
              0.27660137 = fieldWeight in 1137, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                5.9008293 = idf(docFreq=328, maxDocs=44218)
                0.046875 = fieldNorm(doc=1137)
          0.07954446 = weight(abstract_txt:sinn in 1137) [ClassicSimilarity], result of:
            0.07954446 = score(doc=1137,freq=1.0), product of:
              0.24126835 = queryWeight, product of:
                1.7954286 = boost
                7.033448 = idf(docFreq=105, maxDocs=44218)
                0.019105742 = queryNorm
              0.3296929 = fieldWeight in 1137, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                7.033448 = idf(docFreq=105, maxDocs=44218)
                0.046875 = fieldNorm(doc=1137)
          0.12109912 = weight(abstract_txt:suche in 1137) [ClassicSimilarity], result of:
            0.12109912 = score(doc=1137,freq=1.0), product of:
              0.46049842 = queryWeight, product of:
                4.296281 = boost
                5.6101127 = idf(docFreq=439, maxDocs=44218)
                0.019105742 = queryNorm
              0.26297402 = fieldWeight in 1137, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                5.6101127 = idf(docFreq=439, maxDocs=44218)
                0.046875 = fieldNorm(doc=1137)
        0.5 = coord(7/14)
    
  2. Scheidler, F.: ¬Das Ende der Megamaschine : Geschichte einer scheiternden Zivilisation (2015) 0.17
    0.16885743 = sum of:
      0.16885743 = product of:
        0.591001 = sum of:
          0.027487515 = weight(abstract_txt:sind in 3659) [ClassicSimilarity], result of:
            0.027487515 = score(doc=3659,freq=1.0), product of:
              0.07484522 = queryWeight, product of:
                3.9174201 = idf(docFreq=2390, maxDocs=44218)
                0.019105742 = queryNorm
              0.36725813 = fieldWeight in 3659, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                3.9174201 = idf(docFreq=2390, maxDocs=44218)
                0.09375 = fieldNorm(doc=3659)
          0.09049031 = weight(abstract_txt:zukunft in 3659) [ClassicSimilarity], result of:
            0.09049031 = score(doc=3659,freq=1.0), product of:
              0.16563107 = queryWeight, product of:
                1.4876093 = boost
                5.8275905 = idf(docFreq=353, maxDocs=44218)
                0.019105742 = queryNorm
              0.5463366 = fieldWeight in 3659, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                5.8275905 = idf(docFreq=353, maxDocs=44218)
                0.09375 = fieldNorm(doc=3659)
          0.093945116 = weight(abstract_txt:denn in 3659) [ClassicSimilarity], result of:
            0.093945116 = score(doc=3659,freq=1.0), product of:
              0.16982041 = queryWeight, product of:
                1.506305 = boost
                5.9008293 = idf(docFreq=328, maxDocs=44218)
                0.019105742 = queryNorm
              0.55320275 = fieldWeight in 3659, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                5.9008293 = idf(docFreq=328, maxDocs=44218)
                0.09375 = fieldNorm(doc=3659)
          0.37907803 = weight(abstract_txt:sackgasse in 3659) [ClassicSimilarity], result of:
            0.37907803 = score(doc=3659,freq=1.0), product of:
              0.43042037 = queryWeight, product of:
                2.398084 = boost
                9.394302 = idf(docFreq=9, maxDocs=44218)
                0.019105742 = queryNorm
              0.88071585 = fieldWeight in 3659, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                9.394302 = idf(docFreq=9, maxDocs=44218)
                0.09375 = fieldNorm(doc=3659)
        0.2857143 = coord(4/14)
    
  3. Röscheisen, E.: Fin de such (2001) 0.16
    0.1616965 = sum of:
      0.1616965 = product of:
        0.7545836 = sum of:
          0.1508172 = weight(abstract_txt:zukunft in 6496) [ClassicSimilarity], result of:
            0.1508172 = score(doc=6496,freq=1.0), product of:
              0.16563107 = queryWeight, product of:
                1.4876093 = boost
                5.8275905 = idf(docFreq=353, maxDocs=44218)
                0.019105742 = queryNorm
              0.910561 = fieldWeight in 6496, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                5.8275905 = idf(docFreq=353, maxDocs=44218)
                0.15625 = fieldNorm(doc=6496)
          0.20010264 = weight(abstract_txt:intelligenz in 6496) [ClassicSimilarity], result of:
            0.20010264 = score(doc=6496,freq=1.0), product of:
              0.19999069 = queryWeight, product of:
                1.6346428 = boost
                6.4035826 = idf(docFreq=198, maxDocs=44218)
                0.019105742 = queryNorm
              1.0005598 = fieldWeight in 6496, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                6.4035826 = idf(docFreq=198, maxDocs=44218)
                0.15625 = fieldNorm(doc=6496)
          0.40366375 = weight(abstract_txt:suche in 6496) [ClassicSimilarity], result of:
            0.40366375 = score(doc=6496,freq=1.0), product of:
              0.46049842 = queryWeight, product of:
                4.296281 = boost
                5.6101127 = idf(docFreq=439, maxDocs=44218)
                0.019105742 = queryNorm
              0.8765801 = fieldWeight in 6496, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                5.6101127 = idf(docFreq=439, maxDocs=44218)
                0.15625 = fieldNorm(doc=6496)
        0.21428572 = coord(3/14)
    
  4. cw: Google erweitert Suchangebot (2003) 0.15
    0.15455781 = sum of:
      0.15455781 = product of:
        0.7212698 = sum of:
          0.16678882 = weight(abstract_txt:google in 1230) [ClassicSimilarity], result of:
            0.16678882 = score(doc=1230,freq=2.0), product of:
              0.14058615 = queryWeight, product of:
                1.3705322 = boost
                5.3689504 = idf(docFreq=559, maxDocs=44218)
                0.019105742 = queryNorm
              1.1863816 = fieldWeight in 1230, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                5.3689504 = idf(docFreq=559, maxDocs=44218)
                0.15625 = fieldNorm(doc=1230)
          0.1508172 = weight(abstract_txt:zukunft in 1230) [ClassicSimilarity], result of:
            0.1508172 = score(doc=1230,freq=1.0), product of:
              0.16563107 = queryWeight, product of:
                1.4876093 = boost
                5.8275905 = idf(docFreq=353, maxDocs=44218)
                0.019105742 = queryNorm
              0.910561 = fieldWeight in 1230, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                5.8275905 = idf(docFreq=353, maxDocs=44218)
                0.15625 = fieldNorm(doc=1230)
          0.40366375 = weight(abstract_txt:suche in 1230) [ClassicSimilarity], result of:
            0.40366375 = score(doc=1230,freq=1.0), product of:
              0.46049842 = queryWeight, product of:
                4.296281 = boost
                5.6101127 = idf(docFreq=439, maxDocs=44218)
                0.019105742 = queryNorm
              0.8765801 = fieldWeight in 1230, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                5.6101127 = idf(docFreq=439, maxDocs=44218)
                0.15625 = fieldNorm(doc=1230)
        0.21428572 = coord(3/14)
    
  5. Google für Profis (2003) 0.15
    0.15093365 = sum of:
      0.15093365 = product of:
        0.704357 = sum of:
          0.16678882 = weight(abstract_txt:google in 1778) [ClassicSimilarity], result of:
            0.16678882 = score(doc=1778,freq=2.0), product of:
              0.14058615 = queryWeight, product of:
                1.3705322 = boost
                5.3689504 = idf(docFreq=559, maxDocs=44218)
                0.019105742 = queryNorm
              1.1863816 = fieldWeight in 1778, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                5.3689504 = idf(docFreq=559, maxDocs=44218)
                0.15625 = fieldNorm(doc=1778)
          0.13390446 = weight(abstract_txt:dann in 1778) [ClassicSimilarity], result of:
            0.13390446 = score(doc=1778,freq=1.0), product of:
              0.15300463 = queryWeight, product of:
                1.4297835 = boost
                5.601063 = idf(docFreq=443, maxDocs=44218)
                0.019105742 = queryNorm
              0.87516606 = fieldWeight in 1778, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                5.601063 = idf(docFreq=443, maxDocs=44218)
                0.15625 = fieldNorm(doc=1778)
          0.40366375 = weight(abstract_txt:suche in 1778) [ClassicSimilarity], result of:
            0.40366375 = score(doc=1778,freq=1.0), product of:
              0.46049842 = queryWeight, product of:
                4.296281 = boost
                5.6101127 = idf(docFreq=439, maxDocs=44218)
                0.019105742 = queryNorm
              0.8765801 = fieldWeight in 1778, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                5.6101127 = idf(docFreq=439, maxDocs=44218)
                0.15625 = fieldNorm(doc=1778)
        0.21428572 = coord(3/14)