Search (3 results, page 1 of 1)

  • × author_ss:"Hosbach, W."
  • × theme_ss:"Suchmaschinen"
  1. Hosbach, W.: ¬Die Suche denkt mit : Moderne Suchtechnologien (2006) 0.01
    0.0072541144 = product of:
      0.029016457 = sum of:
        0.029016457 = product of:
          0.058032915 = sum of:
            0.058032915 = weight(_text_:intelligenz in 4885) [ClassicSimilarity], result of:
              0.058032915 = score(doc=4885,freq=6.0), product of:
                0.21362439 = queryWeight, product of:
                  5.678294 = idf(docFreq=410, maxDocs=44218)
                  0.037621226 = queryNorm
                0.27165866 = fieldWeight in 4885, product of:
                  2.4494898 = tf(freq=6.0), with freq of:
                    6.0 = termFreq=6.0
                  5.678294 = idf(docFreq=410, maxDocs=44218)
                  0.01953125 = fieldNorm(doc=4885)
          0.5 = coord(1/2)
      0.25 = coord(1/4)
    
    Abstract
    Google und Co. sind auf dem Weg in die Sackgasse. Die Zukunft gehört der Suche mit Intelligenz und Bedeutung. Denn dann hat die Suche Sinn und Verstand
    Content
    Mehr Intelligenz Semantik bedeutet bislang Handarbeit. Das ist lästig und kostspielig. Der Computer soll die Bedeutung bitte selbst verstehen! Im Forschungsbereich der Künstlichen Intelligenz (KI) arbeiten Wissenschaftler auch an derVerbesserung der Suche. Die Forscher vom Fraunhofer Institut für Integrierte Publikations- und Informationssysteme unter der Leitung von Prof. Thomas Hofmann haben ein Verfahren vorgestellt, das Konzepte von Texten extrahiert. "Konzepte bilden eine Brücke zwischen der Ausdrucksweise in einem Dokument und der in der Anfrage", erläutert Hofmann seinen Ansatz. So findet der Suchende alle relevanten Dokumente, selbst wenn die Suchbegriffe nicht direkt vorkommen. Das funktioniert derzeit nur in einem thematisch begrenzten Raum, z.B. einem Webauftritt über Medizin, Handel, Hardware... Bevor die Suchmaschine die Dokumente indiziert, errechnet sie die Konzepte aus einer begrenzten Sammlung an Dokumenten. Diese hat der Betreuer des Systems so ausgewählt, dass sie für das Themengebiet und den Webauftritt charakteristisch sind. Mit Methoden der Statistik und Wahrscheinlichkeitsrechnung (Probabilistic Latent Semantic Analysis; kurz pLSA) extrahiert der Roboter einige hundert bis tausend Konzepte. Die bestehen aus Begriffen und deren Art, gemeinsam in Dokumenten aufzutreten (Häufigkeit, Ort, Beziehung etc.) Für das Beispiel Handel gibt es etwa ein Konzept für Import oder eines für Buchhaltung. Stehen die Konzepte fest, erstellt die Suchmaschine den Index, indem sie alle Dokumente der Domäne den Konzepten zuordnet. Wenn der Anwender nun sucht, so versucht die Suchmaschine, die Anfrage ebenfalls Konzepten zuzuordnen, und wählt dementsprechend die Ergebnisse aus. Hoffmanns System ist auf der Webseite www.medlineplus.com im Einsatz. Gibt der Anwender z.B. +bird +flu ein, so sucht die Suchmaschine genau die Worte - ohne +, jedoch mit Konzept. Die Frage, ob eine konzeptbasierte Suchmaschine für das ganze Web möglich ist, bezweifelt Hofmann derzeit: "Das ist eine Frage der Skalierbarkeit. Die statistische Analyse ist nicht ganz trivial und braucht eine entsprechende Rechenleistung. Auf lange Sicht wird das aber kommen.
  2. Hosbach, W.: Gates gegen Google : Neue Suchmaschine von MSN (2005) 0.00
    0.0015928615 = product of:
      0.006371446 = sum of:
        0.006371446 = product of:
          0.012742892 = sum of:
            0.012742892 = weight(_text_:22 in 3221) [ClassicSimilarity], result of:
              0.012742892 = score(doc=3221,freq=2.0), product of:
                0.13174312 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.037621226 = queryNorm
                0.09672529 = fieldWeight in 3221, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.01953125 = fieldNorm(doc=3221)
          0.5 = coord(1/2)
      0.25 = coord(1/4)
    
    Date
    22. 1.2005 17:11:04
  3. Hosbach, W.: Suche: Nadel : Desktop-Suchmaschinen (2006) 0.00
    0.0011035174 = product of:
      0.0044140695 = sum of:
        0.0044140695 = product of:
          0.0132422075 = sum of:
            0.0132422075 = weight(_text_:k in 4730) [ClassicSimilarity], result of:
              0.0132422075 = score(doc=4730,freq=2.0), product of:
                0.13429943 = queryWeight, product of:
                  3.569778 = idf(docFreq=3384, maxDocs=44218)
                  0.037621226 = queryNorm
                0.098602116 = fieldWeight in 4730, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.569778 = idf(docFreq=3384, maxDocs=44218)
                  0.01953125 = fieldNorm(doc=4730)
          0.33333334 = coord(1/3)
      0.25 = coord(1/4)
    
    Content
    Komplett vermisst in allen Tools haben wir die Unterstützung von Access. Ein Sprecher von X1 beteuerte, das Tool verstehe Access bis zur Version 2. Das haben wir nicht nachgeprüft (nur Access 2003). Oft stellten wir Probleme mit Umlauten fest. Blinkx verzichtet komplett auf alles, was nicht Englisch ist. Früher gab es eine deutsche Version, und eine Sprecherin versicherte, es soll bald eine internationale folgen, die auch Deutsch beherrscht. Die vorliegende 3.5 ist hierzulande jedenfalls nicht zu verwenden. Copernic versteht keine Umlaute in HTML-Seiten, da diese als &xyz; vorliegen: K&uuml; statt Küche. Auch hier soll die nächste Version Abhilfe schaffen. In unserem letzten Test hatte Google ähnliche Probleme, das ist aber nicht mehr der Fall. Dafür filtert es HTML-Tags nicht richtig: z.B. Fe<b>tt<lb> findet es nicht als Fett sondern F ett. Der Anwender sollte sich genau klar machen und prüfen, in welchen Formaten seine Daten vorliegen. Das Suchtool sollte alle unterstützen. In den Index Nach der Installation stellt derAnwenderbei den meisten Tools ein, welche Ordner und Mail-Programme es in den Index einbeziehen soll. Dann beginnt der Indexer mit derArbeit, was je nach Größe einige Stunden dauern kann. Der fertige Index ist sozusagen eine Karte der Daten. Erenthält alle suchbaren Begriffe und den zugehörigen Dateinamen, wie ein Register der Festplatte. In diesem findet sich ein Suchbegriff viel schneller, als wenn das Tool jede Datei öffnen müsste. Google macht es sich besonders einfach: Es bricht die Indizierung bei etwa lOOk ab. Das konnten wir bei mehreren Dateiformaten (RTF, DOC, HTML) feststellen. Die erste Hälfte ist suchbar, die zweite nicht. Dieses Verhalten macht im Web sicher Sinn, den die ersten Seiten eines Dokuments geben Aufschluss über den Inhalt, nach dem der Anwender später sucht. Auf seinem Desktop sucht der An wender oft aber anders. Er hat eine ganz bestimmte Info, deren Ort erfin den möchte. Dazu müssen die Dokumente im Indexvollständig abgebildet sein. Google gab keine Stellungnahme dazu ab.