Search (3 results, page 1 of 1)

  • × author_ss:"Hosbach, W."
  • × language_ss:"d"
  1. Hosbach, W.: ¬Die Suche denkt mit : Moderne Suchtechnologien (2006) 0.02
    0.018287322 = product of:
      0.036574643 = sum of:
        0.036574643 = product of:
          0.073149286 = sum of:
            0.073149286 = weight(_text_:dokumente in 4885) [ClassicSimilarity], result of:
              0.073149286 = score(doc=4885,freq=8.0), product of:
                0.25999573 = queryWeight, product of:
                  5.092943 = idf(docFreq=737, maxDocs=44218)
                  0.05105019 = queryNorm
                0.28134802 = fieldWeight in 4885, product of:
                  2.828427 = tf(freq=8.0), with freq of:
                    8.0 = termFreq=8.0
                  5.092943 = idf(docFreq=737, maxDocs=44218)
                  0.01953125 = fieldNorm(doc=4885)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Content
    Mehr Intelligenz Semantik bedeutet bislang Handarbeit. Das ist lästig und kostspielig. Der Computer soll die Bedeutung bitte selbst verstehen! Im Forschungsbereich der Künstlichen Intelligenz (KI) arbeiten Wissenschaftler auch an derVerbesserung der Suche. Die Forscher vom Fraunhofer Institut für Integrierte Publikations- und Informationssysteme unter der Leitung von Prof. Thomas Hofmann haben ein Verfahren vorgestellt, das Konzepte von Texten extrahiert. "Konzepte bilden eine Brücke zwischen der Ausdrucksweise in einem Dokument und der in der Anfrage", erläutert Hofmann seinen Ansatz. So findet der Suchende alle relevanten Dokumente, selbst wenn die Suchbegriffe nicht direkt vorkommen. Das funktioniert derzeit nur in einem thematisch begrenzten Raum, z.B. einem Webauftritt über Medizin, Handel, Hardware... Bevor die Suchmaschine die Dokumente indiziert, errechnet sie die Konzepte aus einer begrenzten Sammlung an Dokumenten. Diese hat der Betreuer des Systems so ausgewählt, dass sie für das Themengebiet und den Webauftritt charakteristisch sind. Mit Methoden der Statistik und Wahrscheinlichkeitsrechnung (Probabilistic Latent Semantic Analysis; kurz pLSA) extrahiert der Roboter einige hundert bis tausend Konzepte. Die bestehen aus Begriffen und deren Art, gemeinsam in Dokumenten aufzutreten (Häufigkeit, Ort, Beziehung etc.) Für das Beispiel Handel gibt es etwa ein Konzept für Import oder eines für Buchhaltung. Stehen die Konzepte fest, erstellt die Suchmaschine den Index, indem sie alle Dokumente der Domäne den Konzepten zuordnet. Wenn der Anwender nun sucht, so versucht die Suchmaschine, die Anfrage ebenfalls Konzepten zuzuordnen, und wählt dementsprechend die Ergebnisse aus. Hoffmanns System ist auf der Webseite www.medlineplus.com im Einsatz. Gibt der Anwender z.B. +bird +flu ein, so sucht die Suchmaschine genau die Worte - ohne +, jedoch mit Konzept. Die Frage, ob eine konzeptbasierte Suchmaschine für das ganze Web möglich ist, bezweifelt Hofmann derzeit: "Das ist eine Frage der Skalierbarkeit. Die statistische Analyse ist nicht ganz trivial und braucht eine entsprechende Rechenleistung. Auf lange Sicht wird das aber kommen.
    Im Web müsste die KI-Suchmaschine Hunderttausende von Konzepten bewältigen. Das ist kostspielig. Eine intelligente Suche wäre pro Anfrage vielleicht zehnmal teuerer als eine jetzige, bei vielen Millionen täglichen Anfragen ist das ein erheblicher Kostenfaktor. Dennoch laufen bei Google Entwicklungen in diese Richtung. Der Marktführer muss Technologieführer bleiben, um zu überleben. Mehr Sprache Die KI arbeitet daran, die Sprache immer besser zu verstehen, bis hin zur Möglichkeit, Fakten ausSätzen zu extrahieren. Das erfordert eine genaue gramma tikalische und semantische Analyse. Auch da haben sichstatistische Verfahren durchgesetzt, die eine große Menge an Sätzen auswerten. Das öffnet auch Wege zum automatischen Übersetzen von Sprachen, was wieder für die Suche relevant ist. An die Grenzen kommt die KI dann, wenn sie Fakten aus mehreren Dokumenten zusammensetzen soll- also Bedeutung im synthetischen Schluss aus verschiedenen Quellen extrahieren. Ebenso wenig kann die KI etwas über die Glaubwürdigkeit einer Quelle sagen. Das schaffen wir als Menschen ja oft kaum. Es gibt auch Methoden, mit denen Suchmaschinen den Suchenden besser verstehen. Sucht er z.B. nach Flügel, so weiß das Tool erst einmal nicht, ob ein Instrument, ein Gebäude, ein Vogel oder ein Flugzeug gemeint ist. Das könnte die Suchmaschine aber vermuten, wenn sie den Anwender besser kennt: Ist er Musiker oder Flugzeugkonstrukteur? Mit KI könnte sie das lernen, z.B. aus seinen bisherigen Suchanfragen (Orchester oder Triebwerke?). Sie könnte auch die Festplatte des Anwenders durchsuchen, um anhand der Dokumente festzustellen, womit der Suchende sich beschäftigt und was ihn interessiert. Das interessiert aber auch das Finanzamt und Adresshändler. Viele Anwender werden Probleme mit der Vertraulichkeit ihrer Daten sehen. Bei einer Internet-Suchmaschine müssten die Informationen als Profile auf dem Server liegen. Wer will das schon?"
  2. Hosbach, W.: Suche: Nadel : Desktop-Suchmaschinen (2006) 0.01
    0.012931089 = product of:
      0.025862178 = sum of:
        0.025862178 = product of:
          0.051724356 = sum of:
            0.051724356 = weight(_text_:dokumente in 4730) [ClassicSimilarity], result of:
              0.051724356 = score(doc=4730,freq=4.0), product of:
                0.25999573 = queryWeight, product of:
                  5.092943 = idf(docFreq=737, maxDocs=44218)
                  0.05105019 = queryNorm
                0.1989431 = fieldWeight in 4730, product of:
                  2.0 = tf(freq=4.0), with freq of:
                    4.0 = termFreq=4.0
                  5.092943 = idf(docFreq=737, maxDocs=44218)
                  0.01953125 = fieldNorm(doc=4730)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Content
    "Manche Menschen halten auf ihrer Festplatte penibel Ordnung. Bei anderen sieht es so aus: E-Mails, Text-Dokumente, Bilder und Musik-Stücke wabern in verschiedenen Formaten zwischen den Ordnern und Festplatten hin und her. Da gibt es E-Mails in Outlook, News und Blogs in Thunderbird, Briefe in Word, Berichte in PDF, Adressen in den Kontakten und weitere in einer Excel-Tabelle. Die Musik liegt teilweise auf einer externen Festplatte, andere Stücke befinden sich noch im Tauschordner. Bilder sehen im TWAIN-Ordner dem ewigen Vergessen entgegen. Manche Informationen wurden nie aus den Anhängen der Mails gelöscht, andere verschickt und dann gelöscht. Wenn Ihre Festplatte diesen Zustand erreicht, hilft Ihnen nur noch eine Suchmaschine für den Desktop. Dann können Sie sich das schlechte Gewissen, weil Sie nicht aufgeräumt haben, künftig schenken. Das bekannteste Tool dieser Art ist Google Desktop. Doch unser Test zeigt, dass es einige weitaus bessere gibt, die ebenfalls kostenlos sind. Ein gutes Tool sollte Folgendes können: so viele Formate wie möglich erkennen und durchsuchen; einen Index anlegen, der das Suchen beschleunigt; Ergebnisse ansprechend präsentieren; und merken, wenn etwas Neues hinzukommt. Schon bei den unterstützten Formaten gibt es erhebliche Unterschiede. Thunderbird-Freunde finden in Copernic das beste Tool, da es auch dessen News- und Blogordner indiziert. Für Outlook-Freaks hingegen ist X1 die beste Wahl, denn es findet alle PST-Archive auf der Platte, auch die, die nicht mehr im OutlookOrdnerbaum hängen. Der Hersteller von X1 bietet auch eine Notes-Version, die wir nicht getestet haben.
    Komplett vermisst in allen Tools haben wir die Unterstützung von Access. Ein Sprecher von X1 beteuerte, das Tool verstehe Access bis zur Version 2. Das haben wir nicht nachgeprüft (nur Access 2003). Oft stellten wir Probleme mit Umlauten fest. Blinkx verzichtet komplett auf alles, was nicht Englisch ist. Früher gab es eine deutsche Version, und eine Sprecherin versicherte, es soll bald eine internationale folgen, die auch Deutsch beherrscht. Die vorliegende 3.5 ist hierzulande jedenfalls nicht zu verwenden. Copernic versteht keine Umlaute in HTML-Seiten, da diese als &xyz; vorliegen: K&uuml; statt Küche. Auch hier soll die nächste Version Abhilfe schaffen. In unserem letzten Test hatte Google ähnliche Probleme, das ist aber nicht mehr der Fall. Dafür filtert es HTML-Tags nicht richtig: z.B. Fe<b>tt<lb> findet es nicht als Fett sondern F ett. Der Anwender sollte sich genau klar machen und prüfen, in welchen Formaten seine Daten vorliegen. Das Suchtool sollte alle unterstützen. In den Index Nach der Installation stellt derAnwenderbei den meisten Tools ein, welche Ordner und Mail-Programme es in den Index einbeziehen soll. Dann beginnt der Indexer mit derArbeit, was je nach Größe einige Stunden dauern kann. Der fertige Index ist sozusagen eine Karte der Daten. Erenthält alle suchbaren Begriffe und den zugehörigen Dateinamen, wie ein Register der Festplatte. In diesem findet sich ein Suchbegriff viel schneller, als wenn das Tool jede Datei öffnen müsste. Google macht es sich besonders einfach: Es bricht die Indizierung bei etwa lOOk ab. Das konnten wir bei mehreren Dateiformaten (RTF, DOC, HTML) feststellen. Die erste Hälfte ist suchbar, die zweite nicht. Dieses Verhalten macht im Web sicher Sinn, den die ersten Seiten eines Dokuments geben Aufschluss über den Inhalt, nach dem der Anwender später sucht. Auf seinem Desktop sucht der An wender oft aber anders. Er hat eine ganz bestimmte Info, deren Ort erfin den möchte. Dazu müssen die Dokumente im Indexvollständig abgebildet sein. Google gab keine Stellungnahme dazu ab.
  3. Hosbach, W.: Gates gegen Google : Neue Suchmaschine von MSN (2005) 0.00
    0.0043228725 = product of:
      0.008645745 = sum of:
        0.008645745 = product of:
          0.01729149 = sum of:
            0.01729149 = weight(_text_:22 in 3221) [ClassicSimilarity], result of:
              0.01729149 = score(doc=3221,freq=2.0), product of:
                0.17876907 = queryWeight, product of:
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.05105019 = queryNorm
                0.09672529 = fieldWeight in 3221, product of:
                  1.4142135 = tf(freq=2.0), with freq of:
                    2.0 = termFreq=2.0
                  3.5018296 = idf(docFreq=3622, maxDocs=44218)
                  0.01953125 = fieldNorm(doc=3221)
          0.5 = coord(1/2)
      0.5 = coord(1/2)
    
    Date
    22. 1.2005 17:11:04