Search (83 results, page 1 of 5)

Semantische Suche über 500 Millionen Web-Dokumente (2009) 0.04
```
0.037818365 = product of:
  0.15127346 = sum of:
    0.048439488 = weight(_text_:web in 2434) [ClassicSimilarity], result of:
      0.048439488 = score(doc=2434,freq=8.0), product of:
        0.111951075 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03430388 = queryNorm
        0.43268442 = fieldWeight in 2434, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.046875 = fieldNorm(doc=2434)
    0.080276154 = weight(_text_:suche in 2434) [ClassicSimilarity], result of:
      0.080276154 = score(doc=2434,freq=4.0), product of:
        0.17138755 = queryWeight, product of:
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.03430388 = queryNorm
        0.46838963 = fieldWeight in 2434, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.046875 = fieldNorm(doc=2434)
    0.02255783 = weight(_text_:system in 2434) [ClassicSimilarity], result of:
      0.02255783 = score(doc=2434,freq=2.0), product of:
        0.10804188 = queryWeight, product of:
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.03430388 = queryNorm
        0.20878783 = fieldWeight in 2434, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.046875 = fieldNorm(doc=2434)
  0.25 = coord(3/12)
```
Content

"Wissenschaftler an der University of Washington haben eine neue Suchmaschinen-Engine geschrieben, die Zusammenhänge und Fakten aus mehr als 500 Millionen einzelner Web-Seiten zusammentragen kann. Das Werkzeug extrahiert dabei Informationen aus Milliarden von Textzeilen, indem die grundlegenden sprachlichen Beziehungen zwischen Wörtern analysiert werden. Experten glauben, dass solche Systeme zur automatischen Informationsgewinnung eines Tages die Grundlage deutlich smarterer Suchmaschinen bilden werden, als sie heute verfügbar sind. Dazu werden die wichtigsten Datenhappen zunächst von einem Algorithmus intern begutachtet und dann intelligent kombiniert, berichtet Technology Review in seiner Online-Ausgabe. Das Projekt US-Forscher stellt eine deutliche Ausweitung einer zuvor an der gleichen Hochschule entwickelten Technik namens TextRunner dar. Sowohl die Anzahl analysierbarer Seiten als auch die Themengebiete wurden dabei stark erweitert. "TextRunner ist deshalb so bedeutsam, weil es skaliert, ohne dass dabei ein Mensch eingreifen müsste", sagt Peter Norvig, Forschungsdirektor bei Google. Der Internet-Konzern spendete dem Projekt die riesige Datenbank aus einzelnen Web-Seiten, die TextRunner analysiert. "Das System kann Millionen von Beziehungen erkennen und erlernen - und zwar nicht nur jede einzeln. Einen Betreuer braucht die Software nicht, die Informationen werden selbstständig ermittelt.""

Source

http://www.heise.de/newsticker/Semantische-Suche-ueber-500-Millionen-Web-Dokumente--/meldung/140630

Koch, T.: Searching the Web : systematic overview over indexes (1995) 0.03

0.030338569 = product of:
  0.18203141 = sum of:
    0.06850378 = weight(_text_:web in 3169) [ClassicSimilarity], result of:
      0.06850378 = score(doc=3169,freq=4.0), product of:
        0.111951075 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03430388 = queryNorm
        0.6119082 = fieldWeight in 3169, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.09375 = fieldNorm(doc=3169)
    0.113527626 = weight(_text_:suche in 3169) [ClassicSimilarity], result of:
      0.113527626 = score(doc=3169,freq=2.0), product of:
        0.17138755 = queryWeight, product of:
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.03430388 = queryNorm
        0.662403 = fieldWeight in 3169, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.09375 = fieldNorm(doc=3169)
  0.16666667 = coord(2/12)

Abstract: Vorstellung von Hilfsmitteln zur inhaltlichen Suche von Angeboten im Internet
Object: Nordic Web Index

Leighton, H.V.: Performance of four World Wide Web (WWW) index services : Infoseek, Lycos, WebCrawler and WWWWorm (1995) 0.03

0.026994519 = product of:
  0.16196711 = sum of:
    0.048439488 = weight(_text_:web in 3168) [ClassicSimilarity], result of:
      0.048439488 = score(doc=3168,freq=2.0), product of:
        0.111951075 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03430388 = queryNorm
        0.43268442 = fieldWeight in 3168, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.09375 = fieldNorm(doc=3168)
    0.113527626 = weight(_text_:suche in 3168) [ClassicSimilarity], result of:
      0.113527626 = score(doc=3168,freq=2.0), product of:
        0.17138755 = queryWeight, product of:
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.03430388 = queryNorm
        0.662403 = fieldWeight in 3168, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.09375 = fieldNorm(doc=3168)
  0.16666667 = coord(2/12)

Abstract: Vorstellung von Hilfsmitteln zur inhaltlichen Suche von Angeboten im Internet

Ding, L.; Finin, T.; Joshi, A.; Peng, Y.; Cost, R.S.; Sachs, J.; Pan, R.; Reddivari, P.; Doshi, V.: Swoogle : a Semantic Web search and metadata engine (2004) 0.03

0.026472934 = product of:
  0.105891734 = sum of:
    0.064079426 = weight(_text_:web in 4704) [ClassicSimilarity], result of:
      0.064079426 = score(doc=4704,freq=14.0), product of:
        0.111951075 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03430388 = queryNorm
        0.57238775 = fieldWeight in 4704, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.046875 = fieldNorm(doc=4704)
    0.009910721 = weight(_text_:information in 4704) [ClassicSimilarity], result of:
      0.009910721 = score(doc=4704,freq=4.0), product of:
        0.060219705 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.03430388 = queryNorm
        0.16457605 = fieldWeight in 4704, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.046875 = fieldNorm(doc=4704)
    0.031901587 = weight(_text_:system in 4704) [ClassicSimilarity], result of:
      0.031901587 = score(doc=4704,freq=4.0), product of:
        0.10804188 = queryWeight, product of:
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.03430388 = queryNorm
        0.29527056 = fieldWeight in 4704, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.046875 = fieldNorm(doc=4704)
  0.25 = coord(3/12)

Abstract: Swoogle is a crawler-based indexing and retrieval system for the Semantic Web, i.e., for Web documents in RDF or OWL. It extracts metadata for each discovered document, and computes relations between documents. Discovered documents are also indexed by an information retrieval system which can use either character N-Gram or URIrefs as keywords to find relevant documents and to compute the similarity among a set of documents. One of the interesting properties we compute is rank, a measure of the importance of a Semantic Web document.
Content: Vgl. unter: http://www.dblab.ntua.gr/~bikakis/LD/5.pdf Vgl. auch: http://swoogle.umbc.edu/. Vgl. auch: http://ebiquity.umbc.edu/paper/html/id/183/. Vgl. auch: Radhakrishnan, A.: Swoogle : An Engine for the Semantic Web unter: http://www.searchenginejournal.com/swoogle-an-engine-for-the-semantic-web/5469/.
Source: CIKM '04 Proceedings of the thirteenth ACM international conference on Information and knowledge management
Theme: Semantic Web

Hogan, A.; Harth, A.; Umbrich, J.; Kinsella, S.; Polleres, A.; Decker, S.: Searching and browsing Linked Data with SWSE : the Semantic Web Search Engine (2011) 0.03
```
0.025585249 = product of:
  0.102340996 = sum of:
    0.06991638 = weight(_text_:web in 438) [ClassicSimilarity], result of:
      0.06991638 = score(doc=438,freq=24.0), product of:
        0.111951075 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03430388 = queryNorm
        0.6245262 = fieldWeight in 438, product of:
          4.8989797 = tf(freq=24.0), with freq of:
            24.0 = termFreq=24.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.0390625 = fieldNorm(doc=438)
    0.0058399485 = weight(_text_:information in 438) [ClassicSimilarity], result of:
      0.0058399485 = score(doc=438,freq=2.0), product of:
        0.060219705 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.03430388 = queryNorm
        0.09697737 = fieldWeight in 438, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.0390625 = fieldNorm(doc=438)
    0.026584659 = weight(_text_:system in 438) [ClassicSimilarity], result of:
      0.026584659 = score(doc=438,freq=4.0), product of:
        0.10804188 = queryWeight, product of:
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.03430388 = queryNorm
        0.24605882 = fieldWeight in 438, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.0390625 = fieldNorm(doc=438)
  0.25 = coord(3/12)
```
Abstract

In this paper, we discuss the architecture and implementation of the Semantic Web Search Engine (SWSE). Following traditional search engine architecture, SWSE consists of crawling, data enhancing, indexing and a user interface for search, browsing and retrieval of information; unlike traditional search engines, SWSE operates over RDF Web data - loosely also known as Linked Data - which implies unique challenges for the system design, architecture, algorithms, implementation and user interface. In particular, many challenges exist in adopting Semantic Web technologies for Web data: the unique challenges of the Web - in terms of scale, unreliability, inconsistency and noise - are largely overlooked by the current Semantic Web standards. Herein, we describe the current SWSE system, initially detailing the architecture and later elaborating upon the function, design, implementation and performance of each individual component. In so doing, we also give an insight into how current Semantic Web standards can be tailored, in a best-effort manner, for use on Web data. Throughout, we offer evaluation and complementary argumentation to support our design choices, and also offer discussion on future directions and open research questions. Later, we also provide candid discussion relating to the difficulties currently faced in bringing such a search engine into the mainstream, and lessons learnt from roughly six years working on the Semantic Web Search Engine project.

Object

Semantic Web Search Engine

Theme

Semantic Web
Li, Z.: ¬A domain specific search engine with explicit document relations (2013) 0.02
```
0.02384824 = product of:
  0.09539296 = sum of:
    0.06054936 = weight(_text_:web in 1210) [ClassicSimilarity], result of:
      0.06054936 = score(doc=1210,freq=18.0), product of:
        0.111951075 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03430388 = queryNorm
        0.5408555 = fieldWeight in 1210, product of:
          4.2426405 = tf(freq=18.0), with freq of:
            18.0 = termFreq=18.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1210)
    0.008258934 = weight(_text_:information in 1210) [ClassicSimilarity], result of:
      0.008258934 = score(doc=1210,freq=4.0), product of:
        0.060219705 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.03430388 = queryNorm
        0.13714671 = fieldWeight in 1210, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1210)
    0.026584659 = weight(_text_:system in 1210) [ClassicSimilarity], result of:
      0.026584659 = score(doc=1210,freq=4.0), product of:
        0.10804188 = queryWeight, product of:
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.03430388 = queryNorm
        0.24605882 = fieldWeight in 1210, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.0390625 = fieldNorm(doc=1210)
  0.25 = coord(3/12)
```
Abstract

The current web consists of documents that are highly heterogeneous and hard for machines to understand. The Semantic Web is a progressive movement of the Word Wide Web, aiming at converting the current web of unstructured documents to the web of data. In the Semantic Web, web documents are annotated with metadata using standardized ontology language. These annotated documents are directly processable by machines and it highly improves their usability and usefulness. In Ericsson, similar problems occur. There are massive documents being created with well-defined structures. Though these documents are about domain specific knowledge and can have rich relations, they are currently managed by a traditional search engine, which ignores the rich domain specific information and presents few data to users. Motivated by the Semantic Web, we aim to find standard ways to process these documents, extract rich domain specific information and annotate these data to documents with formal markup languages. We propose this project to develop a domain specific search engine for processing different documents and building explicit relations for them. This research project consists of the three main focuses: examining different domain specific documents and finding ways to extract their metadata; integrating a text search engine with an ontology server; exploring novel ways to build relations for documents. We implement this system and demonstrate its functions. As a prototype, the system provides required features and will be extended in the future.

Theme

Semantic Web
Patalong, F.: Life after Google : I. Besser suchen, wirklich finden (2002) 0.02
```
0.023013147 = product of:
  0.09205259 = sum of:
    0.024719173 = weight(_text_:web in 1165) [ClassicSimilarity], result of:
      0.024719173 = score(doc=1165,freq=12.0), product of:
        0.111951075 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03430388 = queryNorm
        0.22080335 = fieldWeight in 1165, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.01953125 = fieldNorm(doc=1165)
    0.05793432 = weight(_text_:suche in 1165) [ClassicSimilarity], result of:
      0.05793432 = score(doc=1165,freq=12.0), product of:
        0.17138755 = queryWeight, product of:
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.03430388 = queryNorm
        0.33803108 = fieldWeight in 1165, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.01953125 = fieldNorm(doc=1165)
    0.009399096 = weight(_text_:system in 1165) [ClassicSimilarity], result of:
      0.009399096 = score(doc=1165,freq=2.0), product of:
        0.10804188 = queryWeight, product of:
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.03430388 = queryNorm
        0.08699492 = fieldWeight in 1165, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.01953125 = fieldNorm(doc=1165)
  0.25 = coord(3/12)
```
Content

Google sucht "flach", weil "hochgestochenes" nicht populär ist Das Pageranking-System von Google, mit dem der Suchdienst Ergebnisse in eine "relevante" Reihenfolge bringt, begünstigt populäre Angebote. Fachleute suchen vielleicht gerade die bewusst nicht. Sie sind in aller Regel mit Suchen über Kataloge oder spezialisierte Suchdienste besser bedient. Da keine Suchmaschine es schafft, das WWW, geschweige denn das Internet vollständig abzudecken, gelingt es vielen Suchmaschinen immer wieder, in bestimmten Suchfeldern, Themenbereichen oder auch über regionale Ansätze und Schwerpunkte zu qualitativ hochwertigen Ergebnissen zu kommen, die auch Google ausstechen. Ganz besonders gilt dies für alle Dienste, die gezielt im so genannten "Deep Web" suchen: Gemeint sind damit vor allem Datenbankbestände. An die kommt Google in den seltensten Fällen heran, aber gerade hier sind zumindest im Kontext professioneller Recherchen die Perlen im Web verborgen - egal, ob man Ingenieur, Bibliothekar, Arzt, Möbelrestaurator oder Journalist ist. Patentrezepte gibt es hier nicht, weil alles Suchen im Web abhängig ist von den Interessen des Suchenden. Stets up to date über das Angebot auch an spezialisierten Suchdiensten ist aber die Website Searchenginewatch: Hier sind unter "Specialty Search Engines" entsprechende Links zu finden. Zumindest eines lässt sich pauschal und problemlos für alle Suchenden im Web konstatieren: Es kann nicht schaden, eine Alternative zu Google zu pflegen. Metasucher: Mit Masse zur Klasse Neben kraftvollen Suchmaschinen wie Altavista, Hotbot, Teoma, Wisenut, Inktomi oder AlltheWeb , die alle ihre Eigenheiten, Stärken und Schwächen besitzen (ausprobieren!), glänzen vor allem auch die Metasuchdienste. Das sind Websites, die über ein Suchformular parallel eine ganze Reihe von Quellen abfragen können und die Ergebnisse zusammenfassen. Metasearcher kommen und gehen und leben dabei - aus Perspektive der Surchengine-Anbieter - quasi parasitär auf Kosten der Suchmaschinen. Aus Nutzerperspektive haben sie allerdings einiges zu bieten, und die besten unter ihnen bringen tatsächlich eigene Leistungen ein, die die Qualität der bei anderen Suchdiensten gesammelten Ergebnisse steigert. Denn Metamaschinen "verbreitern" die Suche nicht nur, sie engen sie auch ein: Ein Beispiel wie Ithaki macht das sehr schön deutlich. Der Suchdienst fragt nur Kataloge für Kinderseiten ab - und wer weiß, wie dürftig die in aller Regel für sich genommen sind, wird für den breiteren, aber fest definierten Ansatz dankbar sein. Typisch: So was gibt es für den deutschsprachigen Raum natürlich wieder nicht.
Auch das bringt was: Gezielte Plattformwechsel Das versucht auch ein Dienst wie Pandia : Der Metasearcher kombiniert in seinen Anfragen gute Searchengines mit der Vollindexierung qualitativ hochwertiger Inhalte-Angebote. So kombiniert Pandia gezielt die Encyclopedia Britannica, Lexika und Searchengines mit den Datenbeständen von Amazon. Wozu das gut sein soll und kann, zeigt das praktische Beispiel einer sehr sachlich orientierten Suche: "Retina Implant". Dabei geht es um Techniken, über oparative Eingriffe und Implantate an Netzhaut-Degeneration erblindeter Menschen das Augenlicht (zumindest teilweise) wieder zu geben. Pandia beantwortet die Suche zunächst mit dem Verweis auf etliche universitäre und privatwirtschaftliche Forschungsinstitute. 13 von 15 Suchergebnissen sind 100 Prozent relevant: Hier geht es ab in die Forschung. Die letzten beiden verweisen zum einen auf eine Firma, die solche Implantate herstellt, die andere auf einen Fachkongress unter anderem zu diesem Thema: Das ist schon beeindruckend treffsicher. Und dann geht's erst los: Mit einem Klick überträgt Pandia die Suchabfrage auf das Suchmuster "Nachrichtensuche", als Resultat werden Presse- und Medienberichte geliefert. Deren Relevanz ist leicht niedriger: Um Implantate geht es immer, um Augen nicht unbedingt, aber in den meisten Fällen. Nicht schlecht. Noch ein Klick, und die Suche im "Pandia Plus Directory" reduziert die Trefferanzahl auf zwei: Ein Treffer führt zur Beschreibung des universitären "Retinal Implant Project", der andere zu Intelligent Implants, einer von Bonner Forschern gegründeten Firma, die sich auf solche Implantate spezialisiert hat - und nebenbei weltweit zu den führenden zählt. Noch ein Klick, und Pandia versucht, Bücher zum Thema zu finden: Die gibt es bisher nicht, aber mit Pandias Hilfe ließe sich sicher eins recherchieren und schreiben. Trotzdem: Keiner der angesprochenen Dienste taugt zum Universalwerkzeug. Was der eine kann, das schafft der andere nicht. Da hilft nur ausprobieren. Der Suchdienst muss zum Sucher passen. Fazit und Ausblick So gut Google auch ist, es geht noch besser. Die intelligente Kombination der besten Fertigkeiten guter Suchwerkzeuge schlägt selbst den Platzhirsch unter den Suchdiensten. Doch darum geht es ja gar nicht. Es geht darum, die Suche im Web effektiv zu gestalten, und das will nach wie vor gelernt sein. Noch einfacher und effektiver geht das mit zahlreichen, oft kostenlosen Werkzeugen, die entweder als eigenständige Software (Bots) für Suche und Archivierung sorgen, oder aber als Add-On in den heimischen Browser integriert werden können. Doch dazu mehr im zweiten Teil dieses kleinen Web-Wanderführers"
Brin, S.; Page, L.: ¬The anatomy of a large-scale hypertextual Web search engine (1998) 0.02
```
0.020114161 = product of:
  0.080456644 = sum of:
    0.053399518 = weight(_text_:web in 947) [ClassicSimilarity], result of:
      0.053399518 = score(doc=947,freq=14.0), product of:
        0.111951075 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03430388 = queryNorm
        0.47698978 = fieldWeight in 947, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.0390625 = fieldNorm(doc=947)
    0.008258934 = weight(_text_:information in 947) [ClassicSimilarity], result of:
      0.008258934 = score(doc=947,freq=4.0), product of:
        0.060219705 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.03430388 = queryNorm
        0.13714671 = fieldWeight in 947, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.0390625 = fieldNorm(doc=947)
    0.018798191 = weight(_text_:system in 947) [ClassicSimilarity], result of:
      0.018798191 = score(doc=947,freq=2.0), product of:
        0.10804188 = queryWeight, product of:
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.03430388 = queryNorm
        0.17398985 = fieldWeight in 947, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.0390625 = fieldNorm(doc=947)
  0.25 = coord(3/12)
```
Abstract

In this paper, we present Google, a prototype of a large-scale search engine which makes heavy use of the structure present in hypertext. Google is designed to crawl and index the Web efficiently and produce much more satisfying search results than existing systems. The prototype with a full text and hyperlink database of at least 24 million pages is available at http://google.stanford.edu/. To engineer a search engine is a challenging task. Search engines index tens to hundreds of millions of web pages involving a comparable number of distinct terms. They answer tens of millions of queries every day. Despite the importance of large-scale search engines on the web, very little academic research has been done on them. Furthermore, due to rapid advance in technology and web proliferation, creating a web search engine today is very different from three years ago. This paper provides an in-depth description of our large-scale web search engine -- the first such detailed public description we know of to date. Apart from the problems of scaling traditional search techniques to data of this magnitude, there are new technical challenges involved with using the additional information present in hypertext to produce better search results. This paper addresses this question of how to build a practical large-scale system which can exploit the additional information present in hypertext. Also we look at the problem of how to effectively deal with uncontrolled hypertext collections where anyone can publish anything they want
Söhler, M.: "Dumm wie Google" war gestern : semantische Suche im Netz (2011) 0.02
```
0.019310515 = product of:
  0.115863085 = sum of:
    0.02825637 = weight(_text_:web in 4440) [ClassicSimilarity], result of:
      0.02825637 = score(doc=4440,freq=8.0), product of:
        0.111951075 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03430388 = queryNorm
        0.25239927 = fieldWeight in 4440, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.02734375 = fieldNorm(doc=4440)
    0.08760671 = weight(_text_:suche in 4440) [ClassicSimilarity], result of:
      0.08760671 = score(doc=4440,freq=14.0), product of:
        0.17138755 = queryWeight, product of:
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.03430388 = queryNorm
        0.51116145 = fieldWeight in 4440, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.02734375 = fieldNorm(doc=4440)
  0.16666667 = coord(2/12)
```
Abstract

"Casablanca" bringt bei der Google-Suche Millionen Ergebnisse. Ist die Stadt gemeint oder der Film? Suchmaschinen sind dumm und schnell. Schema.org will das ändern.

Content

"6.500 Einzelsprachen so zu verstehen, dass noch die dümmsten Maschinen sie in all ihren Sätzen, Wörtern, Bedeutungen nicht nur erfassen, sondern auch verarbeiten können - das ist ein komplexer Vorgang, an dem große Teile des Internets inklusive fast aller Suchmaschinen bisher gescheitert sind. Wem schon der gerade gelesene Satz zu komplex erscheint, dem sei es einfacher ausgedrückt: Erstmal geht es um "Teekesselchen". Wörter haben oft mehrere Bedeutungen. Einige kennen den "Kanal" als künstliche Wasserstraße, andere kennen ihn vom Zappen am Fernsehgerät. Die Waage kann zum Erfassen des Gewichts nützlich sein oder zur Orientierung auf der Horoskopseite einer Zeitung. Casablanca ist eine Stadt und ein Film zugleich. Wo Menschen mit der Zeit zu unterscheiden lernen, lernen dies Suchmaschinen von selbst nicht. Nach einer entsprechenden Eingabe listen sie dumpf hintereinander weg alles auf, was sie zum Thema finden können. "Dumm wie Google", könnte man sagen, "doof wie Yahoo" oder "blöd wie Bing". Damit das nicht so bleibt, haben sich nun Google, Yahoo und die zu Microsoft gehörende Suchmaschine Bing zusammengetan, um der Suche im Netz mehr Verständnis zu verpassen. Man spricht dabei auch von einer "semantischen Suche". Das Ergebnis heißt Schema.org. Wer die Webseite einmal besucht, sich ein wenig in die Unterstrukturen hereinklickt und weder Vorkenntnisse im Programmieren noch im Bereich des semantischen Webs hat, wird sich überfordert und gelangweilt wieder abwenden.
- Neue Standards Doch was hier entstehen könnte, hat das Zeug dazu, Teile des Netzes und speziell die Funktionen von Suchmaschinen mittel- oder langfristig zu verändern. "Große Player sind dabei, sich auf Standards zu einigen", sagt Daniel Bahls, Spezialist für Semantische Technologien beim ZBW Leibniz-Informationszentrum Wirtschaft in Hamburg. "Die semantischen Technologien stehen schon seit Jahren im Raum und wurden bisher nur im kleineren Kontext verwendet." Denn Schema.org lädt Entwickler, Forscher, die Semantic-Web-Community und am Ende auch alle Betreiber von Websites dazu ein, an der Umgestaltung der Suche im Netz mitzuwirken. "Damit wollen Google, Bing und Yahoo! dem Info-Chaos im WWW den Garaus machen", schreibt André Vatter im Blog ZBW Mediatalk. Inhalte von Websites sollen mit einem speziellen, aber einheitlichen Vokabular für die Crawler der Suchmaschinen gekennzeichnet und aufbereitet werden. Indem Schlagworte, so genannte Tags, in den Code von Websites eingebettet werden, sind Suchmachinen nicht mehr so sehr auf die Analyse der natürlichen Sprache angewiesen, um Texte inhaltlich zu erfassen. Im Blog wird dies als "Semantic Web light" bezeichnet - ein semantisches Web auf niedrigster Ebene. Aber selbst das werde "schon viel bewirken", meint Bahls. "Das semantische Web wird sich über die nächsten Jahrzehnte evolutionär weiterentwickeln." Einen "Abschluss" werde es nie geben, "da eine einheitliche Formalisierung von Begrifflichkeiten auf feiner Stufe kaum möglich ist."
- "Gemeinsames Format für strukturierte Daten" Aber warum sollten Google, Yahoo und Bing plötzlich zusammenarbeiten, wo doch bisher die Konkurrenz das Verhältnis prägte? Stefan Keuchel, Pressesprecher von Google Deutschland, betont, alle beteiligten Unternehmen wollten "ein deutliches Zeichen setzen, um die Qualität der Suche zu verbessern". Man entwickele "ein gemeinsames Format für strukturierte Daten, mit dem Dinge ermöglicht werden, die heute noch nicht möglich sind - Stichwort: semantische Suche". Die Ergebnisse aus Schema.org würden "zeitnah" in die Suchmaschine integriert, "denn einen Zeitplan" gebe es nicht. "Erst mit der Einigung auf eine gemeinsame Sprache können Suchmaschinen einen Mehrwert durch semantische Technologien generieren", antwortet Daniel Bahls auf die Frage nach Gemeinsamkeit und Konkurrenz der Suchmaschinen. Er weist außerdem darauf hin, dass es bereits die semantische Suchmaschine Sig.ma gibt. Geschwindigkeit und Menge der Ergebnisse nach einer Suchanfrage spielen hier keine Rolle. Sig.ma sammelt seine Informationen allein im Bereich des semantischen Webs und listet nach einer Anfrage alles Bekannte strukturiert auf."
Talbot, D.: Durchblick im Infodschungel (2009) 0.02
```
0.0178528 = product of:
  0.0714112 = sum of:
    0.0270785 = weight(_text_:web in 2865) [ClassicSimilarity], result of:
      0.0270785 = score(doc=2865,freq=10.0), product of:
        0.111951075 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03430388 = queryNorm
        0.24187797 = fieldWeight in 2865, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.0234375 = fieldNorm(doc=2865)
    0.028381906 = weight(_text_:suche in 2865) [ClassicSimilarity], result of:
      0.028381906 = score(doc=2865,freq=2.0), product of:
        0.17138755 = queryWeight, product of:
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.03430388 = queryNorm
        0.16560075 = fieldWeight in 2865, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.0234375 = fieldNorm(doc=2865)
    0.015950793 = weight(_text_:system in 2865) [ClassicSimilarity], result of:
      0.015950793 = score(doc=2865,freq=4.0), product of:
        0.10804188 = queryWeight, product of:
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.03430388 = queryNorm
        0.14763528 = fieldWeight in 2865, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.0234375 = fieldNorm(doc=2865)
  0.25 = coord(3/12)
```
Content

"Wissenschaftler an der University of Washington haben eine neue Suchmaschinen-Engine geschrieben, die Zusammenhänge und Fakten aus mehr als 500 Millionen einzelner Web-Seiten zusammentragen kann. Das Werkzeug extrahiert dabei Informationen aus Milliarden von Textzeilen, indem die grundlegenden sprachlichen Beziehungen zwischen Wörtern analysiert werden. Experten glauben, dass solche Systeme zur automatischen Informationsgewinnung eines Tages die Grundlage deutlich smarterer Suchmaschinen bilden werden, als sie heute verfügbar sind. Dazu werden die wichtigsten Datenhappen zunächst von einem Algorithmus intern begutachtet und dann intelligent kombiniert. Das Projekt US-Forscher stellt eine deutliche Ausweitung einer zuvor an der gleichen Hochschule entwickelten Technik namens TextRunner dar. Sowohl die Anzahl analysierbarer Seiten als auch die Themengebiete wurden dabei stark erweitert. "TextRunner ist deshalb so bedeutsam, weil es skaliert, ohne dass dabei ein Mensch eingreifen müsste", sagt Peter Norvig, Forschungsdirektor bei Google. Der Internet-Konzern spendete dem Projekt die riesige Datenbank aus einzelnen Web-Seiten, die TextRunner analysiert. "Das System kann Millionen von Beziehungen erkennen und erlernen - und zwar nicht nur jede einzeln. Einen Betreuer braucht die Software nicht, die Informationen werden selbständig ermittelt." Damit unterscheidet sich der Ansatz von anderen semantischen Systemen, die die Hilfe ihrer Programmierer benötigen. Um beispielsweise aus Millionen von Dokumenten die Namen von Personen zu ermitteln, die als Geschäftsführer arbeiten, müsste eine solche Suchmaschine erst trainiert werden - etwa, in der man ihr beibringt, dass Steve Jobs der CEO von Apple, Steve Ballmer der von Microsoft ist. Bei TextRunner sei das nun nicht mehr nötig. (Google arbeitet an ähnlichen Ideen und setzt die Technik bereits im kleineren Maßstab ein.) TextRunners Algorithmen sorgen dafür, dass nicht mehr manuell eingegriffen werden muss. Ein Nutzer kann beispielsweise "tötet Bakterien" eingeben und die Suchmaschine spuckt Seiten aus, die Fakten nennen wie "Chlor tötet Bakterien", "ultraviolettes Licht tötet Bakterien" oder "Hitze tötet Bakterien". Diese von den Forschern als Dreiergruppen bezeichneten Ergebnisse lassen sich dann in einer Vorschau begutachten, bevor man die eigentliche Website betritt.
Der Prototyp von TextRunner bietet noch eine eher karge Benutzerschnittstelle - er ist auch weniger für die Öffentlichkeit als Suchhilfe gedacht denn als Demonstrator, wie es gelingen kann, Informationen aus 500 Millionen Web-Seiten automatisch zu extrahieren. Oren Etzioni, Computerwissenschaftler und Leiter des Projekts, ist stolz auf das Ergebnis: "Was wir hier zeigen, ist die Fähigkeit einer Software, ein rudimentäres Textverständnis zu erzielen - und zwar in einem Maßstab und einer Ausdehnung, die es bislang noch nie gab." Die Fähigkeit, Inhalte und Bedeutungen schnell zu erkennen, entstammt einem Grundmodell von Wortbeziehungen in der englischen Sprache, das Etzioni und sein Team entwickelt haben. Es funktioniert bei nahezu jedem Thema. "Beispielsweise deckt das einfache Muster "Einheit 1, Verb, Einheit 2" den Satz "Edison erfand die Glühbirne" genauso ab wie "Microsoft kaufte Farecast" - und viele andere Satzmodelle auch." TextRunner nutze nun dieses Schablone, um automatisch aus Texten zu lernen, Sätze zu analysieren und solche Dreiergruppen mit hoher Genauigkeit zu erkennen. Die Software besitzt auch Elemente, um aus Anfragen in natürlicher Sprache einen Sinnzusammenhang abzuleiten. Daran arbeiten Etzioni und sein Team gerade. Findet das System dann beispielsweise eine Seite, auf der steht, dass Säugetiere Warmblüter sind und eine andere, auf der zu lesen ist, dass Hunde Säugetiere sind, kann es daraus schließen, dass Hunde vermutlich als Warmblüter herumlaufen. Der Ansatz ähnelt der Technik hinter dem semantischen Suchspezialisten Powerset, den Microsoft im vergangenen Jahr erworben hat. Kurz vor dem Aufkauf legte die Firma ein Werkzeug vor, das solche Fakten aus immerhin rund zwei Millionen Wikipedia-Seiten extrahieren konnte. TextRunner kann nun aber mit Wikipedia genauso umgehen wie mit jedem anderen Angebot, seien es nun Blog-Einträge, Produktkataloge oder Zeitungsartikel. Jon Kleinberg, IT-Forscher der Cornell University, der die University of Washington-Studie kennt, findet, dass das TextRunner-Projekt besonders bei der Skalierung einen großen Fortschritt bedeute. "Die Arbeit steht für einen wachsenden Trend hin zur Schaffung von Suchwerkzeugen, die Teilinformationen, die sie im Web finden, aktiv in einen größeren Zusammenhang bringen.""

Footnote

Vgl. auch: http://www.heise.de/newsticker/Semantische-Suche-ueber-500-Millionen-Web-Dokumente--/meldung/140630.

Matrix of WWW indices : a comparison of Internet indexing tools (1995) 0.02

0.017714376 = product of:
  0.10628625 = sum of:
    0.011679897 = weight(_text_:information in 3165) [ClassicSimilarity], result of:
      0.011679897 = score(doc=3165,freq=2.0), product of:
        0.060219705 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.03430388 = queryNorm
        0.19395474 = fieldWeight in 3165, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.078125 = fieldNorm(doc=3165)
    0.094606355 = weight(_text_:suche in 3165) [ClassicSimilarity], result of:
      0.094606355 = score(doc=3165,freq=2.0), product of:
        0.17138755 = queryWeight, product of:
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.03430388 = queryNorm
        0.5520025 = fieldWeight in 3165, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.078125 = fieldNorm(doc=3165)
  0.16666667 = coord(2/12)

Abstract: Vergleich der Hilfsmittel zur inhaltlichen Suche von Angeboten im Internet
Imprint: Ann Arbor : University of Michigan School of Information and Library Studies

Söhler, M.: Schluss mit Schema F (2011) 0.02
```
0.016941646 = product of:
  0.10164987 = sum of:
    0.036104664 = weight(_text_:web in 4439) [ClassicSimilarity], result of:
      0.036104664 = score(doc=4439,freq=10.0), product of:
        0.111951075 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03430388 = queryNorm
        0.32250395 = fieldWeight in 4439, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03125 = fieldNorm(doc=4439)
    0.06554521 = weight(_text_:suche in 4439) [ClassicSimilarity], result of:
      0.06554521 = score(doc=4439,freq=6.0), product of:
        0.17138755 = queryWeight, product of:
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.03430388 = queryNorm
        0.38243857 = fieldWeight in 4439, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.03125 = fieldNorm(doc=4439)
  0.16666667 = coord(2/12)
```
Abstract

Mit Schema.org und dem semantischen Web sollen Suchmaschinen verstehen lernen

Content

"Wörter haben oft mehrere Bedeutungen. Einige kennen den "Kanal" als künstliche Wasserstraße, andere vom Fernsehen. Die Waage kann zum Erfassen des Gewichts nützlich sein oder zur Orientierung auf der Horoskopseite. Casablanca ist eine Stadt und ein Film zugleich. Wo Menschen mit der Zeit Bedeutungen unterscheiden und verarbeiten lernen, können dies Suchmaschinen von selbst nicht. Stets listen sie dumpf hintereinander weg alles auf, was sie zu einem Thema finden. Damit das nicht so bleibt, haben sich nun Google, Yahoo und die zu Microsoft gehörende Suchmaschine Bing zusammengetan, um der Suche im Netz mehr Verständnis zu verpassen. Man spricht dabei auch von einer "semantischen Suche". Das Ergebnis heißt Schema.org. Wer die Webseite einmal besucht, sich ein wenig in die Unterstrukturen hereinklickt und weder Vorkenntnisse im Programmieren noch im Bereich des semantischen Webs hat, wird sich überfordert und gelangweilt wieder abwenden. Doch was hier entstehen könnte, hat das Zeug dazu, Teile des Netzes und speziell die Funktionen von Suchmaschinen mittel- oder langfristig zu verändern. "Große Player sind dabei, sich auf Standards zu einigen", sagt Daniel Bahls, Spezialist für Semantische Technologien beim ZBW Leibniz-Informationszentrum Wirtschaft in Hamburg. "Die semantischen Technologien stehen schon seit Jahren im Raum und wurden bisher nur im kleineren Kontext verwendet." Denn Schema.org lädt Entwickler, Forscher, die Semantic-Web-Community und am Ende auch alle Betreiber von Websites dazu ein, an der Umgestaltung der Suche im Netz mitzuwirken. Inhalte von Websites sollen mit einem speziellen, aber einheitlichen Vokabular für die Crawler - die Analyseprogramme der Suchmaschinen - gekennzeichnet und aufbereitet werden.
Indem Schlagworte, sogenannte Tags, in den für Normal-User nicht sichtbaren Teil des Codes von Websites eingebettet werden, sind Suchmachinen nicht mehr so sehr auf die Analyse der natürlichen Sprache angewiesen, um Texte inhaltlich zu erfassen. Im Blog ZBW Mediatalk wird dies als "Semantic Web light" bezeichnet - ein semantisches Web auf niedrigster Ebene. Aber selbst das werde "schon viel bewirken", meint Bahls. "Das semantische Web wird sich über die nächsten Jahrzehnte evolutionär weiterentwickeln." Einen "Abschluss" werde es nie geben, "da eine einheitliche Formalisierung von Begrifflichkeiten auf feiner Stufe kaum möglich ist". Die Ergebnisse aus Schema.org würden "zeitnah" in die Suchmaschine integriert, "denn einen Zeitplan" gebe es nicht, so Stefan Keuchel, Pressesprecher von Google Deutschland. Bis das so weit ist, hilft der Verweis von Daniel Bahns auf die bereits existierende semantische Suchmaschine Sig.ma. Geschwindigkeit und Menge der Ergebnisse nach einer Suchanfrage spielen hier keine Rolle. Sig.ma sammelt seine Informationen allein im Bereich des semantischen Webs und listet nach einer Anfrage alles Bekannte strukturiert auf.

Dambeck, H.: Wie Google mit Milliarden Unbekannten rechnet : Teil 2: Ausgerechnet: Der Page Rank für ein Mini-Web aus drei Seiten (2009) 0.02

0.015780479 = product of:
  0.09468287 = sum of:
    0.057086486 = weight(_text_:web in 3080) [ClassicSimilarity], result of:
      0.057086486 = score(doc=3080,freq=4.0), product of:
        0.111951075 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03430388 = queryNorm
        0.5099235 = fieldWeight in 3080, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.078125 = fieldNorm(doc=3080)
    0.037596382 = weight(_text_:system in 3080) [ClassicSimilarity], result of:
      0.037596382 = score(doc=3080,freq=2.0), product of:
        0.10804188 = queryWeight, product of:
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.03430388 = queryNorm
        0.3479797 = fieldWeight in 3080, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.078125 = fieldNorm(doc=3080)
  0.16666667 = coord(2/12)

Abstract: Ein simples Beispiel eines Mini-Internets aus drei Web-Seiten verdeutlicht, wie dieses Ranking-System in der Praxis funktioniert.

Mandalka, M.: Open semantic search zum unabhängigen und datenschutzfreundlichen Erschliessen von Dokumenten (2015) 0.02
```
0.01517371 = product of:
  0.09104226 = sum of:
    0.07509147 = weight(_text_:suche in 2133) [ClassicSimilarity], result of:
      0.07509147 = score(doc=2133,freq=14.0), product of:
        0.17138755 = queryWeight, product of:
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.03430388 = queryNorm
        0.4381384 = fieldWeight in 2133, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.0234375 = fieldNorm(doc=2133)
    0.015950793 = weight(_text_:system in 2133) [ClassicSimilarity], result of:
      0.015950793 = score(doc=2133,freq=4.0), product of:
        0.10804188 = queryWeight, product of:
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.03430388 = queryNorm
        0.14763528 = fieldWeight in 2133, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.0234375 = fieldNorm(doc=2133)
  0.16666667 = coord(2/12)
```
Content

Automatische Texterkennung (OCR) Dokumente, die nicht im Textformat, sondern als Grafiken vorliegen, wie z.B. Scans werden automatisch durch automatische Texterkennung (OCR) angereichert und damit auch der extrahierte Text durchsuchbar. Auch für eingebettete Bilddateien bzw. Scans innerhalb von PDF-Dateien. Unscharfe Suche mit Listen Ansonsten ist auch das Recherche-Tool bzw. die Such-Applikation "Suche mit Listen" integriert, mit denen sich schnell und komfortabel abgleichen lässt, ob es zu den einzelnen Einträgen in Listen jeweils Treffer in der durchsuchbaren Dokumentensammlung gibt. Mittels unscharfer Suche findet das Tool auch Ergebnisse, die in fehlerhaften oder unterschiedlichen Schreibweisen vorliegen. Semantische Suche und Textmining Im Recherche, Textanalyse und Document Mining Tutorial zu den enthaltenen Recherche-Tools und verschiedenen kombinierten Methoden zur Datenanalyse, Anreicherung und Suche wird ausführlicher beschrieben, wie auch eine große heterogene und unstrukturierte Dokumentensammlung bzw. eine grosse Anzahl von Dokumenten in verschiedenen Formaten leicht durchsucht und analysiert werden kann.
Virtuelle Maschine für mehr Plattformunabhängigkeit Die nun auch deutschsprachig verfügbare und mit deutschen Daten wie Ortsnamen oder Bundestagsabgeordneten vorkonfigurierte virtuelle Maschine Open Semantic Desktop Search ermöglicht nun auch auf einzelnen Desktop Computern oder Notebooks mit Windows oder iOS (Mac) die Suche und Analyse von Dokumenten mit der Suchmaschine Open Semantic Search. Als virtuelle Maschine (VM) lässt sich die Suchmaschine Open Semantic Search nicht nur für besonders sensible Dokumente mit dem verschlüsselten Live-System InvestigateIX als abgeschottetes System auf verschlüsselten externen Datenträgern installieren, sondern als virtuelle Maschine für den Desktop auch einfach unter Windows oder auf einem Mac in eine bzgl. weiterer Software und Daten bereits existierende Systemumgebung integrieren, ohne hierzu auf einen (für gemeinsame Recherchen im Team oder für die Redaktion auch möglichen) Suchmaschinen Server angewiesen zu sein. Datenschutz & Unabhängigkeit: Grössere Unabhängigkeit von zentralen IT-Infrastrukturen für unabhängigen investigativen Datenjournalismus Damit ist investigative Recherche weitmöglichst unabhängig möglich: ohne teure, zentrale und von Administratoren abhängige Server, ohne von der Dokumentenanzahl abhängige teure Software-Lizenzen, ohne Internet und ohne spionierende Cloud-Dienste. Datenanalyse und Suche finden auf dem eigenen Computer statt, nicht wie bei vielen anderen Lösungen in der sogenannten Cloud."
Summann, F.; Lossau, N.: Search engine technology and digital libraries : moving from theory to practice (2004) 0.01
```
0.013207687 = product of:
  0.05283075 = sum of:
    0.016146496 = weight(_text_:web in 1196) [ClassicSimilarity], result of:
      0.016146496 = score(doc=1196,freq=2.0), product of:
        0.111951075 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03430388 = queryNorm
        0.14422815 = fieldWeight in 1196, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03125 = fieldNorm(doc=1196)
    0.0066071474 = weight(_text_:information in 1196) [ClassicSimilarity], result of:
      0.0066071474 = score(doc=1196,freq=4.0), product of:
        0.060219705 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.03430388 = queryNorm
        0.10971737 = fieldWeight in 1196, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.03125 = fieldNorm(doc=1196)
    0.030077105 = weight(_text_:system in 1196) [ClassicSimilarity], result of:
      0.030077105 = score(doc=1196,freq=8.0), product of:
        0.10804188 = queryWeight, product of:
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.03430388 = queryNorm
        0.27838376 = fieldWeight in 1196, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.03125 = fieldNorm(doc=1196)
  0.25 = coord(3/12)
```
Abstract

This article describes the journey from the conception of and vision for a modern search-engine-based search environment to its technological realisation. In doing so, it takes up the thread of an earlier article on this subject, this time from a technical viewpoint. As well as presenting the conceptual considerations of the initial stages, this article will principally elucidate the technological aspects of this journey. The starting point for the deliberations about development of an academic search engine was the experience we gained through the generally successful project "Digital Library NRW", in which from 1998 to 2000-with Bielefeld University Library in overall charge-we designed a system model for an Internet-based library portal with an improved academic search environment at its core. At the heart of this system was a metasearch with an availability function, to which we added a user interface integrating all relevant source material for study and research. The deficiencies of this approach were felt soon after the system was launched in June 2001. There were problems with the stability and performance of the database retrieval system, with the integration of full-text documents and Internet pages, and with acceptance by users, because users are increasingly performing the searches themselves using search engines rather than going to the library for help in doing searches. Since a long list of problems are also encountered using commercial search engines for academic use (in particular the retrieval of academic information and long-term availability), the idea was born for a search engine configured specifically for academic use. We also hoped that with one single access point founded on improved search engine technology, we could access the heterogeneous academic resources of subject-based bibliographic databases, catalogues, electronic newspapers, document servers and academic web pages.

Theme

Information Gateway
bbu/c't: Ask Jeeves mit verbesserten Suchfunktionen (2005) 0.01
```
0.012725338 = product of:
  0.07635203 = sum of:
    0.022834593 = weight(_text_:web in 3453) [ClassicSimilarity], result of:
      0.022834593 = score(doc=3453,freq=4.0), product of:
        0.111951075 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03430388 = queryNorm
        0.2039694 = fieldWeight in 3453, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03125 = fieldNorm(doc=3453)
    0.05351744 = weight(_text_:suche in 3453) [ClassicSimilarity], result of:
      0.05351744 = score(doc=3453,freq=4.0), product of:
        0.17138755 = queryWeight, product of:
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.03430388 = queryNorm
        0.31225976 = fieldWeight in 3453, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.03125 = fieldNorm(doc=3453)
  0.16666667 = coord(2/12)
```
Abstract

Mit nicht völlig neuen, aber überarbeiteten Suchfunktionen erweitert das zum Firmenimperium des US-Medienzaren Barry Diller gehörende Unternehmen Ask Jeeves das Leistungsspektrum seiner Suchmaschine. Mit der Ergebnisverfeinerungsfunktion Focus erhält der Suchende auf der rechten oberen Bildschirmseite eine Liste, die das Thema seiner Suche thematisch aufgliedern soll. Eine zweite Neuerung verspricht präzise Antworten auf als Fragen formulierte Sucheinträge. So ergibt der Eintrag "Lady Diana" zum Beispiel eine Liste mit den Items Princess Di, Princess Dianas Life, Princess Diana's Wedding. Interessant dabei ist, dass diese Liste nicht einfach aus einem monolithischen Block von Schlüsselwörtern besteht, sondern in drei Kategorien aufgeteilt ist: "Narrow Your Search", "Expand Your Search" und "Related Names". Waren die eben genannten Beispiele aus der ersten Kategorie, finden sich unter Expand Your Search Einträge wie Royal Family, Princess Di Ring, Princess Di Prince Charles History oder Prince William Harry, allerdings auch Who Is Louis De Funes? "Related Names" verweist auf Einträge wie Diana Spencer, Prince Harry oder Imran Khan. Die Suchfunktion soll also die thematische Verfeinerung oder Ausweitung gleichermaßen wie die Fortsetzung der Suche mit einem verwandten Thema ermöglichen. Auf die Frage "who invented the telephone" erhält der Suchende als ersten Eintrag die Antwort "The telephone was invented by Alexander Graham Bell" mit dem roten Vermerk "Web Answer'. Bemerkenswert ist hier, dass auf eine Frage nicht nur eine passende Webseite mit der Antwort angezeigt wird, sondern die ausformulierte Antwort direkt aus der vorgeschlagenen Webseite zitiert wird. Die Frage "who is the mother of Albert Einstein" gibt immerhin einen Eintrag unter "Narrow Your Search" mit "Albert Einstein Family tree". Ask Jeeves wird wohl noch eine weitere Neuerung bevorstehen: Auf einer Pressekonferenz in San Francisco bemerkte Chief Executive Barry Diller, dass das Unternehmen über eine Namensänderung von Ask Jeeves nachdenke. Wahrscheinlich werde auf eines der beiden Worte verzichtet werden. Mit dem Sucheintrag "How will Ask Jeeves be called in the future" erhält man bislang jedoch noch keine "Web Answer". (26.05.2005 15:30)

Weiß, E.-M.: ChatGPT soll es richten : Microsoft baut KI in Suchmaschine Bing ein (2023) 0.01

0.012400064 = product of:
  0.07440038 = sum of:
    0.008175928 = weight(_text_:information in 866) [ClassicSimilarity], result of:
      0.008175928 = score(doc=866,freq=2.0), product of:
        0.060219705 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.03430388 = queryNorm
        0.13576832 = fieldWeight in 866, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.0546875 = fieldNorm(doc=866)
    0.06622445 = weight(_text_:suche in 866) [ClassicSimilarity], result of:
      0.06622445 = score(doc=866,freq=2.0), product of:
        0.17138755 = queryWeight, product of:
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.03430388 = queryNorm
        0.38640174 = fieldWeight in 866, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.0546875 = fieldNorm(doc=866)
  0.16666667 = coord(2/12)

Abstract: ChatGPT, die künstliche Intelligenz der Stunde, ist von OpenAI entwickelt worden. Und OpenAI ist in der Vergangenheit nicht unerheblich von Microsoft unterstützt worden. Nun geht es ums Profitieren: Die KI soll in die Suchmaschine Bing eingebaut werden, was eine direkte Konkurrenz zu Googles Suchalgorithmen und Intelligenzen bedeutet. Bing war da bislang nicht sonderlich erfolgreich. Wie "The Information" mit Verweis auf zwei Insider berichtet, plant Microsoft, ChatGPT in seine Suchmaschine Bing einzubauen. Bereits im März könnte die neue, intelligente Suche verfügbar sein. Microsoft hatte zuvor auf der hauseigenen Messe Ignite zunächst die Integration des Bildgenerators DALL·E 2 in seine Suchmaschine angekündigt - ohne konkretes Startdatum jedoch. Fragt man ChatGPT selbst, bestätigt der Chatbot seine künftige Aufgabe noch nicht. Weiß aber um potentielle Vorteile.

Weigert, M.: Horizobu: Webrecherche statt Websuche (2011) 0.01
```
0.01231496 = product of:
  0.07388976 = sum of:
    0.017125946 = weight(_text_:web in 4443) [ClassicSimilarity], result of:
      0.017125946 = score(doc=4443,freq=4.0), product of:
        0.111951075 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03430388 = queryNorm
        0.15297705 = fieldWeight in 4443, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.0234375 = fieldNorm(doc=4443)
    0.056763813 = weight(_text_:suche in 4443) [ClassicSimilarity], result of:
      0.056763813 = score(doc=4443,freq=8.0), product of:
        0.17138755 = queryWeight, product of:
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.03430388 = queryNorm
        0.3312015 = fieldWeight in 4443, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          4.996156 = idf(docFreq=812, maxDocs=44218)
          0.0234375 = fieldNorm(doc=4443)
  0.16666667 = coord(2/12)
```
Content

"Das Problem mit der Suchmaschinen-Optimierung Suchmaschinen sind unser Instrument, um mit der Informationsflut im Internet klar zu kommen. Wie ich in meinem Artikel Die kürzeste Anleitung zur Suchmaschinenoptimierung aller Zeiten ausgeführt habe, gibt es dabei leider das Problem, dass der Platzhirsch Google nicht wirklich die besten Suchresultate liefert: Habt ihr schon mal nach einem Hotel, einem Restaurant oder einer anderen Location gesucht - und die ersten vier Ergebnis-Seiten sind voller Location-Aggregatoren? Wenn ich ganz spezifisch nach einem Hotel soundso in der Soundso-Strasse suche, dann finde ich, das relevanteste Ergebnis ist die Webseite dieses Hotels. Das gehört auf Seite 1 an Platz 1. Dort aber finden sich nur die Webseiten, die ganz besonders dolle suchmaschinenoptimiert sind. Wobei Google Webseiten als am suchmaschinenoptimiertesten einstuft, wenn möglichst viele Links darauf zeigen und der Inhalt relevant sein soll. Die Industrie der Suchmaschinen-Optimierer erreicht dies dadurch, dass sie folgende Dinge machen: - sie lassen Programme und Praktikanten im Web rumschwirren, die sich überall mit hirnlosen Kommentaren verewigen (Hauptsache, die sind verlinkt und zeigen auf ihre zu pushende Webseite) - sie erschaffen geistlose Blogs, in denen hirnlose Texte stehen (Hauptsache, die Keyword-Dichte stimmt) - diese Texte lassen sie durch Schüler und Praktikanten oder gleich durch Software schreiben - Dann kommt es anscheinend noch auf Keywords im Titel, in der URL etc. an.
All das führt zu folgenden negativen Begleiterscheinungen: - die meisten Kommentare heutzutage kriegt man nur noch des Links wegen: der eigentliche Sinn ist gleich Null - es gibt mittlerweile haufenweise Inhalte und ganze Blogs im Web, deren Ziel nur ist, von Google-Bots auf ihre Keyword-Dichte geprüft zu werden - aus meiner Sicht funktionieren SEO-Optimierungs-Unternehmen wie Schneeballsysteme: oben wird durch die Geschäftsführer Kohle gescheffelt, unten wird von den Praktikanten für wenig Geld sinnlos geschuftet. Aus meiner Sicht trägt Google zu diesen negativen Folgen sehr viel bei. Google legt nicht offen, sie sein Suchalgorithmus funktioniert - und es fördert damit diese Überflutung des Webs mit sinnlosen Kommentaren und Inhalten. Wie Du langsam aber sicher merkst, bin ich nicht der allergrößte Fan von Google (ich hoffe, die lesen das nicht - in Deutschland erfolgen mehr als 95% aller Suchen mit Google und ich will ja, dass der Denkpass weiterhin gut und leicht gefunden wird). horizobu - Nicht suchen, sondern recherchieren Nun ist horizobu nicht wirklich anders, zumindest in dieser Hinsicht. Aber es ist anders darin, wie es mit Suchergebnissen umgeht. Wenn Du etwas suchst, erscheinen sechs möglichst relevante Ergebnisse in einem großen Rahmen. Falls Dir diese Ergebnisse nicht zusagen, kannst Du sie einzeln (durch Klick auf das Kreuz an jedem Ergebnis) oder mehrere oder alle (durch Klick auf More) austauschen und durch die nächsten Ergebnisse ersetzen lassen. An jedem der sechs Ergebnisse gibt es auch eine Nadel zum Fixieren - dann kannst Du die anderen austauschen und dieses Ergebnis bleibt.
Auch mit der Maus kannst Du die Ergebnisse bearbeiten - nach links geschoben, verschwinden sie. Nach rechts geschoben, landen sie in einem Container, der die von Dir ausgesuchten, wichtigsten Links sammelt. Diese Sammlung kannst Du anschliessend mit einem Klick per Facebook oder Twitter teilen, als Link zur Verfügung stellen (hier z.B. mein Link für eine kurze Recherche über Schlafen im Büro) oder alle dort gesammelten Links in neuen Browser-Tabs öffnen. Die Links bleiben übrigens erhalten, selbst wenn Du eine neue Suche beginnst. Oben, über den Ergebnissen, wartet horizobu mit zehn aus seiner Sicht relevanten Suchbegriffen auf, die Deiner Suche entsprechen. Nicht alle sind angeklickt - schaltest Du weitere an oder aus, verändern sich sofort Deine Ergebnisse. Du kannst auch weitere Schlagwörter eingeben, um Deiner Recherche eine neue Richtung zu geben. Ich bin beeindruckt, weil horizobu recherchieren ermöglicht, wo Google nur suchen erlaubt. Dazu kommt, dass horizobu bislang werbefrei ist, was ich auch nicht schlecht finde (obwohl ich, unter uns gesagt, noch nie bewusst auf eine Werbung geklickt habe). Es macht Spaß - ich suche ab jetzt mit horizobu."
Radhakrishnan, A.: Swoogle : an engine for the Semantic Web (2007) 0.01
```
0.011874279 = product of:
  0.07124567 = sum of:
    0.06657371 = weight(_text_:web in 4709) [ClassicSimilarity], result of:
      0.06657371 = score(doc=4709,freq=34.0), product of:
        0.111951075 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03430388 = queryNorm
        0.59466785 = fieldWeight in 4709, product of:
          5.8309517 = tf(freq=34.0), with freq of:
            34.0 = termFreq=34.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03125 = fieldNorm(doc=4709)
    0.004671959 = weight(_text_:information in 4709) [ClassicSimilarity], result of:
      0.004671959 = score(doc=4709,freq=2.0), product of:
        0.060219705 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.03430388 = queryNorm
        0.0775819 = fieldWeight in 4709, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.03125 = fieldNorm(doc=4709)
  0.16666667 = coord(2/12)
```
Content

"Swoogle, the Semantic web search engine, is a research project carried out by the ebiquity research group in the Computer Science and Electrical Engineering Department at the University of Maryland. It's an engine tailored towards finding documents on the semantic web. The whole research paper is available here. Semantic web is touted as the next generation of online content representation where the web documents are represented in a language that is not only easy for humans but is machine readable (easing the integration of data as never thought possible) as well. And the main elements of the semantic web include data model description formats such as Resource Description Framework (RDF), a variety of data interchange formats (e.g. RDF/XML, Turtle, N-Triples), and notations such as RDF Schema (RDFS), the Web Ontology Language (OWL), all of which are intended to provide a formal description of concepts, terms, and relationships within a given knowledge domain (Wikipedia). And Swoogle is an attempt to mine and index this new set of web documents. The engine performs crawling of semantic documents like most web search engines and the search is available as web service too. The engine is primarily written in Java with the PHP used for the front-end and MySQL for database. Swoogle is capable of searching over 10,000 ontologies and indexes more that 1.3 million web documents. It also computes the importance of a Semantic Web document. The techniques used for indexing are the more google-type page ranking and also mining the documents for inter-relationships that are the basis for the semantic web. For more information on how the RDF framework can be used to relate documents, read the link here. Being a research project, and with a non-commercial motive, there is not much hype around Swoogle. However, the approach to indexing of Semantic web documents is an approach that most engines will have to take at some point of time. When the Internet debuted, there were no specific engines available for indexing or searching. The Search domain only picked up as more and more content became available. One fundamental question that I've always wondered about it is - provided that the search engines return very relevant results for a query - how to ascertain that the documents are indeed the most relevant ones available. There is always an inherent delay in indexing of document. Its here that the new semantic documents search engines can close delay. Experimenting with the concept of Search in the semantic web can only bore well for the future of search technology."

Source

http://www.searchenginejournal.com/swoogle-an-engine-for-the-semantic-web/5469/

Theme

Semantic Web

Khare, R.; Cutting, D.; Sitaker, K.; Rifkin, A.: Nutch: a flexible and scalable open-source Web search engine (2004) 0.01

0.011832887 = product of:
  0.07099732 = sum of:
    0.048439488 = weight(_text_:web in 852) [ClassicSimilarity], result of:
      0.048439488 = score(doc=852,freq=8.0), product of:
        0.111951075 = queryWeight, product of:
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.03430388 = queryNorm
        0.43268442 = fieldWeight in 852, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          3.2635105 = idf(docFreq=4597, maxDocs=44218)
          0.046875 = fieldNorm(doc=852)
    0.02255783 = weight(_text_:system in 852) [ClassicSimilarity], result of:
      0.02255783 = score(doc=852,freq=2.0), product of:
        0.10804188 = queryWeight, product of:
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.03430388 = queryNorm
        0.20878783 = fieldWeight in 852, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.1495528 = idf(docFreq=5152, maxDocs=44218)
          0.046875 = fieldNorm(doc=852)
  0.16666667 = coord(2/12)

Abstract: Nutch is an open-source Web search engine that can be used at global, local, and even personal scale. Its initial design goal was to enable a transparent alternative for global Web search in the public interest - one of its signature features is the ability to "explain" its result rankings. Recent work has emphasized how it can also be used for intranets; by local communities with richer data models, such as the Creative Commons metadata-enabled search for licensed content; on a personal scale to index a user's files, email, and web-surfing history; and we also report on several other research projects built on Nutch. In this paper, we present how the architecture of the Nutch system enables it to be more flexible and scalable than other comparable systems today.

Search (83 results, page 1 of 5)

Authors

Years

Languages

Types

Themes