Search (401 results, page 1 of 21)

Berry, M.W.; Browne, M.: Understanding search engines : mathematical modeling and text retrieval (2005) 0.15
```
0.14867443 = product of:
  0.29734886 = sum of:
    0.012977208 = weight(_text_:information in 7) [ClassicSimilarity], result of:
      0.012977208 = score(doc=7,freq=14.0), product of:
        0.06322253 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.036014426 = queryNorm
        0.20526241 = fieldWeight in 7, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.03125 = fieldNorm(doc=7)
    0.041192 = weight(_text_:retrieval in 7) [ClassicSimilarity], result of:
      0.041192 = score(doc=7,freq=16.0), product of:
        0.10894058 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.036014426 = queryNorm
        0.37811437 = fieldWeight in 7, product of:
          4.0 = tf(freq=16.0), with freq of:
            16.0 = termFreq=16.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.03125 = fieldNorm(doc=7)
    0.16178733 = weight(_text_:mathematisches in 7) [ClassicSimilarity], result of:
      0.16178733 = score(doc=7,freq=4.0), product of:
        0.30533072 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.036014426 = queryNorm
        0.5298757 = fieldWeight in 7, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.03125 = fieldNorm(doc=7)
    0.0813923 = weight(_text_:modell in 7) [ClassicSimilarity], result of:
      0.0813923 = score(doc=7,freq=4.0), product of:
        0.21656582 = queryWeight, product of:
          6.0133076 = idf(docFreq=293, maxDocs=44218)
          0.036014426 = queryNorm
        0.37583172 = fieldWeight in 7, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          6.0133076 = idf(docFreq=293, maxDocs=44218)
          0.03125 = fieldNorm(doc=7)
  0.5 = coord(4/8)
```
Abstract

The second edition of Understanding Search Engines: Mathematical Modeling and Text Retrieval follows the basic premise of the first edition by discussing many of the key design issues for building search engines and emphasizing the important role that applied mathematics can play in improving information retrieval. The authors discuss important data structures, algorithms, and software as well as user-centered issues such as interfaces, manual indexing, and document preparation. Significant changes bring the text up to date on current information retrieval methods: for example the addition of a new chapter on link-structure algorithms used in search engines such as Google. The chapter on user interface has been rewritten to specifically focus on search engine usability. In addition the authors have added new recommendations for further reading and expanded the bibliography, and have updated and streamlined the index to make it more reader friendly.

Content

Inhalt: Introduction Document File Preparation - Manual Indexing - Information Extraction - Vector Space Modeling - Matrix Decompositions - Query Representations - Ranking and Relevance Feedback - Searching by Link Structure - User Interface - Book Format Document File Preparation Document Purification and Analysis - Text Formatting - Validation - Manual Indexing - Automatic Indexing - Item Normalization - Inverted File Structures - Document File - Dictionary List - Inversion List - Other File Structures Vector Space Models Construction - Term-by-Document Matrices - Simple Query Matching - Design Issues - Term Weighting - Sparse Matrix Storage - Low-Rank Approximations Matrix Decompositions QR Factorization - Singular Value Decomposition - Low-Rank Approximations - Query Matching - Software - Semidiscrete Decomposition - Updating Techniques Query Management Query Binding - Types of Queries - Boolean Queries - Natural Language Queries - Thesaurus Queries - Fuzzy Queries - Term Searches - Probabilistic Queries Ranking and Relevance Feedback Performance Evaluation - Precision - Recall - Average Precision - Genetic Algorithms - Relevance Feedback Searching by Link Structure HITS Method - HITS Implementation - HITS Summary - PageRank Method - PageRank Adjustments - PageRank Implementation - PageRank Summary User Interface Considerations General Guidelines - Search Engine Interfaces - Form Fill-in - Display Considerations - Progress Indication - No Penalties for Error - Results - Test and Retest - Final Considerations Further Reading

RSWK

Suchmaschine / Information Retrieval
Suchmaschine / Information Retrieval / Mathematisches Modell (HEBIS)

Subject

Suchmaschine / Information Retrieval
Suchmaschine / Information Retrieval / Mathematisches Modell (HEBIS)

Wild, F.: Visuelle Verfahren im Information Retrieval (2005) 0.07

0.07337885 = product of:
  0.1467577 = sum of:
    0.012743366 = weight(_text_:information in 3182) [ClassicSimilarity], result of:
      0.012743366 = score(doc=3182,freq=6.0), product of:
        0.06322253 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.036014426 = queryNorm
        0.20156369 = fieldWeight in 3182, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.046875 = fieldNorm(doc=3182)
    0.03783727 = weight(_text_:retrieval in 3182) [ClassicSimilarity], result of:
      0.03783727 = score(doc=3182,freq=6.0), product of:
        0.10894058 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.036014426 = queryNorm
        0.34732026 = fieldWeight in 3182, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.046875 = fieldNorm(doc=3182)
    0.08632957 = weight(_text_:modell in 3182) [ClassicSimilarity], result of:
      0.08632957 = score(doc=3182,freq=2.0), product of:
        0.21656582 = queryWeight, product of:
          6.0133076 = idf(docFreq=293, maxDocs=44218)
          0.036014426 = queryNorm
        0.39862972 = fieldWeight in 3182, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          6.0133076 = idf(docFreq=293, maxDocs=44218)
          0.046875 = fieldNorm(doc=3182)
    0.0098475 = product of:
      0.0295425 = sum of:
        0.0295425 = weight(_text_:29 in 3182) [ClassicSimilarity], result of:
          0.0295425 = score(doc=3182,freq=2.0), product of:
            0.1266875 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.036014426 = queryNorm
            0.23319192 = fieldWeight in 3182, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.046875 = fieldNorm(doc=3182)
      0.33333334 = coord(1/3)
  0.5 = coord(4/8)

Abstract: Bislang wird dem Studium bestehender Verfahren in der Visualisierung des Document Retrieval von Suchmaschinen zu wenig Aufmerksamkeit geschenkt. Der vorliegende Beitrag widmet sich dem Studium von acht Systemen und Prototypen, um die best-practice-Auslese und die Identifikation erfolgsrelevanter Features und Element zu erleichtern. Er legt dazu ein Modell für das visuelle Information Retrieval in Suchmaschinen vor, beschreibt und analysiert die ausgewählten Verfahren und deduziert Herausforderungen für künftige Forschungen. Die wichtigsten Erkenntnisse dabei sind, dass zwar zu wenig integrale Systeme existieren, die den gesamten Retrievalprozess integriert visuell unterstützen, die vorhandenen aber bereits (trotz ihrer Unvollständigkeit) einen Ausweg aus der linearen Krise der Ergebnispräsentation textbasierter Suchmaschinen aufzeigen. Wenngleich noch nicht alle Informationsbedürfnisse von den untersuchten Verfahren erfüllt werden, so zeichnet sich doch ab, dass insbesondere durch die Innovation von Interaktions- und Manipulationsformen neue Wege beschritten werden, die sich auf Effektivität und Effizienz derRetrievalverfahren auswirken.
Source: Information - Wissenschaft und Praxis. 56(2005) H.1, S.29-34

Park, E.-K.; Ra, D.-Y.; Jang, M.-G.: Techniques for improving web retrieval effectiveness (2005) 0.03

0.032125022 = product of:
  0.08566672 = sum of:
    0.01802184 = weight(_text_:information in 1060) [ClassicSimilarity], result of:
      0.01802184 = score(doc=1060,freq=12.0), product of:
        0.06322253 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.036014426 = queryNorm
        0.2850541 = fieldWeight in 1060, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.046875 = fieldNorm(doc=1060)
    0.05779738 = weight(_text_:retrieval in 1060) [ClassicSimilarity], result of:
      0.05779738 = score(doc=1060,freq=14.0), product of:
        0.10894058 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.036014426 = queryNorm
        0.5305404 = fieldWeight in 1060, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.046875 = fieldNorm(doc=1060)
    0.0098475 = product of:
      0.0295425 = sum of:
        0.0295425 = weight(_text_:29 in 1060) [ClassicSimilarity], result of:
          0.0295425 = score(doc=1060,freq=2.0), product of:
            0.1266875 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.036014426 = queryNorm
            0.23319192 = fieldWeight in 1060, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.046875 = fieldNorm(doc=1060)
      0.33333334 = coord(1/3)
  0.375 = coord(3/8)

Abstract: This paper talks about several schemes for improving retrieval effectiveness that can be used in the named page finding tasks of web information retrieval (Overview of the TREC-2002 web track. In: Proceedings of the Eleventh Text Retrieval Conference TREC-2002, NIST Special Publication #500-251, 2003). These methods were applied on top of the basic information retrieval model as additional mechanisms to upgrade the system. Use of the title of web pages was found to be effective. It was confirmed that anchor texts of incoming links was beneficial as suggested in other works. Sentence-query similarity is a new type of information proposed by us and was identified to be the best information to take advantage of. Stratifying and re-ranking the retrieval list based on the maximum count of index terms in common between a sentence and a query resulted in significant improvement of performance. To demonstrate these facts a large-scale web information retrieval system was developed and used for experimentation.
Date: 26.12.2007 20:28:29
Source: Information processing and management. 41(2005) no.5, S.1207-1224

Koenemann, J.; Lindner, H.-G.; Thomas, C.: Unternehmensportale : Von Suchmaschinen zum Wissensmanagement (2000) 0.03
```
0.028896274 = product of:
  0.115585096 = sum of:
    0.01486726 = weight(_text_:information in 5233) [ClassicSimilarity], result of:
      0.01486726 = score(doc=5233,freq=6.0), product of:
        0.06322253 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.036014426 = queryNorm
        0.23515764 = fieldWeight in 5233, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5233)
    0.100717835 = weight(_text_:modell in 5233) [ClassicSimilarity], result of:
      0.100717835 = score(doc=5233,freq=2.0), product of:
        0.21656582 = queryWeight, product of:
          6.0133076 = idf(docFreq=293, maxDocs=44218)
          0.036014426 = queryNorm
        0.465068 = fieldWeight in 5233, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          6.0133076 = idf(docFreq=293, maxDocs=44218)
          0.0546875 = fieldNorm(doc=5233)
  0.25 = coord(2/8)
```
Abstract

Aufgabe des Wissensmanagements ist es, den Mitarbeitern im Unternehmen entscheidungs- und handlungsrelevante Informationen bereitzustellen und die Mitarbeiter bei der intelligenten Verarbeitung dieser Informationen zu unterstützen. Ein hierzu genutztes Werkzeug von wachsender Bedeutung sind Unternehmensportale. Wir beschreiben kurz die Entwicklung von Portalen im World Wide Web (WWW), um dann Web-Portale von verschiedenen Arten von Unternehmensportalen abzugrenzen. Wir zeigen erwartete Funktionalitäten auf und stellen ein 5-Schichten Modell einer Gesamtarchitektur für Portale dar, welche die wesentlichen Komponenten umfasst. Im Anschluss werden die Besonderheiten der organisatorischen Realisierung und im Ausblick der Übergang von Portalen zum ,ubiquitous personalized information supply", der überall verfügbaren und individuellen Informationsversorgung behandelt

Source

nfd Information - Wissenschaft und Praxis. 51(2000) H.6, S.325-334

Theme

Information Resources Management

Dambeck, H.: Wie Google mit Milliarden Unbekannten rechnet : Teil.1 (2009) 0.03

0.028600229 = product of:
  0.22880183 = sum of:
    0.22880183 = weight(_text_:mathematisches in 3081) [ClassicSimilarity], result of:
      0.22880183 = score(doc=3081,freq=2.0), product of:
        0.30533072 = queryWeight, product of:
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.036014426 = queryNorm
        0.7493574 = fieldWeight in 3081, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          8.478011 = idf(docFreq=24, maxDocs=44218)
          0.0625 = fieldNorm(doc=3081)
  0.125 = coord(1/8)

Abstract: Ein Leben ohne Suchmaschinen? Für alle, die viel im World Wide Web unterwegs sind, eine geradezu absurde Vorstellung. Bei der Berechnung der Trefferlisten nutzt Google ein erstaunlich simples mathematisches Verfahren, das sogar Milliarden von Internetseiten in den Griff bekommt.

Peereboom, M.: DutchESS : Dutch Electronic Subject Service - a Dutch national collaborative effort (2000) 0.03

0.026698142 = product of:
  0.07119504 = sum of:
    0.016991155 = weight(_text_:information in 4869) [ClassicSimilarity], result of:
      0.016991155 = score(doc=4869,freq=6.0), product of:
        0.06322253 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.036014426 = queryNorm
        0.2687516 = fieldWeight in 4869, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.0625 = fieldNorm(doc=4869)
    0.041192 = weight(_text_:retrieval in 4869) [ClassicSimilarity], result of:
      0.041192 = score(doc=4869,freq=4.0), product of:
        0.10894058 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.036014426 = queryNorm
        0.37811437 = fieldWeight in 4869, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0625 = fieldNorm(doc=4869)
    0.013011887 = product of:
      0.03903566 = sum of:
        0.03903566 = weight(_text_:22 in 4869) [ClassicSimilarity], result of:
          0.03903566 = score(doc=4869,freq=2.0), product of:
            0.12611638 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.036014426 = queryNorm
            0.30952093 = fieldWeight in 4869, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0625 = fieldNorm(doc=4869)
      0.33333334 = coord(1/3)
  0.375 = coord(3/8)

Abstract: This article gives an overview of the design and organisation of DutchESS, a Dutch information subject gateway created as a national collaborative effort of the National Library and a number of academic libraries. The combined centralised and distributed model of DutchESS is discussed, as well as its selection policy, its metadata format, classification scheme and retrieval options. Also some options for future collaboration on an international level are explored
Date: 22. 6.2002 19:39:23
Source: Online information review. 24(2000) no.1, S.46-48
Theme: Information Gateway
Klassifikationssysteme im Online-Retrieval

Sietmann, R.: Suchmaschine für das akademische Internet (2004) 0.02
```
0.024421576 = product of:
  0.097686306 = sum of:
    0.025744999 = weight(_text_:retrieval in 5742) [ClassicSimilarity], result of:
      0.025744999 = score(doc=5742,freq=4.0), product of:
        0.10894058 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.036014426 = queryNorm
        0.23632148 = fieldWeight in 5742, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5742)
    0.07194131 = weight(_text_:modell in 5742) [ClassicSimilarity], result of:
      0.07194131 = score(doc=5742,freq=2.0), product of:
        0.21656582 = queryWeight, product of:
          6.0133076 = idf(docFreq=293, maxDocs=44218)
          0.036014426 = queryNorm
        0.33219144 = fieldWeight in 5742, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          6.0133076 = idf(docFreq=293, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5742)
  0.25 = coord(2/8)
```
Abstract

In Zusammenarbeit mit der norwegischen Suchtechnologie-Firma Fast Search & Transfer hat die Universitätsbibliothek Bielefeld den Prototyp einer Suchmaschine für wissenschaftliche Bibliotheken entwickelt. Dieser demonstriert jetzt mit dem öffentlichen Zugriff auf ausgewählte digitalisierte Sammlungen der Projektteilnehmer die neuen Möglichkeiten des akademischen Retrieval. <http://www.heise.de/RealMedia/ads/adstream_lx.ads/www.heise.de/newsticker/meldungen/wissenschaft/954604605/Middle1/he-test-contentads/zaehler.html/38363566383735383364653062323630?_RM_EMPTY_> Während kommerzielle Suchmaschinen wie Google oder Yahoo sich nicht an akademischen Kriterien orientieren, beschränkt sich die Bielefeld Academic Search Engine (BASE ) auf die von wissenschaftlichen Bibliotheken erschlossenen und aufbereiteten Inhalte. Dazu gehören Hochschulschriften, Preprints, elektronische Zeitschriften und digitale Sammlungen, wie beispielsweise die "Internet Library of Early Journals" des Oxford University Library Service und die "Wissenschaftlichen Rezensionsorgane und Literaturzeitschriften des 18. und 19. Jahrhunderts aus dem deutschen Sprachraum" der UB Bielefeld. Wer etwa bei Google die Stichworte "Immanuel Kant" +Frieden eingibt, kommt zwar schnell an den Originaltext des Aufsatzes "Zum ewigen Frieden" heran, tut sich jedoch schwer, unter den bunt gemischten über 11.000 Treffern gezielt weiter zu recherchieren. Das BASE-Modell dagegen stellt dem Nutzer hierfür vielfältige Navigationshilfen und Metainformationen zur Verfügung. So erleichtert unter anderem die Verfeinerung der Suche auf das Erscheinungsjahr den Zugriff auf die zeitgenössische Diskussion der berühmten Schrift des Königsberger Philosophen. Derzeit ermöglicht der BASE-Prototyp das Retrieval in 15 verschiedenen Archivquellen. Darunter befinden sich die Zeitschriften der Aufklärung, die Elektronischen Dissertationen der Universität Bochum, das elektronische Journal Documenta Mathematica sowie die Mathematischen Volltexte des Springer-Verlags. Der geplante Ausbau soll sich auf eine verteilte Architektur stützen, in der von einzelnen Bibliotheken lokal erstellte Indexe gemeinsam zu einem virtuellen Master-Index beitragen. Dies würde dem Nutzer die nahtlose Navigation durch die verteilten Bestände erlauben."
Herrera-Viedma, E.; Pasi, G.: Soft approaches to information retrieval and information access on the Web : an introduction to the special topic section (2006) 0.02
```
0.02244908 = product of:
  0.059864216 = sum of:
    0.017684953 = weight(_text_:information in 5285) [ClassicSimilarity], result of:
      0.017684953 = score(doc=5285,freq=26.0), product of:
        0.06322253 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.036014426 = queryNorm
        0.2797255 = fieldWeight in 5285, product of:
          5.0990195 = tf(freq=26.0), with freq of:
            26.0 = termFreq=26.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.03125 = fieldNorm(doc=5285)
    0.035673317 = weight(_text_:retrieval in 5285) [ClassicSimilarity], result of:
      0.035673317 = score(doc=5285,freq=12.0), product of:
        0.10894058 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.036014426 = queryNorm
        0.32745665 = fieldWeight in 5285, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.03125 = fieldNorm(doc=5285)
    0.0065059434 = product of:
      0.01951783 = sum of:
        0.01951783 = weight(_text_:22 in 5285) [ClassicSimilarity], result of:
          0.01951783 = score(doc=5285,freq=2.0), product of:
            0.12611638 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.036014426 = queryNorm
            0.15476047 = fieldWeight in 5285, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.03125 = fieldNorm(doc=5285)
      0.33333334 = coord(1/3)
  0.375 = coord(3/8)
```
Abstract

The World Wide Web is a popular and interactive medium used to collect, disseminate, and access an increasingly huge amount of information, which constitutes the mainstay of the so-called information and knowledge society. Because of its spectacular growth, related to both Web resources (pages, sites, and services) and number of users, the Web is nowadays the main information repository and provides some automatic systems for locating, accessing, and retrieving information. However, an open and crucial question remains: how to provide fast and effective retrieval of the information relevant to specific users' needs. This is a very hard and complex task, since it is pervaded with subjectivity, vagueness, and uncertainty. The expression soft computing refers to techniques and methodologies that work synergistically with the aim of providing flexible information processing tolerant of imprecision, vagueness, partial truth, and approximation. So, soft computing represents a good candidate to design effective systems for information access and retrieval on the Web. One of the most representative tools of soft computing is fuzzy set theory. This special topic section collects research articles witnessing some recent advances in improving the processes of information access and retrieval on the Web by using soft computing tools, and in particular, by using fuzzy sets and/or integrating them with other soft computing tools. In this introductory article, we first review the problem of Web retrieval and the concept of soft computing technology. We then briefly introduce the articles in this section and conclude by highlighting some future research directions that could benefit from the use of soft computing technologies.

Date

22. 7.2006 16:59:33

Footnote

Beitrag in einer Special Topic Section on Soft Approaches to Information Retrieval and Information Access on the Web

Source

Journal of the American Society for Information Science and Technology. 57(2006) no.4, S.511-514

Gardner, T.; Iannella, R.: Architecture and software solutions (2000) 0.02

0.022173818 = product of:
  0.059130184 = sum of:
    0.016991155 = weight(_text_:information in 4867) [ClassicSimilarity], result of:
      0.016991155 = score(doc=4867,freq=6.0), product of:
        0.06322253 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.036014426 = queryNorm
        0.2687516 = fieldWeight in 4867, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.0625 = fieldNorm(doc=4867)
    0.029127141 = weight(_text_:retrieval in 4867) [ClassicSimilarity], result of:
      0.029127141 = score(doc=4867,freq=2.0), product of:
        0.10894058 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.036014426 = queryNorm
        0.26736724 = fieldWeight in 4867, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0625 = fieldNorm(doc=4867)
    0.013011887 = product of:
      0.03903566 = sum of:
        0.03903566 = weight(_text_:22 in 4867) [ClassicSimilarity], result of:
          0.03903566 = score(doc=4867,freq=2.0), product of:
            0.12611638 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.036014426 = queryNorm
            0.30952093 = fieldWeight in 4867, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0625 = fieldNorm(doc=4867)
      0.33333334 = coord(1/3)
  0.375 = coord(3/8)

Abstract: The current subject gateways have evolved over time when the discipline of Internet resource discovery was in its infancy. This is reflected by the lack of well-established, light-weight, deployable, easy-to-use, standards for metadata and information retrieval. We provide an introduction to the architecture, standards and software solutions in use by subject gateways, and to the issues that must be addressed to support future subject gateways
Date: 22. 6.2002 19:38:24
Source: Online information review. 24(2000) no.1, S.35-39
Theme: Information Gateway

Lewandowski, D.: Web Information Retrieval : Technologien zur Informationssuche im Internet (2005) 0.02
```
0.020800805 = product of:
  0.055468813 = sum of:
    0.013654728 = weight(_text_:information in 3635) [ClassicSimilarity], result of:
      0.013654728 = score(doc=3635,freq=62.0), product of:
        0.06322253 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.036014426 = queryNorm
        0.21597885 = fieldWeight in 3635, product of:
          7.8740077 = tf(freq=62.0), with freq of:
            62.0 = termFreq=62.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.015625 = fieldNorm(doc=3635)
    0.038531587 = weight(_text_:retrieval in 3635) [ClassicSimilarity], result of:
      0.038531587 = score(doc=3635,freq=56.0), product of:
        0.10894058 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.036014426 = queryNorm
        0.3536936 = fieldWeight in 3635, product of:
          7.483315 = tf(freq=56.0), with freq of:
            56.0 = termFreq=56.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.015625 = fieldNorm(doc=3635)
    0.0032825002 = product of:
      0.0098475 = sum of:
        0.0098475 = weight(_text_:29 in 3635) [ClassicSimilarity], result of:
          0.0098475 = score(doc=3635,freq=2.0), product of:
            0.1266875 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.036014426 = queryNorm
            0.07773064 = fieldWeight in 3635, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.015625 = fieldNorm(doc=3635)
      0.33333334 = coord(1/3)
  0.375 = coord(3/8)
```
Abstract

Verfahren des Information Retrieval haben in den letzten Jahren eine enorme Bedeutung erlangt. Während diese Verfahren jahrzehntelang nur Einsatz in spezialisierten Datenbanken fanden, haben sie durch das Aufkommen von Suchmaschinen im World Wide Web mittlerweile eine zentrale Bedeutung in der Informationsversorgung eingenommen. Verfahren des Web Information Retrieval entscheiden darüber, welche Informationen von Nutzern gefunden werden; man spricht auch von einer "Gatekeeper"-Funktion der Suchmaschinen. Diese sind zum bedeutendsten Rechercheinstrument sowohl im privaten, beruflichen als auch wissenschaftlichen Bereich avanciert. Google, die berühmteste der "Information-Retrieval-Firmen", ist fast täglich in den Schlagzeilen zu finden. Immer neue Innovationen (nicht nur dieses Anbieters) zeigen die Web-Suche als dynamisches Feld. Vor allem wird durch die zahlreichen Neuerungen der letzten Jahre, teilweise erst der letzten Monate, deutlich, dass die Suche im Web trotz ihrer mittlerweile fast zehnjährigen Geschichte erst am Anfang steht. Dass dem Web Information Retrieval eine hohe Bedeutung zugemessen wird, zeigt sich auch im wachsenden Interesse kommerzieller Unternehmen an diesem Thema. Ein Blick auf die Sponsorenliste der letztjährigen Konferenz der ACM Special Interest Group on Information Retrieval mag dies verdeutlichen: Neben den wichtigen Suchmaschinen-Anbietern Google, Microsoft, Yahoo und Ask Jeeves finden sich auch Großunternehmen wie IBM, Canon und Sharp. Auch in der gesellschaftlichen Diskussion sind die Suchmaschinen angekommen: Es findet gegenwärtig eine Diskussion um die "Google-Gesellschaft" statt, wobei gefragt wird, inwieweit ein einzelner Anbieter bzw. wenige Anbieter darüber entscheiden sollten, welche Informationen beim Nutzer angelangen. In dieser Hinsicht befassen sich inzwischen auch politische Parteien mit dem Thema. So publizierte etwa die Gründe Bundestagsfraktion ein Diskussionspapier unter dem Titel "Suchmaschinen: Tore zum Netz", in welchem unter anderem die Rolle der Suchmaschinen beim Zugang zu Informationen und Probleme des Datenschutzes bei der Suchmaschinennutzung angesprochen werden.
Die vorliegende Arbeit setzt auf einer eher technischen Ebene an und bietet die Grundlagen für das Verständnis der Funktionsweise und der Defizite von Web-Suchmaschinen. Während zum klassischen Information Retrieval eine breite Auswahl an Literatur vorliegt, gibt es bisher kein Werk, welches eine umfassende Darstellung des Web Information Retrieval mit seinen Unterscheidungen und Besonderheiten gegenüber dem "klassischen" Information Retrieval bietet. Monographien zum Thema Suchmaschinen behandeln vor allem deren Suchfunktionen oder konzentrieren sich allein auf algorithmische Aspekte des Web Information Retrieval. Die Forschungslitertaur liegt zum überwältigenden Teil nur in englischer Sprache vor; die Forschung selbst findet zu einem großen Teil in den USA statt. Aus diesem Grund werden Spezifika anderer Sprachen als des Englischen sowie Besonderheiten auf nationaler oder gar kontinentaler Ebene vernachlässigt. Die Konsequenzen, die sich aus den Besonderheiten des Web Information Re¬trieval ergeben, wurden bisher nur unzureichend erkannt. Suchmaschinen orientieren sich noch stark am klassischen Information Retrieval, wenn auch teils eigene Rankingkriterien gefunden wurden, vor allem die Ergänzung der klassischen Faktoren durch eine Art der Qualitätsbewertung der indexierten Dokumente. Die Arbeit soll aufzeigen, welche Schritte nötig sind, um Web Information Retrieval vor allem auch in Hinblick auf die Charakteristika der Suchmaschinen-Nutzer effektiv zu gestalten. Die Verfahren des klassischen Information Retrieval versagen hier, da sie einerseits von einer gepflegten Dokumentenkollektion, andererseits von einem geschulten Nutzer ausgehen. Suchmaschinen haben mit Problemen des sog. Index-Spamming zu kämpfen: Hierbei werden (oft in kommerziellem Interesse) inhaltlich wertlose Dokumente erstellt, die in den Trefferlisten der Suchmaschinen auf den vorderen Rängen angezeigt werden sollen, um Nutzer auf eine bestimmte Webseite zu lenken. Zwar existieren Verfahren, die ein solches Spamming verhindern sollen, allerdings können auch diese das Problem lediglich eindämmen, nicht aber verhindern. Das Problem ließe sich wenigstens zum Teil durch die Nutzer lösen, wenn diese gezielte Suchanfragen stellen würden, die solche irrelevanten Treffer ausschließen würden. Allerdings zeigt die Nutzerforschung einheitlich, dass das Wissen der Nutzer über die von ihnen verwendeten Suchmaschinen ausgesprochen gering ist; dies gilt sowohl für ihre Kenntnisse der Funktionsweise der Suchmaschinen als auch die Kenntnis der Suchfunktionen.
Die Arbeit konzentriert sich neben der Darstellung des Forschungsstands im Bereich des Web Information Retrieval auf einen nutzerzentrierten Ansatz des Aufbaus von Suchmaschinen, der sich aus dem Retrieval in klassischen Datenbanken herleitet. Als zentral für eine erfolgreiche Recherche wird dabei die Möglichkeit der gezielten Beschränkung der Recherche durch den Nutzer gesehen; die wichtigsten Faktoren sind hierbei die Einschränkung nach Aktualität, Qualität und die verbesserte Dokumentauswahl aufgrund einer erweiterten Dokumentrepräsentation. Alle drei Möglichkeiten sind in bisher verfügbaren Suchmaschinen nicht zufrieden stellend implementiert. Ein Problem bei der Bearbeitung des Themas ergab sich aus der Tatsache, dass die Forschung im Bereich Web Information Retrieval zu einem großen Teil bei den Anbietern selbst stattfindet, die darauf bedacht sind, ihre Erkenntnisse nicht zu veröffentlichen und damit der Konkurrenz zu überlassen. Viele Forschungsergebnisse können daher nur anhand der fertiggestellten Anwendungen rekonstruiert werden; hilfreich waren in manchen Fällen auch die von den Suchmaschinenbetreibern angemeldeten Patente, die für die vorliegende Arbeit ausgewertet wurden. Insgesamt zeigt sich, dass eine neue Form des Information Retrieval entstanden ist. Ziele des klassischen Information Retrieval wie die Vollständigkeit der Treffermenge verlieren ob der schieren Masse der zurückgegebenen Treffer an Bedeutung; dafür werden Faktoren der Qualitätsbewertung der Dokumente immer wichtiger. Das Web Information Retrieval setzt auf dem klassischen Information Retrieval auf und erweitert dieses wo nötig. Das Ziel bleibt aber weitgehend das gleiche: Dem Nutzer die für die Befriedigung seines Informationsbedürfnisses besten Ergebnisse zu liefern. Neben der Informationswissenschaft findet die Information-Retrieval-Forschung hauptsächlich in der Informatik statt. Der informationswissenschaftlichen Forschung kommt die Aufgabe zu, den stark technik-zentrierten Ansatz der Informatik um einen "Blick fürs Ganze" zu erweitern und insbesondere die Bedürfnisse der Nutzer in ihren Ansatz einzubinden. Aufgrund der enormen Bedeutung des Web Information Retrieval, welches in den klassischen informationswissenschaftlichen Bereich fällt, ergibt sich für die Informationswissenschaft auch die Chance, sich in diesem Thema gegenüber anderen Disziplinen zu profilieren. Zum Aufbau der Arbeit Die Arbeit lässt sich grob in zwei Hauptteile gliedern: Der erste Teil (Kap. 2-10) beschreibt den Bereich Web Information Retrieval mit allen seinen Besonderheiten in Abgrenzung zum klassischen Information Retrieval; der zweite Teil (Kap. 11-13) stellt anhand der Ergebnisse des ersten Teils einen nutzerzentrierten Ansatz der Rechercheverfeinerung in mehreren Schritten vor.

Content

Inhalt: 1 Einleitung 2 Forschungsumfeld 2.1 Suchmaschinen-Markt 2.2 Formen der Suche im WWW 2.3 Aufbau algorithmischer Suchmaschinen 2.4 Abfragesprachen 2.5 Arten von Suchanfragen 2.6 Nutzerstudien 2.7 Forschungsbereiche 3 Die Größe des Web und seine Abdeckung durch Suchmaschinen 3.1 Die Größe des indexierbaren Web 3.2 Die Struktur des Web 3.3 Crawling 3.4 Aktualität der Suchmaschinen 3.5 Das Invisible Web 4 Strukturinformationen 4.1 Strukturierungsgrad von Dokumenten 4.2 Strukturinformationen in den im Web gängigen Dokumenten 4.3 Trennung von Navigation, Layout und Inhalt 4.4 Repräsentation der Dokumente in den Datenbanken der Suchmaschinen 5 Klassische Verfahren des Information Retrieval und ihre Anwendung bei WWW-Suchmaschinen 5.1 Unterschiede zwischen klassischem Information Retrieval und Web Information Retrieval 5.2 Kontrolliertes Vokabular 5.3 Kriterien für die Aufnahme in den Datenbestand 5.4 Modelle des Information Retrieval 6 Ranking 6.1 Rankingfaktoren 6.2 Messbarkeit von Relevanz 6.3 Grundsätzliche Probleme des Relevance Ranking in Suchmaschinen

Date

11. 2.2006 20:15:29

Footnote

Zugl. Diss. Univ. Düsseldorf, Inst. für Sprache und Information, Abt. Informationswissenschaft
Rez. in: Information - Wissenschaft und Praxis. 56(2005) H.7, S.393-394 (J. Griesbaum): "... , das Buch wird seinem Titel und dem formulierten Anspruch sehr gut gerecht. Die 248 Seiten umfängliche Publikation leistet eine umfassende und, für den deutschsprachigen Raum, einzigartige State-of-the-Art-Analyse der Verfahren und auch der Defizite von Suchmaschinen im Internet. Dabei beschränkt sich Lewandowski nicht auf eine technikzentrierte Beschreibung aktueller Retrievalansätze, sondern akzentuiert ebenso deutlich auch die Problemfelder bei der Nutzung von Suchmaschinen. Dieser nutzerzentrierte Ansatz kommt vor allem im konzeptionellen Teil der Arbeit zum Tragen, der das Ziel verfolgt, Suchmaschinennutzern verbesserte Rechercheoptionen zu verschaffen. Angesichts der nur in geringem Maße vorhandenen Recherchekenntnisse der Nutzer liegt die Herausforderung vor allem darin, solche verbesserten Recherchemöglichkeiten derart auszugestalten, dass sie sich in realen Suchkontexten auch tatsächlich auswirken und nicht etwa wie die meist als "Erweitere Suche" bezeichneten Anfragemasken ein kaum beachtetes Dasein fristen. Der Verfasser konzipiert in diesem wichtigen Forschungsfeld neue Ansätze, um die Oualität des Information Retrievals zu verbessern. ... "
Stalder, F.; Mayer, C.: ¬Der zweite Index : Suchmaschinen, Personalisierung und Überwachung (2009) 0.02
```
0.020640194 = product of:
  0.08256078 = sum of:
    0.010619472 = weight(_text_:information in 22) [ClassicSimilarity], result of:
      0.010619472 = score(doc=22,freq=6.0), product of:
        0.06322253 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.036014426 = queryNorm
        0.16796975 = fieldWeight in 22, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.0390625 = fieldNorm(doc=22)
    0.07194131 = weight(_text_:modell in 22) [ClassicSimilarity], result of:
      0.07194131 = score(doc=22,freq=2.0), product of:
        0.21656582 = queryWeight, product of:
          6.0133076 = idf(docFreq=293, maxDocs=44218)
          0.036014426 = queryNorm
        0.33219144 = fieldWeight in 22, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          6.0133076 = idf(docFreq=293, maxDocs=44218)
          0.0390625 = fieldNorm(doc=22)
  0.25 = coord(2/8)
```
Abstract

Googles Anspruch ist bekanntermaßen, "die auf der Welt vorhandene Information zu organisieren". Es ist aber unmöglich, die Information der Welt zu organisieren, ohne über ein operatives Modell der Welt zu verfügen. Am Höhepunkt der westlichen Kolonialmacht konnte Melvil(le) Dewey (1851-1931) einfach die viktorianische Weltsicht als Grundlage eines universalen Klassifikationssystems heranziehen, das zum Beispiel alle nicht-christlichen Religionen in eine einzige Kategorie zusammenfasste (Nr. 290 "Andere Religionen"). Ein derartig einseitiges Klassifizierungssystem kann, bei all seiner Nützlichkeit in Bibliotheken, in der multikulturellen Welt der globalen Kommunikation nicht funktionieren. Tatsächlich kann ein uniformes Klassifizierungssystem grundsätzlich nicht funktionieren, da es unmöglich ist, sich auf einen einzigen kulturellen Begriffsrahmen zu einigen, aufgrund dessen die Kategorien definiert werden könnten. Dies ist neben dem Problem der Skalierung der Grund, weshalb Internet-Verzeichnisse, wie sie von Yahoo! und dem Open Directory Project (demoz) eingeführt wurden, nach einer kurzen Zeit des Erfolgs zusammenbrachen. Suchmaschinen umgehen dieses Problem, indem sie die Ordnung der Ausgabe für jede Anfrage neu organisieren und die selbstreferenzielle Methode der Linkanalyse einsetzen, um die Hierarchie der Ergebnisse zu konstruieren (vgl. Katja Mayers Beitrag in diesem Band). Dieses Ranking hat den Anspruch, objektiv zu sein und die reale Topologie des Netzwerks zu spiegeln, die sich ungeplant aus den Verlinkungen, die durch die einzelnen Informationsproduzenten gesetzt werden, ergibt. Aufgrund ihrer Kenntnis dieser Topologie bevorzugen Suchmaschinen stark verlinkte Knoten gegenüber wenig verlinkten peripheren Seiten. Diese spezifische Art der Objektivität ist eines der Kernelemente von Suchmaschinen, denn sie ist problemlos skalierbar und genießt das Vertrauen der Nutzer.

Source

Deep Search: Politik des Suchens jenseits von Google; Deep Search-Konferenz, Wien, 2008.11.08; eine Veröffentlichung des World-Information Institute. Hrsg.: K. Becker u. F. Stalder
Croft, W.B.: Combining approaches to information retrieval (2000) 0.02
```
0.019952461 = product of:
  0.079809844 = sum of:
    0.01802184 = weight(_text_:information in 6862) [ClassicSimilarity], result of:
      0.01802184 = score(doc=6862,freq=12.0), product of:
        0.06322253 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.036014426 = queryNorm
        0.2850541 = fieldWeight in 6862, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.046875 = fieldNorm(doc=6862)
    0.061788 = weight(_text_:retrieval in 6862) [ClassicSimilarity], result of:
      0.061788 = score(doc=6862,freq=16.0), product of:
        0.10894058 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.036014426 = queryNorm
        0.5671716 = fieldWeight in 6862, product of:
          4.0 = tf(freq=16.0), with freq of:
            16.0 = termFreq=16.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.046875 = fieldNorm(doc=6862)
  0.25 = coord(2/8)
```
Abstract

The combination of different text representations and search strategies has become a standard technique for improving the effectiveness of information retrieval. Combination, for example, has been studied extensively in the TREC evaluations and is the basis of the "meta-search" engines used on the Web. This paper examines the development of this technique, including both experimental results and the retrieval models that have been proposed as formal frameworks for combination. We show that combining approaches for information retrieval can be modeled as combining the outputs of multiple classifiers based on one or more representations, and that this simple model can provide explanations for many of the experimental results. We also show that this view of combination is very similar to the inference net model, and that a new approach to retrieval based on language models supports combination and can be integrated with the inference net model

Series

The Kluwer international series on information retrieval; 7

Source

Advances in information retrieval: Recent research from the Center for Intelligent Information Retrieval. Ed.: W.B. Croft

Garcés, P.J.; Olivas, J.A.; Romero, F.P.: Concept-matching IR systems versus word-matching information retrieval systems : considering fuzzy interrelations for indexing Web pages (2006) 0.02

0.019472172 = product of:
  0.051925793 = sum of:
    0.012262309 = weight(_text_:information in 5288) [ClassicSimilarity], result of:
      0.012262309 = score(doc=5288,freq=8.0), product of:
        0.06322253 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.036014426 = queryNorm
        0.19395474 = fieldWeight in 5288, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5288)
    0.03153106 = weight(_text_:retrieval in 5288) [ClassicSimilarity], result of:
      0.03153106 = score(doc=5288,freq=6.0), product of:
        0.10894058 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.036014426 = queryNorm
        0.28943354 = fieldWeight in 5288, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0390625 = fieldNorm(doc=5288)
    0.00813243 = product of:
      0.024397288 = sum of:
        0.024397288 = weight(_text_:22 in 5288) [ClassicSimilarity], result of:
          0.024397288 = score(doc=5288,freq=2.0), product of:
            0.12611638 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.036014426 = queryNorm
            0.19345059 = fieldWeight in 5288, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0390625 = fieldNorm(doc=5288)
      0.33333334 = coord(1/3)
  0.375 = coord(3/8)

Abstract: This article presents a semantic-based Web retrieval system that is capable of retrieving the Web pages that are conceptually related to the implicit concepts of the query. The concept of concept is managed from a fuzzy point of view by means of semantic areas. In this context, the proposed system improves most search engines that are based on matching words. The key of the system is to use a new version of the Fuzzy Interrelations and Synonymy-Based Concept Representation Model (FIS-CRM) to extract and represent the concepts contained in both the Web pages and the user query. This model, which was integrated into other tools such as the Fuzzy Interrelations and Synonymy based Searcher (FISS) metasearcher and the fz-mail system, considers the fuzzy synonymy and the fuzzy generality interrelations as a means of representing word interrelations (stored in a fuzzy synonymy dictionary and ontologies). The new version of the model, which is based on the study of the cooccurrences of synonyms, integrates a soft method for disambiguating word senses. This method also considers the context of the word to be disambiguated and the thematic ontologies and sets of synonyms stored in the dictionary.
Date: 22. 7.2006 17:14:12
Footnote: Beitrag in einer Special Topic Section on Soft Approaches to Information Retrieval and Information Access on the Web
Source: Journal of the American Society for Information Science and Technology. 57(2006) no.4, S.564-576

Kanaeva, Z.: Ranking: Google und CiteSeer (2005) 0.02

0.018379018 = product of:
  0.049010716 = sum of:
    0.012139066 = weight(_text_:information in 3276) [ClassicSimilarity], result of:
      0.012139066 = score(doc=3276,freq=4.0), product of:
        0.06322253 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.036014426 = queryNorm
        0.1920054 = fieldWeight in 3276, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.0546875 = fieldNorm(doc=3276)
    0.02548625 = weight(_text_:retrieval in 3276) [ClassicSimilarity], result of:
      0.02548625 = score(doc=3276,freq=2.0), product of:
        0.10894058 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.036014426 = queryNorm
        0.23394634 = fieldWeight in 3276, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0546875 = fieldNorm(doc=3276)
    0.0113854 = product of:
      0.0341562 = sum of:
        0.0341562 = weight(_text_:22 in 3276) [ClassicSimilarity], result of:
          0.0341562 = score(doc=3276,freq=2.0), product of:
            0.12611638 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.036014426 = queryNorm
            0.2708308 = fieldWeight in 3276, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0546875 = fieldNorm(doc=3276)
      0.33333334 = coord(1/3)
  0.375 = coord(3/8)

Abstract: Im Rahmen des klassischen Information Retrieval wurden verschiedene Verfahren für das Ranking sowie die Suche in einer homogenen strukturlosen Dokumentenmenge entwickelt. Die Erfolge der Suchmaschine Google haben gezeigt dass die Suche in einer zwar inhomogenen aber zusammenhängenden Dokumentenmenge wie dem Internet unter Berücksichtigung der Dokumentenverbindungen (Links) sehr effektiv sein kann. Unter den von der Suchmaschine Google realisierten Konzepten ist ein Verfahren zum Ranking von Suchergebnissen (PageRank), das in diesem Artikel kurz erklärt wird. Darüber hinaus wird auf die Konzepte eines Systems namens CiteSeer eingegangen, welches automatisch bibliographische Angaben indexiert (engl. Autonomous Citation Indexing, ACI). Letzteres erzeugt aus einer Menge von nicht vernetzten wissenschaftlichen Dokumenten eine zusammenhängende Dokumentenmenge und ermöglicht den Einsatz von Banking-Verfahren, die auf den von Google genutzten Verfahren basieren.
Date: 20. 3.2005 16:23:22
Source: Information - Wissenschaft und Praxis. 56(2005) H.2, S.87-92

Speck, H.; Thiele, F.P.: Playing the search engines or hacking the box : Möglichkeiten und Gefahren von Suchmaschinen-Hacking am Beispiel von Google (2007) 0.02
```
0.01725793 = product of:
  0.04602115 = sum of:
    0.008670762 = weight(_text_:information in 386) [ClassicSimilarity], result of:
      0.008670762 = score(doc=386,freq=4.0), product of:
        0.06322253 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.036014426 = queryNorm
        0.13714671 = fieldWeight in 386, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.0390625 = fieldNorm(doc=386)
    0.025744999 = weight(_text_:retrieval in 386) [ClassicSimilarity], result of:
      0.025744999 = score(doc=386,freq=4.0), product of:
        0.10894058 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.036014426 = queryNorm
        0.23632148 = fieldWeight in 386, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0390625 = fieldNorm(doc=386)
    0.011605391 = product of:
      0.034816172 = sum of:
        0.034816172 = weight(_text_:29 in 386) [ClassicSimilarity], result of:
          0.034816172 = score(doc=386,freq=4.0), product of:
            0.1266875 = queryWeight, product of:
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.036014426 = queryNorm
            0.2748193 = fieldWeight in 386, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              3.5176873 = idf(docFreq=3565, maxDocs=44218)
              0.0390625 = fieldNorm(doc=386)
      0.33333334 = coord(1/3)
  0.375 = coord(3/8)
```
Abstract

Dieses Kapitel beschreibt ein quantitatives Verfahren, bei dem Suchmaschinen als exploratives Werkzeug für die Erhebung forschungsrelevanter Daten benutzt werden. Suchmaschinen bilden dabei die Grundlage für einen systemtheoretischen Ansatz, der die gewonnenen Informationen für die Abbildung der makro-soziologischen Eigenschaften einzelner Webseiten und kompletter Netzwerke nutzt. Die technischen Fortschritte des Information Retrieval ermöglichen 15 Jahre nach der Evolution des Internets zum Massenmedium Zugang zu Informationen und informationsverfahren, die ohne den Wandel des Verhältnisses von Öffentlichkeit und Privatsphäre, von Internetnutzern zu Inhalte-Produzenten und von Sendern zu Empfängern im Sinne des mathematischen Modells der Kommunikation nicht vorstellbar sind. Diese Entwicklung erlaubt die Nutzung innovativer Explorationsverfahren, die durch den direkten Zugriff auf Milliarden von Daten auch Einblicke in die Transaktionsprozesse der daran beteiligten Suchmaschinen und Märkte bieten. Im Folgenden werden die Transformationen des Öffentlichen Raumes und der Privatsphäre beleuchtet. Besonderes Augenmerk gilt dabei dem Zugang und der Verfügbarkeit von Informationen in Information-Retrieval-Systemen, die relevante Informationen für eine umfassende Exploration und Analyse der Zielobjekte geben. Beschrieben wird insbesondere, wie eine Nutzung von Suchmaschinen zur Datenerhebung verbunden mit einer Betrachtung als geregelte Prozesse innerhalb eines kybernetischen Modells Nutzungsmöglichkeiten und Optionen für die quantitative Analyse von Nutzerverhalten, Strukturen und Marktzahlen bietet.

Date

13. 5.2007 10:29:29

Sherman, C.: Fifth annual search engine meeting : old economy info retrieval clashes with new economy upstarts (2000) 0.02

0.017034933 = product of:
  0.06813973 = sum of:
    0.017167233 = weight(_text_:information in 3906) [ClassicSimilarity], result of:
      0.017167233 = score(doc=3906,freq=2.0), product of:
        0.06322253 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.036014426 = queryNorm
        0.27153665 = fieldWeight in 3906, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.109375 = fieldNorm(doc=3906)
    0.0509725 = weight(_text_:retrieval in 3906) [ClassicSimilarity], result of:
      0.0509725 = score(doc=3906,freq=2.0), product of:
        0.10894058 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.036014426 = queryNorm
        0.46789268 = fieldWeight in 3906, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.109375 = fieldNorm(doc=3906)
  0.25 = coord(2/8)

Source: Information today. 17(2000) no.6, S.33-35

Lehrke, C.: Architektur von Suchmaschinen : Googles Architektur, insb. Crawler und Indizierer (2005) 0.02

0.015955571 = product of:
  0.042548187 = sum of:
    0.008670762 = weight(_text_:information in 867) [ClassicSimilarity], result of:
      0.008670762 = score(doc=867,freq=4.0), product of:
        0.06322253 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.036014426 = queryNorm
        0.13714671 = fieldWeight in 867, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.0390625 = fieldNorm(doc=867)
    0.025744999 = weight(_text_:retrieval in 867) [ClassicSimilarity], result of:
      0.025744999 = score(doc=867,freq=4.0), product of:
        0.10894058 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.036014426 = queryNorm
        0.23632148 = fieldWeight in 867, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0390625 = fieldNorm(doc=867)
    0.00813243 = product of:
      0.024397288 = sum of:
        0.024397288 = weight(_text_:22 in 867) [ClassicSimilarity], result of:
          0.024397288 = score(doc=867,freq=2.0), product of:
            0.12611638 = queryWeight, product of:
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.036014426 = queryNorm
            0.19345059 = fieldWeight in 867, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              3.5018296 = idf(docFreq=3622, maxDocs=44218)
              0.0390625 = fieldNorm(doc=867)
      0.33333334 = coord(1/3)
  0.375 = coord(3/8)

Abstract: Das Internet mit seinen ständig neuen Usern und seinem extremen Wachstum bringt viele neue Herausforderungen mit sich. Aufgrund dieses Wachstums bedienen sich die meisten Leute der Hilfe von Suchmaschinen um Inhalte innerhalb des Internet zu finden. Suchmaschinen nutzen für die Beantwortung der User-Anfragen Information Retrieval Techniken. Problematisch ist nur, dass traditionelle Information Retrieval (IR) Systeme für eine relativ kleine und zusammenhängende Sammlung von Dokumenten entwickelt wurden. Das Internet hingegen unterliegt einem ständigen Wachstum, schnellen Änderungsraten und es ist über geographisch verteilte Computer verteilt. Aufgrund dieser Tatsachen müssen die alten Techniken erweitert oder sogar neue IRTechniken entwickelt werden. Eine Suchmaschine die diesen Herausforderungen vergleichsweise erfolgreich entgegnet ist Google. Ziel dieser Arbeit ist es aufzuzeigen, wie Suchmaschinen funktionieren. Der Fokus liegt dabei auf der Suchmaschine Google. Kapitel 2 wird sich zuerst mit dem Aufbau von Suchmaschinen im Allgemeinen beschäftigen, wodurch ein grundlegendes Verständnis für die einzelnen Komponenten geschaffen werden soll. Im zweiten Teil des Kapitels wird darauf aufbauend ein Überblick über die Architektur von Google gegeben. Kapitel 3 und 4 dienen dazu, näher auf die beiden Komponenten Crawler und Indexer einzugehen, bei denen es sich um zentrale Elemente im Rahmen von Suchmaschinen handelt.
Pages: 22 S

Welp, C.: ¬Ein Code of Conduct für Suchmaschinen (2004) 0.02
```
0.015261057 = product of:
  0.122088455 = sum of:
    0.122088455 = weight(_text_:modell in 4033) [ClassicSimilarity], result of:
      0.122088455 = score(doc=4033,freq=4.0), product of:
        0.21656582 = queryWeight, product of:
          6.0133076 = idf(docFreq=293, maxDocs=44218)
          0.036014426 = queryNorm
        0.5637476 = fieldWeight in 4033, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          6.0133076 = idf(docFreq=293, maxDocs=44218)
          0.046875 = fieldNorm(doc=4033)
  0.125 = coord(1/8)
```
Abstract

In dem am 1. April 2003 in Kraft getretenen Jungendmedienschutzstaatsvertrag (JMStV) tauchen in § 7 Abs. 1 JMStV Suchmaschinen zum ersten Mal in einem deutschen Gesetz auf. 5 7 Abs. 1 JMStV verpflichtet die Betreiber von Suchmaschinen, einen Jugendschutzbeauftragten zu benennen. Um ihrer gesellschaftlichen Verantwortung gerecht zu werden, sollten sich die deutschen Suchmaschinenbetreiber darüber hinaus auf einen einheitlichen Verhaltenskodex einigen und sich zu dessen Einhaltung verpflichten. Eine solche Selbstverpflichtungserklärung würde den Nutzern und dem Gesetzgeber signalisieren, dass sich die Suchmaschinenbetreiber ihrer Verantwortung bewusst sind. Der Gesetzgeber kann sich in diesem Fall auf das Vorgeben des gesetzlichen Rahmens beschränken und Ressourcen einsparen. Ein solches Modell des Nebeneinanders einer Selbstregulierungsinitiative der Suchmaschinenbetreiber und einer Rahmengesetzgebung des Staates entspricht dem Modell der Ko-Regulierung, das davon ausgeht, dass sich staatliche Regulierung und Selbstregulierungsinitiativen der Industrie nicht gegenseitig ausschließen, sondern ergänzen.
Liu, Y.; Zhang, M.; Cen, R.; Ru, L.; Ma, S.: Data cleansing for Web information retrieval using query independent features (2007) 0.02
```
0.0151066985 = product of:
  0.060426794 = sum of:
    0.012262309 = weight(_text_:information in 607) [ClassicSimilarity], result of:
      0.012262309 = score(doc=607,freq=8.0), product of:
        0.06322253 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.036014426 = queryNorm
        0.19395474 = fieldWeight in 607, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.0390625 = fieldNorm(doc=607)
    0.048164483 = weight(_text_:retrieval in 607) [ClassicSimilarity], result of:
      0.048164483 = score(doc=607,freq=14.0), product of:
        0.10894058 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.036014426 = queryNorm
        0.442117 = fieldWeight in 607, product of:
          3.7416575 = tf(freq=14.0), with freq of:
            14.0 = termFreq=14.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.0390625 = fieldNorm(doc=607)
  0.25 = coord(2/8)
```
Abstract

Understanding what kinds of Web pages are the most useful for Web search engine users is a critical task in Web information retrieval (IR). Most previous works used hyperlink analysis algorithms to solve this problem. However, little research has been focused on query-independent Web data cleansing for Web IR. In this paper, we first provide analysis of the differences between retrieval target pages and ordinary ones based on more than 30 million Web pages obtained from both the Text Retrieval Conference (TREC) and a widely used Chinese search engine, SOGOU (www.sogou.com). We further propose a learning-based data cleansing algorithm for reducing Web pages that are unlikely to be useful for user requests. We found that there exists a large proportion of low-quality Web pages in both the English and the Chinese Web page corpus, and retrieval target pages can be identified using query-independent features and cleansing algorithms. The experimental results showed that our algorithm is effective in reducing a large portion of Web pages with a small loss in retrieval target pages. It makes it possible for Web IR tools to meet a large fraction of users' needs with only a small part of pages on the Web. These results may help Web search engines make better use of their limited storage and computation resources to improve search performance.

Footnote

Beitrag eines Themenschwerpunktes "Mining Web resources for enhancing information retrieval"

Source

Journal of the American Society for Information Science and Technology. 58(2007) no.12, S.1884-1898
Dominich, S.; Skrop, A.: PageRank and interaction information retrieval (2005) 0.02
```
0.015035583 = product of:
  0.06014233 = sum of:
    0.016451614 = weight(_text_:information in 3268) [ClassicSimilarity], result of:
      0.016451614 = score(doc=3268,freq=10.0), product of:
        0.06322253 = queryWeight, product of:
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.036014426 = queryNorm
        0.2602176 = fieldWeight in 3268, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          1.7554779 = idf(docFreq=20772, maxDocs=44218)
          0.046875 = fieldNorm(doc=3268)
    0.043690715 = weight(_text_:retrieval in 3268) [ClassicSimilarity], result of:
      0.043690715 = score(doc=3268,freq=8.0), product of:
        0.10894058 = queryWeight, product of:
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.036014426 = queryNorm
        0.40105087 = fieldWeight in 3268, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          3.024915 = idf(docFreq=5836, maxDocs=44218)
          0.046875 = fieldNorm(doc=3268)
  0.25 = coord(2/8)
```
Abstract

The PageRank method is used by the Google Web search engine to compute the importance of Web pages. Two different views have been developed for the Interpretation of the PageRank method and values: (a) stochastic (random surfer): the PageRank values can be conceived as the steady-state distribution of a Markov chain, and (b) algebraic: the PageRank values form the eigenvector corresponding to eigenvalue 1 of the Web link matrix. The Interaction Information Retrieval (1**2 R) method is a nonclassical information retrieval paradigm, which represents a connectionist approach based an dynamic systems. In the present paper, a different Interpretation of PageRank is proposed, namely, a dynamic systems viewpoint, by showing that the PageRank method can be formally interpreted as a particular case of the Interaction Information Retrieval method; and thus, the PageRank values may be interpreted as neutral equilibrium points of the Web.

Source

Journal of the American Society for Information Science and Technology. 56(2005) no.1, S.63-69

Search (401 results, page 1 of 21)

Authors

Languages

Types

Themes

Subjects

Classifications