Search (7 results, page 1 of 1)

  • × theme_ss:"Data Mining"
  • × theme_ss:"Internet"
  • × type_ss:"a"
  1. Huvila, I.: Mining qualitative data on human information behaviour from the Web (2010) 0.01
    0.014233103 = product of:
      0.042699307 = sum of:
        0.020073581 = weight(_text_:information in 4676) [ClassicSimilarity], result of:
          0.020073581 = score(doc=4676,freq=8.0), product of:
            0.07392587 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.042111535 = queryNorm
            0.27153665 = fieldWeight in 4676, product of:
              2.828427 = tf(freq=8.0), with freq of:
                8.0 = termFreq=8.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.0546875 = fieldNorm(doc=4676)
        0.022625724 = weight(_text_:und in 4676) [ClassicSimilarity], result of:
          0.022625724 = score(doc=4676,freq=4.0), product of:
            0.093334615 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.042111535 = queryNorm
            0.24241515 = fieldWeight in 4676, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0546875 = fieldNorm(doc=4676)
      0.33333334 = coord(2/6)
    
    Abstract
    This paper discusses an approach of collecting qualitative data on human information behaviour that is based on mining web data using search engines. The approach is technically the same that has been used for some time in webometric research to make statistical inferences on web data, but the present paper shows how the same tools and data collecting methods can be used to gather data for qualitative data analysis on human information behaviour.
    Source
    Information und Wissen: global, sozial und frei? Proceedings des 12. Internationalen Symposiums für Informationswissenschaft (ISI 2011) ; Hildesheim, 9. - 11. März 2011. Hrsg.: J. Griesbaum, T. Mandl u. C. Womser-Hacker
  2. Klein, H.: Web Content Mining (2004) 0.00
    0.0045710867 = product of:
      0.027426518 = sum of:
        0.027426518 = weight(_text_:und in 3154) [ClassicSimilarity], result of:
          0.027426518 = score(doc=3154,freq=18.0), product of:
            0.093334615 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.042111535 = queryNorm
            0.29385152 = fieldWeight in 3154, product of:
              4.2426405 = tf(freq=18.0), with freq of:
                18.0 = termFreq=18.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.03125 = fieldNorm(doc=3154)
      0.16666667 = coord(1/6)
    
    Abstract
    Web Mining - ein Schlagwort, das mit der Verbreitung des Internets immer öfter zu lesen und zu hören ist. Die gegenwärtige Forschung beschäftigt sich aber eher mit dem Nutzungsverhalten der Internetnutzer, und ein Blick in Tagungsprogramme einschlägiger Konferenzen (z.B. GOR - German Online Research) zeigt, dass die Analyse der Inhalte kaum Thema ist. Auf der GOR wurden 1999 zwei Vorträge zu diesem Thema gehalten, auf der Folgekonferenz 2001 kein einziger. Web Mining ist der Oberbegriff für zwei Typen von Web Mining: Web Usage Mining und Web Content Mining. Unter Web Usage Mining versteht man das Analysieren von Daten, wie sie bei der Nutzung des WWW anfallen und von den Servern protokolliert wenden. Man kann ermitteln, welche Seiten wie oft aufgerufen wurden, wie lange auf den Seiten verweilt wurde und vieles andere mehr. Beim Web Content Mining wird der Inhalt der Webseiten untersucht, der nicht nur Text, sondern auf Bilder, Video- und Audioinhalte enthalten kann. Die Software für die Analyse von Webseiten ist in den Grundzügen vorhanden, doch müssen die meisten Webseiten für die entsprechende Analysesoftware erst aufbereitet werden. Zuerst müssen die relevanten Websites ermittelt werden, die die gesuchten Inhalte enthalten. Das geschieht meist mit Suchmaschinen, von denen es mittlerweile Hunderte gibt. Allerdings kann man nicht davon ausgehen, dass die Suchmaschinen alle existierende Webseiten erfassen. Das ist unmöglich, denn durch das schnelle Wachstum des Internets kommen täglich Tausende von Webseiten hinzu, und bereits bestehende ändern sich der werden gelöscht. Oft weiß man auch nicht, wie die Suchmaschinen arbeiten, denn das gehört zu den Geschäftsgeheimnissen der Betreiber. Man muss also davon ausgehen, dass die Suchmaschinen nicht alle relevanten Websites finden (können). Der nächste Schritt ist das Herunterladen der Websites, dafür gibt es Software, die unter den Bezeichnungen OfflineReader oder Webspider zu finden ist. Das Ziel dieser Programme ist, die Website in einer Form herunterzuladen, die es erlaubt, die Website offline zu betrachten. Die Struktur der Website wird in der Regel beibehalten. Wer die Inhalte einer Website analysieren will, muss also alle Dateien mit seiner Analysesoftware verarbeiten können. Software für Inhaltsanalyse geht davon aus, dass nur Textinformationen in einer einzigen Datei verarbeitet werden. QDA Software (qualitative data analysis) verarbeitet dagegen auch Audiound Videoinhalte sowie internetspezifische Kommunikation wie z.B. Chats.
    Source
    Wissensorganisation und Edutainment: Wissen im Spannungsfeld von Gesellschaft, Gestaltung und Industrie. Proceedings der 7. Tagung der Deutschen Sektion der Internationalen Gesellschaft für Wissensorganisation, Berlin, 21.-23.3.2001. Hrsg.: C. Lehner, H.P. Ohly u. G. Rahmstorf
  3. Chen, H.; Chau, M.: Web mining : machine learning for Web applications (2003) 0.00
    0.0032061355 = product of:
      0.019236812 = sum of:
        0.019236812 = weight(_text_:information in 4242) [ClassicSimilarity], result of:
          0.019236812 = score(doc=4242,freq=10.0), product of:
            0.07392587 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.042111535 = queryNorm
            0.2602176 = fieldWeight in 4242, product of:
              3.1622777 = tf(freq=10.0), with freq of:
                10.0 = termFreq=10.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.046875 = fieldNorm(doc=4242)
      0.16666667 = coord(1/6)
    
    Abstract
    With more than two billion pages created by millions of Web page authors and organizations, the World Wide Web is a tremendously rich knowledge base. The knowledge comes not only from the content of the pages themselves, but also from the unique characteristics of the Web, such as its hyperlink structure and its diversity of content and languages. Analysis of these characteristics often reveals interesting patterns and new knowledge. Such knowledge can be used to improve users' efficiency and effectiveness in searching for information an the Web, and also for applications unrelated to the Web, such as support for decision making or business management. The Web's size and its unstructured and dynamic content, as well as its multilingual nature, make the extraction of useful knowledge a challenging research problem. Furthermore, the Web generates a large amount of data in other formats that contain valuable information. For example, Web server logs' information about user access patterns can be used for information personalization or improving Web page design.
    Source
    Annual review of information science and technology. 38(2004), S.289-330
  4. Derek Doran, D.; Gokhale, S.S.: ¬A classification framework for web robots (2012) 0.00
    0.0019117696 = product of:
      0.011470618 = sum of:
        0.011470618 = weight(_text_:information in 505) [ClassicSimilarity], result of:
          0.011470618 = score(doc=505,freq=2.0), product of:
            0.07392587 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.042111535 = queryNorm
            0.1551638 = fieldWeight in 505, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.0625 = fieldNorm(doc=505)
      0.16666667 = coord(1/6)
    
    Source
    Journal of the American Society for Information Science and Technology. 63(2012) no.12, S.2549-2554,
  5. Raan, A.F.J. van; Noyons, E.C.M.: Discovery of patterns of scientific and technological development and knowledge transfer (2002) 0.00
    0.0016897817 = product of:
      0.01013869 = sum of:
        0.01013869 = weight(_text_:information in 3603) [ClassicSimilarity], result of:
          0.01013869 = score(doc=3603,freq=4.0), product of:
            0.07392587 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.042111535 = queryNorm
            0.13714671 = fieldWeight in 3603, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.0390625 = fieldNorm(doc=3603)
      0.16666667 = coord(1/6)
    
    Source
    Gaining insight from research information (CRIS2002): Proceedings of the 6th International Conference an Current Research Information Systems, University of Kassel, August 29 - 31, 2002. Eds: W. Adamczak u. A. Nase
  6. Kong, S.; Ye, F.; Feng, L.; Zhao, Z.: Towards the prediction problems of bursting hashtags on Twitter (2015) 0.00
    0.0016727985 = product of:
      0.010036791 = sum of:
        0.010036791 = weight(_text_:information in 2338) [ClassicSimilarity], result of:
          0.010036791 = score(doc=2338,freq=2.0), product of:
            0.07392587 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.042111535 = queryNorm
            0.13576832 = fieldWeight in 2338, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.0546875 = fieldNorm(doc=2338)
      0.16666667 = coord(1/6)
    
    Source
    Journal of the Association for Information Science and Technology. 66(2015) no.12, S.2566-2579
  7. Fenstermacher, K.D.; Ginsburg, M.: Client-side monitoring for Web mining (2003) 0.00
    0.0014338273 = product of:
      0.008602964 = sum of:
        0.008602964 = weight(_text_:information in 1611) [ClassicSimilarity], result of:
          0.008602964 = score(doc=1611,freq=2.0), product of:
            0.07392587 = queryWeight, product of:
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.042111535 = queryNorm
            0.116372846 = fieldWeight in 1611, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              1.7554779 = idf(docFreq=20772, maxDocs=44218)
              0.046875 = fieldNorm(doc=1611)
      0.16666667 = coord(1/6)
    
    Source
    Journal of the American Society for Information Science and technology. 54(2003) no.7, S.625-637