Search (4 results, page 1 of 1)

Kramer, A.: Falsche Fuffziger : Textplagiaten per Software auf der Spur (2004) 0.02
```
0.017452877 = product of:
  0.052358627 = sum of:
    0.025101263 = weight(_text_:und in 3030) [ClassicSimilarity], result of:
      0.025101263 = score(doc=3030,freq=28.0), product of:
        0.09131952 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.041202344 = queryNorm
        0.27487293 = fieldWeight in 3030, product of:
          5.2915025 = tf(freq=28.0), with freq of:
            28.0 = termFreq=28.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0234375 = fieldNorm(doc=3030)
    0.027257364 = weight(_text_:der in 3030) [ClassicSimilarity], result of:
      0.027257364 = score(doc=3030,freq=32.0), product of:
        0.092036426 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.041202344 = queryNorm
        0.29615843 = fieldWeight in 3030, product of:
          5.656854 = tf(freq=32.0), with freq of:
            32.0 = termFreq=32.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.0234375 = fieldNorm(doc=3030)
  0.33333334 = coord(2/6)
```
Abstract

Das Internet birgt zwar beinahe unerschöpfliches Wissen, trug aber gerade deshalb auch zu ganz neuen Problemen bei: Schüler klauen Hausaufgaben und Studenten mogeln sich mit kopierten Arbeiten bis zum Diplom. Buchautoren veröffentlichen Werke, die ihnen nicht gehören, und Forscher kassieren Gelder, die ihnen nicht zustehen. Eine noch junge Gattung Software soll Institutionen und Unternehmen abnehmen, was diese längst nicht mehr leisten können - Plagiate enttarnen.

Content

Wie Plagiatsuche funktioniert Algorithmen zum Aufspüren von Plagiaten gibt es seit den 70er Jahren, damals wurden sie entwickelt, um Programmcode nach geklauten Passagen zu durchsuchen. Sie waren anfangs relativ einfach gestrickt, weil sich auch die Täter nicht viel mehr Mühe machten, als lediglich white- in for-Schleifen zu ändern, Variablen auszutauschen oder Kommentare zu löschen beziehungsweise hinzuzufügen. Ansätze zum Auffinden von Plagiaten in natürlichsprachlichen Texten sind weitaus aufwendiger. Sie werten unter anderem die Schnittmenge gemeinsamer Satzbausteine (n-Gramme), die längste gemeinsame Textsequenz, ungefähr übereinstimmende Passagen oder den Anteil gemeinsamer Inhaltswörter aus. Scriptum, PI@giarism und vermutlich noch weitere Programme fahnden mit Hilfe von n-Gramm-Statistiken nach gemeinsamen Wortketten. Das Verfahren wertet Wortfolgen der Länge n aus, Satzzeichen und typografische Informationen wie Überschriften oder Fettdruck verwirft es. Die meisten Ansätze verwenden Dreiwortfolgen, so genannte Trigramme. Das auf eine Wortkette reduzierte Dokument wird in überlappende Folgen aus jeweils drei Wörtern eingeteilt {'Vor diesem Hintergrund', 'diesem Hintergrund verzichteten', 'Hintergrund verzichteten die', 'verzichteten die Grünen', ...}. Zur Berechnung der Ähnlichkeit werden die Trigramm-Sets S von Dokument A und Dokument B miteinander verglichen. Die Schnittmenge von S(A) und S(B), geteilt durch deren Vereinigungsmenge, zeigt an, inwieweit die Texte übereinstimmen. Neben diesem so genannten Jaccard-Koeffizienten existieren weitere Berechnungsmethoden und Abweichungen von diesem Modell.
Je länger die übereinstimmenden Sequenzen sind (also je größer n ist), desto eher handelt es sich um ein Plagiat. Eine komplizierte Wortfolge wie "aber das Ergebnis liegt immerhin über dem Bundestrend" kommt natürlich seltener an zwei Orten vor als die simplere Folge "deutlich größer als". Dennoch haben sich Trigramme durchgesetzt. Einerseits steigt bei n-Grammen mit acht oder mehr Wörtern die Wahrscheinlichkeit, überhaupt keine Übereinstimmung zwischen zwei Texten zu finden; es reicht schon, bei einer plagiierten Phrase von 15 Wörtern dasjenige in der Mitte auszutauschen. Andererseits benötigen Trigrammstatistiken weniger Speicherplatz und Rechenleistung. Da sich langkettige Phrasen seltener wiederholen, ist die Zahl verschiedener n-Gramme bei n = 8 notwendigerweise größer als bei n = 3. n-Gramme mit variabler Wortanzahl sind flexibler. Dabei erhalten längere Segmente ein höheres Gewicht als kurze, denn sonst würde eine übereinstimmende Folge aus fünf Wörtern genau so bewertet wie fünf einzelne Wörter. Wie viel Text mindestens übereinstimmen muss, damit das Dokument als verdächtig gilt, hängt von empirischen Werten ab, die jeder Anbieter hütet wie seinen Augapfel. Die kommerziellen Dienste verlinken längere Textpassagen auf mögliche Quellen, was durch überlappende Trigramme erreicht werden kann. Ein anderer Algorithmus, der übereinstimmende Textpassagen findet, heißt Greedy-String-Tiling (GST). Er prüft Dokumente paarweise, weshalb er sich für den Vergleich kleinerer Textsammlungen eignet. Ein Einsatz in großflächig suchenden Diensten ist aufgrund des Aufwands unwahrscheinlich. Der Algorithmus sucht die längste gemeinsame und nicht überlappende Zeichenkette zweier Dokumente (longest common substring) bei einem Minimum von drei aufeinander folgenden Wörtern. Davon können verschiedene quantitative Maße abgeleitet werden wie die minimale, maximale und durchschnittliche Länge der Textblöcke (tiles). Ein auf der Länge der Blöcke beruhendes Ähnlichkeitsmaß informiert, wie viel entlehnt wurde. Tauscht der Autor an einer Stelle ein Wort durch ein Synonym aus, ist die übereinstimmende Textpassage unterbrochen. Auch dafür gibt es einen mit GST verwandten Ansatz, den vermutlich Turnitin verwendet, um eine eingegrenzte Treffermenge näher zu untersuchen. Das Verfahren aus der Rechtschreibkorrektur (approximate string matching) erlaubt beim Vergleich der Texte einfache Editierungsoperationen wie das Löschen, Einfügen und Austauschen einzelner Wörter. Der Algorithmus entnimmt dem Text Bausteine aus sechs Wörtern und entfernt jeweils eins der Wörter. Mit den sechs Folgen aus jeweils fünf Wörtern wird der Text durchsucht. Eine Übereinstimmung zeigt an, dass ein Wort gelöscht wurde, kann aber auch, vom anderen Dokument ausgehend, ein eingefügtes Wort aufzeigen. Findet der Algorithmus keine Übereinstimmung, rutscht er ein Wort weiter im Text und führt die Suche erneut aus.

Kramer, A.: Such, Programm! : Elf kostenlose Desktop-Tools schnüffeln um die Wette (2005) 0.02

0.016999396 = product of:
  0.050998185 = sum of:
    0.025299696 = weight(_text_:und in 4560) [ClassicSimilarity], result of:
      0.025299696 = score(doc=4560,freq=4.0), product of:
        0.09131952 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.041202344 = queryNorm
        0.27704588 = fieldWeight in 4560, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0625 = fieldNorm(doc=4560)
    0.025698489 = weight(_text_:der in 4560) [ClassicSimilarity], result of:
      0.025698489 = score(doc=4560,freq=4.0), product of:
        0.092036426 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.041202344 = queryNorm
        0.27922085 = fieldWeight in 4560, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.0625 = fieldNorm(doc=4560)
  0.33333334 = coord(2/6)

Abstract: Dass die Windows-Suche zu langsam und der Windows-Indexdienst zu umständlich ist, hat der geplagte Nutzer früher zähneknirschend in Kauf nehmen müssen. Mittlerweile gibt es massenweise kostenlose Suchprogramme, die allesamt mehr leisten als die Systembeigaben und zum Teil sogar das Web durchsuchen

Kramer, A.: Datendetektive : Volltextsuchmaschinen trotzen dem Chaos auf der Festplatte (2004) 0.01

0.012020387 = product of:
  0.03606116 = sum of:
    0.017889587 = weight(_text_:und in 2825) [ClassicSimilarity], result of:
      0.017889587 = score(doc=2825,freq=2.0), product of:
        0.09131952 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.041202344 = queryNorm
        0.19590102 = fieldWeight in 2825, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0625 = fieldNorm(doc=2825)
    0.018171575 = weight(_text_:der in 2825) [ClassicSimilarity], result of:
      0.018171575 = score(doc=2825,freq=2.0), product of:
        0.092036426 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.041202344 = queryNorm
        0.19743896 = fieldWeight in 2825, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.0625 = fieldNorm(doc=2825)
  0.33333334 = coord(2/6)

Abstract: Wo war noch mal die Adressliste für das nächste Klassentreffen, wie lautet das Angebot vom Partyservice und wer hat überhaupt schon alles zugesagt? Das System braucht schon für eine einfache Recherche im Volltext aller Dateien extrem lange. Suchprogramme von Drittanbietern arbeiten nicht nur schneller, sondern auch besser

Kramer, A.: Herrscher über das Chaos : Strategien, um im Dokumentenwust den Überblick zu wahren (2006) 0.01

0.012020387 = product of:
  0.03606116 = sum of:
    0.017889587 = weight(_text_:und in 181) [ClassicSimilarity], result of:
      0.017889587 = score(doc=181,freq=2.0), product of:
        0.09131952 = queryWeight, product of:
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.041202344 = queryNorm
        0.19590102 = fieldWeight in 181, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.216367 = idf(docFreq=13101, maxDocs=44218)
          0.0625 = fieldNorm(doc=181)
    0.018171575 = weight(_text_:der in 181) [ClassicSimilarity], result of:
      0.018171575 = score(doc=181,freq=2.0), product of:
        0.092036426 = queryWeight, product of:
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.041202344 = queryNorm
        0.19743896 = fieldWeight in 181, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.2337668 = idf(docFreq=12875, maxDocs=44218)
          0.0625 = fieldNorm(doc=181)
  0.33333334 = coord(2/6)

Abstract: Volltextsuchmaschinen sind längst nicht mehr in der Lage, das Informationsbedürfnis angesichts ständig wachsender Datenmengen zu erfüllen. Gerade Unternehmen suchen nach Alternativen und Ergänzungen, um ihre Wissensressourcen effizient zu nutzen. Verschiedene Wissensmanagement-Lösungen erfreuen sich daher wachsender Beliebtheit.

Search (4 results, page 1 of 1)

Themes