Doubletten im Internet finden

Ich habe auf meiner Homepage eine kleine HTML-Seite / „Web-App“ wiederentdeckt. Sie soll „Doubletten“ (Plagiate, doppelter Content ect.) eines vorgegeben Textes im Internet finden.

Das geht ganz einfach: auf der Doublettenfinder Seite einfach den Vorgabe-Text in die Textbox kopieren und auf „prüfen“ klicken. Dann werden bestimmte Wörter aus dem Text ausgewählt (die Anzahl kann in der Drop-Down-Box eingestellt werden) und eine Google-Suche wird vorgenommen. Die „exakt“-Checkbox bestimmt, ob alle Suchbegriffe in den Treffern vorkommen sollen. In meinem Experimenten ist es meist besser, sie aktiviert zu lassen, wenn jedoch kein oder kein gewünchster Treffer angezeigt wird, dann mal deaktiviert probieren.

Der dahinter liegende Algorithmus zur Auswahl ist einfach: es sortiert die in der Textbox enthaltenen Wörter nach ihrer Häufigkeit und Wortlänge. Dann werden die seltesten, längsten Wörter ausgewählt und als Suchbegriff ausgewählt. Die Idee ist, dass diese dann spezifische Fachbegriffe sind. Das klappt im Deutschen übrigens besser als im Englischen, Stichwort: zusammengesetzte Substantive.

Obwohl dieser Ansatz recht naiv ist, funktioniert er jedoch erstaunlich gut. Wenn man per Hand noch ein zwei themen-relevante Such-Wörter hinzufügt, greift man der Sache unter die Arme.

Update: Ich werde mal probieren, erst nach der Wortlänge und dann nach der Häufigkeit zu sortieren. Mal sehen, wie dann die Ergebnisse sind.

Update 2: Ich habe das mal eingearbeitet. Die Unterschiede sind nicht so groß. Aber trotzdem interessant, da mal ein bisschen rumzuprobieren.

Andere Ansätze: (frei und ohne zusätzliche Software)

plagiatefinder.de zerlegt den Text in Wortgruppen und sucht diese im Internet. Dabei entstehen wesentlich mehr Google-suchen, die man „bewerten“ muss.
SeeSources.com erläutert die Vorgehensweise nicht. Spuckt aber relevante Links und ähnliche Textstellen aus
PlagAware deutsprachig, Einschränkung auf 25 Abfragen pro Monat und IP