Десь з місяць назад в мене замовили скрипт антиплагіат модуля. Спочатку я зробив його по алгоритму схожому на текстброкерівський. Але через кілька днів замовник знайшов програму Advego Plagiatus і захотів такий алгоритм як там…
Як я зрозумів вона працює наступним чином:
- Розбиває весь тест на невеликі словосполучення
- Шукає їх в гуглі, використовуючи “точноє совпадєніє”
- Збирає в массив урли з видачі гугля і потім сканує окремо кожну сторінку, щоб визначити відсоткове співвідношення схожого тексту
Ніби нічого складного, от тільки це десктопна аплікуха, а не скрипт :). Довелось трохи погратися… В результаті вийшов скрипт, який:
- Шукає використовуючи Yandex XML (всі проксі треба реєструвати у Яндексі) та Google JSON Search API
- Підтримує HTTP/HTTPS, SOCKS4, SOCKS5 PROXY (щоб обійти обмеження на кількість запитів з одного IP)
- Аля багатопоточний (використав мульти curl, можна було сокетами)
Сам модуль оформлений, як окремий клас. Всі налаштування зберігаються в .ini файлі. Для зміни налаштувань зробив простеньку веб-морду:
Ось приклад результату роботи скрипта. Я закинув у пошук статтю з свого блоґу, як видно поки що її ніхто не скопіпастив:
Що ще розказати? Працює доволі швидко. Основне навантаження йде на регулярки, які вирізають з сторінок (тих на яких шукається відсоткове співвідношення схожого тексту) html теги і вилучають зайві символи. Ніби все 🙂
Степан, почем скрипт продаете? Насколько качественно он ищет плагиат?
все зависит от настроек (частота вхождения и т.д.). настраивается через веб интерфейс. чем больше фраз дерагется из текста тем точнее выдача и полнее результат.
о цене можно поговорить. пишите на stepan.tanasiychuk@gmail.com