Антиплагіат модуль

Антиплагіат модульДесь з місяць назад в мене замовили скрипт антиплагіат модуля. Спочатку я зробив його по алгоритму схожому на текстброкерівський. Але через кілька днів замовник знайшов програму Advego Plagiatus і захотів такий алгоритм як там…

Як я зрозумів вона працює наступним чином:

  • Розбиває весь тест на невеликі словосполучення
  • Шукає їх в гуглі, використовуючи “точноє совпадєніє”
  • Збирає в массив урли з видачі гугля і потім сканує окремо кожну сторінку, щоб визначити відсоткове співвідношення схожого тексту

Ніби нічого складного, от тільки це десктопна аплікуха, а не скрипт :). Довелось трохи погратися… В результаті вийшов скрипт, який:

  • Шукає використовуючи Yandex XML (всі проксі треба реєструвати у Яндексі) та Google JSON Search API
  • Підтримує HTTP/HTTPS, SOCKS4, SOCKS5 PROXY (щоб обійти обмеження на кількість запитів з одного IP)
  • Аля багатопоточний (використав мульти curl, можна було сокетами)

Сам модуль оформлений, як окремий клас. Всі налаштування зберігаються в .ini файлі. Для зміни налаштувань зробив простеньку веб-морду:
Налаштування

Ось приклад результату роботи скрипта. Я закинув у пошук статтю з свого блоґу, як видно поки що її ніхто не скопіпастив:
Результат роботи скрипта

Що ще розказати? Працює доволі швидко. Основне навантаження йде на регулярки, які вирізають з сторінок (тих на яких шукається відсоткове співвідношення схожого тексту) html теги і вилучають зайві символи. Ніби все :)

2 thoughts on “Антиплагіат модуль

  1. Степан, почем скрипт продаете? Насколько качественно он ищет плагиат?

    • все зависит от настроек (частота вхождения и т.д.). настраивается через веб интерфейс. чем больше фраз дерагется из текста тем точнее выдача и полнее результат.

      о цене можно поговорить. пишите на stepan.tanasiychuk@gmail.com

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>