Как защититься от парсинга и не потерять позиции в поисковой выдаче

Парсинг – автоматический сбор данных с различных ресурсов. В общих чертах это работает так: программа-бот обращается к странице целевого сайта, разбирает на части его HTML-код и забирает из него нужную информацию.

Чаще всего этот прием применяют конкуренты: если парсить одну и ту же группу сайтов, можно получать постоянно обновляемые данные о ценах, товарных запасах, изменениях в товарной группе. Также парсится и внутренняя часть сайта: семантика, элементы кода, метатеги и т.д.

Доступ ботам к сайту можно заблокировать. Но поисковые системы также являются своего рода парсерами – они отслеживают новую информацию и индексируют ее. Потому подобная блокировка может привести к потере позиций в поисковой выдаче.

4 способа защиты от парсинга без последствий для SEO

  1. Добавление ссылки. При копировании контента в тексте появляется ссылка на источник. Метод не защищает от кражи информации. Но если посмотреть обратные ссылки на свой сайт, можно увидеть, кто сделал копипаст. В теории копипастер ссылку может удалить, но часто ее просто не замечают.
  2. Персонализированный контент. Чем чаще в тексте будет упоминаться бренд, название продукта и его уникальные характеристики, тем сложнее и дольше будет правиться копипаст. Если текст будет скопирован ботами, узнать копипастера можно будет с помощью Google Alerts, настроив его под уникальный запрос.
  3. Ловушки для ботов – «honeypot». Приманки, представляющие собой ссылку, по которой не будут переходить пользователи, но будут переходить боты. Это позволяет собрать данные о методах сбора роботами информации, чтобы в дальнейшем их блокировать по определенным параметрам.
  4. Использование сервисов DMCA protected, CloudFlare, Distil Networks.

Что НЕ нужно использовать для защиты:

1. Капча (captcha). Запрос на ввод перенаправляется на сторонний ресурс, где капчу вбивают вручную, после чего запрос перенаправляется обратно. Для парсеров обход капчи не является проблемой, но раздражает пользователей и добавляет проблемы с индексацией.

2. Запрет на выделение текста или его копирование в буфер. Защищает контент только от ручного копирования, но не защищает от кражи контента из HTML-кода.

Важно! Все эти методы в большей степени направлены не столько на защиту контента, сколько на то, чтобы определить копипастера. Если кража контента зафиксирована, в первую очередь попробуйте договориться с ним об удалении контента напрямую. Это сэкономит деньги и время.

Не получилось – обратитесь к хостерам, а также в поддержку поисковых систем. На международном уровне можно воспользоваться законом DMCA, суть которого – защита авторского права в области цифровых технологий. Действует в США, но могут подать жалобу и нерезиденты.