Поиск и устранение дубликатов страниц на сайте

Автор:
4 Март, 2017

Для многих владельцев сетевых ресурсов дублированный контент становится актуальной проблемой, с которой нужно бороться самыми эффективными способами.

В последнее время все больше пользователей смогли ощутить на себе влияние обновлений в алгоритме Google Panda. Эти алгоритмы направлены на выявление сайтов, которые злоупотребляют дублированным и некачественным контентом. Если ранее страдали только откровенные плагиаторы, то теперь поиск дублированного контента коснулся и тех ресурсов, которые только иногда размещают на своих страницах статьи рекламного характера.

Поиск и устранение дубликатов страниц на сайте

Самой большой неприятностью для продвижения сайтов теперь становятся внутренние дубли, которым ранее не уделялось большого внимания, но теперь они могут оказать негативное воздействие на индексацию ресурса поисковыми машинами.

Выделяется несколько видов дублей:

  • полное дублирование проявляется в том, что две страницы на одном сайте имеют полностью идентичное содержание, но размещены по разным адресам;
  • частичное дублирование говорит само за себя – контент на них схож, но не идентичен;
  • третий вариант дублей называют внешним, так как они размещены на разных доменах. Встречаются его полные и частичные формы.

Важность поиска дублированного контента

Поисковики могут игнорировать некоторые дубликаты, представленные на одном сайте. Если они обнаруживают, что на ресурсе есть две идентичные странички, то одну из них они не сохраняют в индексе или могут ее оттуда удалить, если она ранее была проиндексирована. И не факт, что нужная страница останется в индексе.

Но в некоторых случаях попадают все страницы в индекс, и тогда полезный ссылочный вес распределяется и на дубли тоже, а страница, которую надо продвигать, теряет свои позиции и вес.

При наличии дублированных страниц на сайте и на других доменах общая уникальность контента сайта будет падать, что приведет к понижению позиций в выдачи поисковиков, а того ещё хуже — сайт попадет под фильтр АГС.

В результате возрастания дублированных страниц в пределах одного сайта, он также может существенно потерять свои позиции в результатах поиска, а значит, снизится трафик посетителей, упадет релевантность страниц вашего сайта.

Причины появления дублей:

  • дубликаты могут стать следствием работы CMS – движка;
  • причина может скрываться в шаблонном увеличении числа страничек одного сайта;
  • в некоторых случаях причиной становится размещение ссылок на дубли сайта на стороннем ресурсе.

Как найти и устранить дублированный контент

Поиск и устранение дублированных страниц может происходить с использованием различных инструментов:

  1. Найти дубли страниц вручную. Этот способ подойдет тем, у кого не слишком много контента на сайте. В админпанели зайдите во «Все записи» и внимательно пролистайте страницу на наличие дублей.
  2. Сервисы «Яндекс-вебмастер» и Google Webmaster Tools помогут выявить дубли страниц.

Специалистами Google был предложен самый эффективный и быстрый способ решения этой проблемы. Google Webmaster Central специально разработан для того, чтобы исключать нежелательный контент.

Он был создан для тех вебмастеров, которые должны обеспечить своему ресурсу размещение в определенной поисковой вертикали. Для этих целей используется Google Webmaster Tools. Благодаря этому функционалу можно устанавливать основной домен сайта и подвергать дополнительной обработке разнообразные параметры URL.

GWC позволяет быстро находить дубликаты содержания и сообщает пользователю о количестве дублей или страниц с идентичными заголовками или мета-описаниями. Разработан алгоритм поиска и устранения дублей при помощи этого сервиса:

  • во-первых, следует войти в GWC аккаунт;
  • после чего из списка сайтов (если их несколько) нужно выбрать искомый и применить к нему пункт меню “Оптимизация HTML”, который расположен в левой части экрана;
  • если на сайте присутствует дублированный контент, то будет представлена таблица, где он будет указан;
  • благодаря удобным ссылкам можно увидеть полный список страниц, на которых расположены дубли. Если эти страницы не были закрыты от индексации при помощи robots.txt, то именно они могут рассматриваться в качестве дубликатов;

Последний шаг – исключение нежелательного контента из индексации.

Оптимизация с помощью Google Webmaster Central позволяют исключить дублированные страницы только из поисковых систем Google.

Воспользуйтесь программой Xenu’s Link Sleuth. Для проверки сайта открываете новый проект: выбираем в меню «File» «Check URL» или «Проверить URL», вводим адрес сайта и кликаем «OK». Далее программа обрабатывает все URL вашего сайта. После проверки экспортируем результаты в текстовый редактор и ищем дубли.

Устранение дублей с помощью канонических URL

Дублированные страницы сайта, работающего на WordPress легко удаляются автоматически с помощью плагина All in One SEO Pack. В настройках включите опцию «Канонические URL».

Если у вас интернет магазин и нет возможности удалить нечеткие дубли (например, страницы с товаром отличаются в описании несколькими предложениями), поможет использования тега canonical, который применяется для нечетких копий. Необходимо для всех копий, кроме основной страницы, прописать атрибут rel=”canonical.

Пример кода: link rel=”canonical” href=”http://vash site.ru/страница-дубль”/

Код должен находиться до закрытия тега </head>.

Устранение дубликатов с помощью настройки файла robots.txt и определения зеркала сайта

У каждого сайта в корневой директории необходимо прописать файл robots.txt. Правильная его настройка поможет, в некоторой степени, закрыть дублированные страницы от посещения поисковиками.

После того, как вы создали сайт и открыли его для поисковиков, необходимо определиться с главным зеркалом сайта. В панелях вебмастеров Яндекса и Google, где вы должны зарегистрировать ваш сайт и подтвердить права, укажите ваш выбор —адрес сайта с www или без www.

Пример: http://www.vash site.ru или http://vash site.ru.

На этом можно заканчивать статью. Перечислены основные методы поиска и устранения дублированного контента. Используйте их, и страницы вашего сайта не потеряют релевантности и позиций в выдачи поисковиков.

Читайте также:


Комментарии:

Комментарии