Каждый, кто создает сайт на Joomla рано или поздно сталкивается с проблемой дубликатов страниц сайта. Давайте посмотрим на эту проблему изнутри, разберемся, что это за дублирующиеся страницы, как поисковые системы реагируют на такие страницы и как не запутаться в дубликатах страниц.
Дубликаты страниц – что это.
Дубликаты страницы – идентичные страницы, доступные по разным URL на вашем сайте. Вообще, дублирующиеся страниц – уязвимое место во многих системах управления контентом, не только в Joomla. Подобные страницы совершенно безвредны пока дело не касается их индексирования поисковыми роботами. Если вы следите за индексированием страниц своего сайта и хотите свести до минимума появление дубликатов страниц в результатах поиска, то следует хорошо продумать структуру сайта.
Ведь главная причина появления дублирующихся страниц – неправильная структура сайта. Первое, что надо продумать – иерархию категорий и пунктов меню. Если вы заранее создадите категории (которые, возможно понадобятся в будущем), то вы сможете избежать появления дубликатов страниц.
Рассмотрим эту ошибку на примере. Предположим, у вас на сайте есть категория «Новости» с подкатегориями «Политика», «Экономика» и т.д. Все публикуемые материалы вы размещаете в подкатегориях. Если вы создадите пункты меню только для дочерних категории, то материал будет иметь такой адрес:
https://website.com/politics/23-material
https://website.com/1-newsi/politics/23-material
https://website.com/1-newsi/2-politics/23-material
https://website.com/index.php?option=com_content&task=view&id=23&Itemid=1
Вариантов образования таких URL масса, и все это будут URL одной и той же страницы. Это пример того, как делать не надо. Еще одна проблема дубликатов страниц – это то, что поисковые системы индексируют технические копии документов по ссылкам «Печать», «PDF», «Поделиться с друзьями».
Когда вы только начинаете планировать свой сайт, не пожалейте времени и хорошенько продумайте его структуру, определите основные категории и подкатегории. Тогда с развитием сайта не нужно будет менять структуру, вы просто добавите дополнительные секции, если это будет необходимо. Реструктурирование уже существующего (активно развивающегося) сайта – вещь неблагодарная: займет уйму времени, да и к тому же сайт гарантированно потеряет имеющиеся позиции в списке результатов поиска (потому что многие страницы, если не все, поменяют свой адрес), что приведет к падению посещаемости.
Как поисковые системы находят дубликаты страниц?
Виновниками здесь выступают сторонние расширения и компоненты, которые разработчики активно устанавливают на свои Joomla-сайты. К примеру, модуль новостей на главной странице может выдавать различные адреса одного и того же материала. Дублирующиеся страницы можно посмотреть по карте сайта, если установлен компонент Xmap. Если ваш сайт уже проиндексирован, то найти дубликаты страниц не так уж и сложно – достаточно скопировать пару уникальных предложений со страницы и вставить этот материал в кавычках в поисковом запросе Google. Если ваш сайт еще не проиндексирован, то помочь вам может XENU (при условии, что сайт ваш не велик). XENU найдет всевозможные ссылки сайта.
Почему следует избегать дубликатов страниц?
Поисковые системы не любят и стараются не индексировать сайты с большим количеством дублирующихся страниц. Необходимость в выводе таких страниц в результатах поиска весьма сомнительна. При оптимизации страниц по ключевым словам выбираются наиболее подходящие страницы сайта и их содержимое оптимизируется. Если эти страницы имеют дупликаты, то при очередном обновлении поисковые системы могут спутать дублирующуюся страницу с основной, что приведет к резкому падению позиций и оседанию трафика.
6 способов избежать дублирующихся страниц
Каждый сайт по-своему уникален и не хотелось бы оставлять какой-то за бортом. Рассмотрим наиболее популярные методы, которые помогут в 99,9% случаях. Можете использовать любой понравившийся вариант или скомбирировать сразу несколько из них. Эти методы подойдут и для других систем управления контентом.
Все эти методы сработают, если у вас включены стандартные SEF и перенаправление URL в глобальных настройках Joomla.
1. Плагин StyleWare Content Canonical.
Этот плагин решает проблему нескольких URL одной и той же страницы. Так что если у вас есть, к примеру, страница с двумя URL component/content/article/32-something.html и something.html, оба URL будут индексироваться с одного URL (something.html).
2. Файл Robots.txt.
Этот файл входит в стандартный пакет Joomla, находится в корневой директории по адресу yourwebsite.com/robots.txt. В robots.txt прописана инструкция для поисковой системы о том, как индексировать сайт. С помощью этого файла можно отключить части сайта. Сделать это можно с помощью строки:
Disallow: /*? #каждая ссылка, содержащая символ ? не будет индексироваться *
Лишь одна строка избавит вас от большого количества проблемных ссылок, таких как:
- материалы для печати;
- ссылка на rss-ленту;
- результаты поиска на странице сайта;
- нумерация страниц;
- а также от других проблем, в зависимости от установленных расширений;
Использовать такую строку или нет - решать вам. Помните, что слишком большой файл robots.txt считается полностью разрешающим. Следите за тем, чтобы случайно не закрыть важные страницы сайта.
3. Перенаправление 301.
Действует тогда, когда у существующих страниц поменялись URL. Подобное перенаправление прописывается в файле .htaccess. Поисковые системы будут тогда знать, что документ перемещен на другой адрес. Этот метод позволяет сохранить индексируемость и посещаемость, а также PageRank.
Перенаправление 301 также используется и для склеивания дублирующихся страниц. Например, хорошо всем известные дубликаты главной страницы Joomla-сайтов: /home или /homepage. Откройте файл .htaccess и введите там строку:
Redirect 301 /index.phphttp://site.com/
Также перенаправление 301 можно прописать в файле index.php следующим образом:
<?phpif($_SERVER['REQUEST_URI'] == '/index.php') {header("Location: /",TRUE,301);exit();}?>
Ниже приведен классический пример URL сайта с и без www:
RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.example.com$ [NC]
RewriteRule ^(.*)$ http://example.com/$1 [R=301,L]
* example.com замените на URL своего сайта.
4. Мета-тег «robots».
Еще один способ борьбы с появлением дубликатов страниц – использование мета-тега «robots»:
<meta name="robots" content="noindex"/>
Этот метод работает в Google теперь намного лучше, чем блокирующие команды в файле robots.txt.
Для того чтобы скрыть результаты поиска при использовании стандартного компонента com_search, нужно добавить в файл index.php вашего шаблона:
<?php $option = JRequest::getVar('option', null); if ($option == 'com_search') : ?> <meta name="robots" content="noindex"/> <?php endif; ?>
5. Удаление URL с помощью панели вебмастера.
Для сокращения дубликатов страниц, можно удалить URL этих страниц вручную в панели веб-мастера от Google.
https://www.google.com/webmasters/tools/home?hl=en
6. Заголовки X-Robots-Tag.
Google рекомендует использовать X-Robots-Tag как альтернативу 4-му методу:
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
...
X-Robots-Tag: noindex
...
Из вышеперечисленного становится ясно, что методов борьбы с дупликатами страниц много, надо просто понимать, как каждый из них работает, чтобы выбрать наиболее подходящий вариант.