[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]
  • Страница 1 из 1
  • 1
Форум » WEB дизайн и сайтостроение » Web-мастеру » Правильный Robots.txt для DLE
Правильный Robots.txt для DLE
AdminДата: Воскресенье, 21.11.2010, 20:04 | Сообщение # 1


Сообщений: 457
Награды: 0
Репутация: 24
Статус: Offline
robots.txt — файл ограничения доступа к содержимому роботам на http-сервере. Файл должен находиться в корне сайта (то есть иметь путь относительно имени сайта сайт.ру/robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.

Как известно, в конце прошлого года в поисковой системе Яндекс был введен новый алгоритм индексации страниц под названием АГС-30(АГС-30 – это новый алгоритм фильтрации некачественных сайтов, называемых в кругах оптимизаторов как ГС.). Он основывается более, чем на 100 новых параметрах.
Естественно, что никому не известно, как именно работают поисковые алгоритмы, но произвести некоторые наблюдения и получить свою картину происходящего мы можем и самостоятельно.

Можно сказать сразу, что данный алгоритм никак не затронул старые сайты, которым больше двух-трех лет. Но молодым сайтам, что мы можем видеть по расположенным на хостинге сайтам, попало от АГС по полной программе. Одни сайты лишились тысяч страниц в индексе Яши, некоторые выпали из выдачи почти полностью, другие сильно сдали позиции в поисковой выдаче. Но некоторое количество все же выстояли против новых алгоритмов и, более того, даже продолжают расти.

На основе данных наблюдений мы можем уделить внимание следующему аспекту: Яндекс ныне не терпит повторяющихся страниц на сайте (дублей), страниц без контента либо служебных. Такие страницы обязательно (!) нужно закрывать от индексации и следить за тем чтобы одна страница не могла быть доступна по другому адресу (URL). Часто подобную ситуацию позволяют CMS сайтов, например в DLE можно размещать одну новость в несколько разных категорий и получается, что статья-то одна и та же, а URL:

Code
http://сайт.ру/категория-первая/название_новости.html
http://сайт.ру/категория-вторая/название_новости.html

...разный.

Если вам дорог ваш сайт, старайтесь не допускать такого.

Также подобную проблему могут вызвать календарь, теги, метки, архивы...
Но тут мы можем себе помочь:
Создаем текстовый файл robots.txt
Копируем туда следующий текст:
Код:

Code
User-agent: Yandex
     Disallow: /user/
     Disallow: /backup/
     Disallow: /engine/
     Disallow: /language/
     Disallow: /templates/
     Disallow: /upgrade/
     Disallow: /uploads/
     Disallow: /autobackup.php
     Disallow: /admin.php
     Disallow: /index.php?do=addnews
     Disallow: /index.php?do=feedback
     Disallow: /index.php?do=lostpassword
     Disallow: /index.php?do=pm
     Disallow: /index.php?do=register
     Disallow: /index.php?do=stats
     Disallow: /index.php?do=search
     Disallow: /index.php?subaction=newposts
     Disallow: /?do=lastcomments
     Disallow: /statistics.html
     Host: ваш-сайт.ру

     User-agent: *
     Disallow: /backup/
     Disallow: /user/
     Disallow: /engine/
     Disallow: /language/
     Disallow: /upgrade/
     Disallow: /autobackup.php
     Disallow: /admin.php
     Disallow: /index.php?do=addnews
     Disallow: /index.php?do=feedback
     Disallow: /index.php?do=lostpassword
     Disallow: /index.php?do=pm
     Disallow: /index.php?do=register
     Disallow: /index.php?do=stats
     Disallow: /index.php?do=search
     Disallow: /index.php?subaction=newposts
     Disallow: /?do=lastcomments
     Disallow: /statistics.html

     Sitemap: http://ваш-сайт.ру/sitemap.xml

!!!Важный момент!!! - директиву Host понимает только Yandex поэтому для него и для других поисковых систем нужно разделять директивы.

В двух местах в нем находим текст "ваш-сайт.ру" и заменяем на домен вашего сайта, например sait.sait.ru или, если у вас уже есть домен второго уровня, то на sait.ru

 
Форум » WEB дизайн и сайтостроение » Web-мастеру » Правильный Robots.txt для DLE
  • Страница 1 из 1
  • 1
Поиск:





sitemap.xml|sitemap-forum.xml