Файл robots.txt для wordpress

Відео: WordPress SEO # 2. Налаштування robots.txt

Файл Robots.txt для WordPress

Вітаю Вас на своєму блозі! Тема цієї статті - файл robots.txt для WordPress. Прочитавши цю статтю, ви дізнаєтеся для чого цей файл потрібен і як його правильно зробити своєму блогу на движку WordPress.

Для чего нужен файл robots.txt

Раніше, коли всі сторінки сайту були статичними і представляли собою набір HTML сторінок, пошуковим роботам було дуже легко просканувати їх. Такі сайти були не великими, мали всього кілька сторінок, пов`язаних між собою посиланнями.

Але з часом сайти стали створювати за допомогою CMS, тобто, всі сайти стали мати свій движок. Що дозволило створювати більш об`ємні сайти практично будь-якому користувачеві, навіть не має досвіду web програмування.

Але ці зміни призвели до того, що пошукові роботи вже не могли так само легко перевіряти всі сторінки сайту, щоб пошукові системи їх проиндексировали. До того ж для роботи сайту на CMS потрібно база даних, що так само ускладнює завдання пошуковим роботам, так як для її роботи потрібно багато файлів, які не містять ніякого корисного контенту та не потребують індексації.

Відео: Уроки WordPress - правильний файл robots.txt WordPress для Яндекса і Google

Ще на сучасному сайті можливо кілька сторінок з однаковим контентом, наприклад головна сторінка, сторінка з повним описом новини, сторінка архіву записів, сторінка останніх записів.
Пошуковому роботу в такій ситуації важко розібратися, які сторінки потрібно індексувати, а які ні. У цій ситуації можуть потрапити в індекс абсолютно не потрібні сторінки, а ті, які повинні туди потрапити, залишаться проіндексованими.

Ще мінус такої ситуації полягає в тому, що пошукові системи можуть прийняти багато однакових сторінок, як копіювання контенту і ви попадете під фільтр пошукових систем, що вкрай небажано. Аби цього не сталося, потрібно допомогти пошуковому роботу проіндексувати тільки потрібні вам сторінки і зробити це можна за допомогою Файл robots.txt.

Це текстовий файл, який лежить в корені сайту та вказує пошуковому роботу, які сторінки індексувати, так як при заході на сайт, він спочатку читає цей файл. У ньому має бути прописано, які сторінки додавати в індекс пошукача, а які ні.

Обов`язково потрібно заборонити індексування однакового контенту, також потрібно заборонити індексацію сторінок з плагінами і темами вашого блогу, і інші сторінки зі службовими і тимчасовими файлами. Втім можна заборонити індексацію і всього сайту, наприклад, якщо він потрібен вам тільки для особистих потреб і ви не зацікавлені в тому, щоб його сторінки потрапили в видачу пошукача.

Навіть якщо у вас в збірці WordPress вже є файл robots.txt, його обов`язково потрібно перевірити і налаштувати правильно з урахуванням ваших побажань. Так як неможливо зробити його повністю універсальним для всіх сайтів. Якщо у вас взагалі не буде файлу robots.txt на сайті, то пошукові роботи будуть індексувати всі сторінки, які є на сайті.

Як створити файл robots.txt

Створити файл robots.txt можна в будь-якому текстовому редакторі, але рекомендую редактор Notepad ++ або йому подібний. Взагалі, якщо ви будете редагувати файли свого блогу за допомогою редакторів, то краще користуватися саме такими, так як вони правильно розпізнають синтаксис і кодування файлів.

Відео: Файл robots txt для сайту. Як створити правильний robots txt

І так створіть текстовий файл і назвіть його robots.txt, майте на увазі, що назва файлу повинна складатися з малих літер. Далі потрібно заповнити цей файл правилами для пошукових роботів. Нижче я опишу основні команди і правила файлу robots.txt.

Команди для файлу robots.txt

User-Agent - це команда файлу robots.txt, яка вказує пошуковому роботу для якого пошукача дію правила, які йдуть нижче цієї команди.
Якщо потрібно прописати правила для усіх пошукових систем, то таку команду потрібно написати так:

User-Agent: *



Якщо вам потрібно прописати правила для якогось одного пошукача, то потрібно вказати його в цій команді, наприклад для Яндекса це буде виглядати так:

User-Agent: Yandex

Для різних пошукових систем використовуються різні назви, ось кілька з них:

Яндекс - Yandex
Google - GoogleBot
Mail.ru - Mail.ru
Yahoo - Slurp
Bing - bingbot

Але як правило, на блозі WordPress вказують окремо правила тільки для пошукача Яндекс, і загальні правила для всіх інших пошукових систем.

Disallow - команда заборони індексації контенту. З її допомогою можна заборонити доступ як до каталогів блогу, так і до окремих файлів.
Робиться це так:

User-Agent: Yandex
Disallow: / plugin /

Цією командою ми заборонимо індексацію каталогу plugin для пошукача Яндекс.

Не можна заборони перераховувати в одному рядку, для кожного файлу або каталогу, заборона потрібно вказувати з нового рядка. Так заборона Disallow потрібно вказувати кожен раз з нового рядка.
Порожніх рядків між оператором Disallow бути не повинно, так як порожній рядок позначає перехід до наступного набору правил.
При вказівці основного домену сайту у директиві Host, не можна вказувати в цій директорії IP адресу, ставити слеш (/) і http: // на початку адреси.

Allow - команда дозволу індексації контенту.
Якщо вам потрібно, щоб пошуковий робот додав в індексацію якусь певну сторінку, то потрібно використовувати оператор Allow.
Наприклад так:

User-Agent: Yandex
Disallow: / plugin /
Allow: / plugin / Lightbox Gallery

В даному прикладі команда Disallow забороняє індексацію каталогу plugin, а команда Allow дозволяє індексацію підкаталогу Lightbox Gallery, який знаходиться в каталозі plugin. Так само можна вказати будь-які каталоги і файли, які вам потрібно обов`язково проіндексувати.

Host - директива для вказівки файлу robots.txt головного адреси сайту. Якщо у вашого ресурсу є дзеркало, то через директиву Host потрібно буде вказати основну адресу сайту.
Наприклад адреси uznaytut48.ru і uznaytut48.ru для пошукового робота абсолютно різні, і вам потрібно буде вказати, який з них є основним. Виглядати це буде так:

Host: uznaytut48.ru

Я описав основні команди і оператори файлу robots.txt. Знаючи їх, ви легко створите і зможете відредагувати свій файл robots.txt. Наведу приклад стандартного файлу, який встановлений на більшості блогів і нормально працює.
-------------
User-agent: *
Disallow: / cgi-bin
Disallow: / wp-admin
Disallow: / wp-includes
Disallow: / category / *
Disallow: / wp-content / plugins
Disallow: / wp-content / cache
Disallow: / wp-content / themes
Disallow: / trackback
Disallow: * / trackback
Disallow: * / * / trackback
Disallow: * / * / feed / * /
Disallow: * / feed
Disallow: / *? *
Disallow: / *?
Disallow: / tag

User-agent: Yandex
Disallow: / cgi-bin
Disallow: / wp-admin
Disallow: / wp-includes
Disallow: / category / *
Disallow: / wp-content / plugins
Disallow: / wp-content / cache
Disallow: / wp-content / themes
Disallow: / trackback
Disallow: * / trackback
Disallow: * / * / trackback
Disallow: * / * / feed / * /
Disallow: * / feed
Disallow: / *? *
Disallow: / *? *
Disallow: / tag

Host: ваш сайт
Sitemap: http: // ваш сайт / sitemap.xml.gz
Sitemap: http: // ваш сайт / sitemap.xml
-------------;
Слова "ваш сайт" замініть на свій домен.
Тільки врахуйте, що якщо у вас не налаштований ЧПУ на блоге, то рядок "Disallow: / *? *" Потрібно буде видалити з цього файлу, інакше у вас контент сайту не буде індексуватися.
І обов`язково додайте шлях до карти сайту вашого блогу.

Відео: Створення та налагодження файлу Robots.txt

На багатьох блогах бачу файл robots.txt написаний з помилкою. Полягає вона в заборону:
Disallow: / category / * / *
Справа в тому, що така заборона забороняє тільки індексацію категорій третього рівня, а другого дозволяє. І виходить, що ви забороняєте індексацію тільки частини своїх рубрик, а то і зовсім її дозволяєте, але самі того не знаючи.
У підсумку, ваші блоги розвиваються і індексуються нормально, не дивлячись на цю помилку. Що тільки підтверджує, що заборона на індексацію категорій не обов`язковий.
Але якщо ви все таки вирішили заборонити рубрики, то правильно буде написати так:
Disallow: / category / *
або
Disallow: / category
Так точно всі категорії будуть закриті від індексації.

До речі, індексацію рубрик найчастіше закривають за допомогою плагіна All In One SEO Pack, так що в robots.txt відпадає необхідність їх закривати.

Як переглянути файл robots.txt

Перевірити, чи правильно індексуються ваші сторінки на блозі, можна за допомогою інструменту Яндекс-Вебмайстер. Якщо за результатами його перевірки біля вас все буде гаразд, то і інші роботи проїндексируют ваш сайт нормально.
Щоб перевірити файл robots.txt за допомогою панелі Яндекс-Вебмайстер, навіть не потрібно реєструватися там.

Файл Robots.txt для WordPress

Заходьте на головну сторінку цього інструменту і в розділі "Почати роботу" натискаєте посилання "Перевірити robots.txt".

Файл Robots.txt для WordPress

Далі вводите в поле «Ім`я хоста" адресу свого сайту і натискаєте кнопку "Завантажити robots.txt з сайту".
В поле "Список URL" натискаєте "Додати", і пишіть шлях до тієї сторінки свого сайту, яку хочете перевірити.
Потім натискаєте кнопку "Перевірити".

Файл Robots.txt для WordPress

Після перевірки ви побачите результат, дозволена індексація сторінку чи ні. В поле "Додати URL" можна додати будь-яку сторінку свого сайту, а не тільки таку, як на прикладі.

На цьому мабуть все, сподіваюся ця стаття вам допоможе розібратися з файлом robots.txt і ви його швидко налаштуєте на своєму сайті.

Якщо у вас ще не варто плагін Login LockDown на блозі, то рекомендую його поставити, цей плагін допоможе надійно захистити ваш блог від злому.
Успіхів!

Поділися в соц мережах:
Cхоже

Увага, тільки СЬОГОДНІ!