Полное руководство по сокрытию веб-страниц от индексации

39373

•

10 минут чтения

•

Автор

Zlata Verzhbitskaia

Zlata — опытный цифровой маркетолог и создатель контента. В своих статьях в блоге SEO PowerSuite Ltd она делится...

Дата

Sep 02, 2024

Индексация страниц сайта — это то, с чего начинается процесс поисковой оптимизации. Разрешение поисковым роботам получать доступ к вашему контенту означает, что ваши страницы готовы к посетителям, у них нет никаких технических проблем, и вы хотите, чтобы они отображались в результатах поиска, поэтому всеобъемлющая индексация на первый взгляд кажется огромным преимуществом.

Однако некоторые типы страниц лучше держать подальше от SERP, чтобы обеспечить свои рейтинги. Это значит, что вам нужно скрыть их от индексации. В этой статье я расскажу вам о типах контента, которые нужно скрыть от поисковых систем, и покажу, как это сделать.

Содержание

Страницы, которые следует скрыть от поиска
Как скрыть страницу из поиска
1. Ограничить сканирование с помощью файлов robots.txt
2. Ограничьте индексацию с помощью метатега robots и тега X-Robots
  1. Мета-тег noindex для роботов
  2. X-Robots-тег
Особые случаи

Страницы, которые следует скрыть от поиска

Давайте перейдем к делу без лишних слов. Вот список страниц, которые лучше скрыть от поисковых систем, чтобы они не появлялись в результатах поиска.

Страницы с личными данными

Защита контента от прямого поискового трафика обязательна, когда страница содержит персональную информацию. Это страницы с конфиденциальными данными компании, информацией об альфа-продуктах, информацией о профилях пользователей, частной перепиской, платежными данными и т. д. Поскольку персональный контент должен быть скрыт от кого-либо, кроме владельца данных, Google (или любая поисковая система) не должна делать эти страницы видимыми для более широкой аудитории.

Страницы входа

Если форма входа размещена не на главной странице, а на отдельной странице, то нет никакой реальной необходимости показывать эту страницу в SERP. Такие страницы не несут никакой дополнительной ценности для пользователей, что можно считать слабым контентом.

Страницы благодарности

Это страницы, которые пользователи видят после успешного действия на веб-сайте, будь то покупка, регистрация или что-то еще. Эти страницы также, скорее всего, будут иметь скудный контент и не будут иметь никакой дополнительной ценности для пользователей поиска.

Версии для печати или чтения

Контент на страницах такого типа дублирует контент основных страниц вашего веб-сайта, а это значит, что при сканировании и индексации такие страницы будут рассматриваться как полные дубликаты контента.

Результаты внутреннего поиска

Когда пользователи заходят на ваш сайт из SERP, они ожидают нажать на вашу ссылку и найти ответ на свой запрос. А не на еще одну внутреннюю SERP с кучей ссылок. Поэтому если ваши внутренние SERP попадут в индекс, они, скорее всего, не принесут ничего, кроме низкого времени на странице и высокого показателя отказов.

Страницы биографий авторов в блогах с одним автором

Если все записи вашего блога написаны одним автором, то страница с биографией автора является точной копией домашней страницы блога.

Страницы формы подписки

Подобно страницам входа, формы подписки обычно не содержат ничего, кроме формы для ввода данных для подписки. Таким образом, страница а) пуста, б) не представляет никакой ценности для пользователей. Вот почему вам нужно ограничить поисковые системы от попадания их в SERP.

Страницы в разработке

Практическое правило: страницы, находящиеся в процессе разработки, следует держать подальше от поисковых роботов до тех пор, пока они не будут полностью готовы к приему посетителей.

Зеркальные страницы

Зеркальные страницы — это идентичные копии ваших страниц на отдельном сервере/местоположении. Они будут считаться техническими дубликатами при сканировании и индексации.

Специальные предложения и рекламные целевые страницы

Специальные предложения и рекламные страницы должны быть видны пользователям только после выполнения ими специальных действий или в течение определенного периода времени (специальные предложения, мероприятия и т. д.). После окончания мероприятия эти страницы не обязательно должны быть видны кому-либо, включая поисковые системы.

Как скрыть страницу из поиска

А теперь вопрос: как скрыть все вышеупомянутые страницы от надоедливых пауков и сохранить остальную часть вашего сайта видимой такой, какой она должна быть?

При настройке инструкций для поисковых систем у вас есть два варианта. Вы можете ограничить сканирование или ограничить индексацию страницы.

Ограничить сканирование с помощью файлов robots.txt

Возможно, самый простой и прямой способ ограничить доступ поисковых роботов к вашим страницам — это создать файл robots.txt. Файлы robots.txt позволяют вам проактивно исключить весь нежелательный контент из результатов поиска. С помощью этого файла вы можете ограничить доступ к одной странице, целому каталогу или даже к одному изображению или файлу.

Как это работает

Создание файла robots.txt

Процедура довольно проста. Вы просто создаете файл.txt, который имеет следующие поля:

User-agent: — в этой строке вы идентифицируете рассматриваемый поисковый робот;
Disallow: – 2 или более строк, которые предписывают указанным сканерам не получать доступ к определенным частям сайта.

Обратите внимание, что некоторые сканеры (например, Google) также поддерживают дополнительное поле, называемое Allow:. Как следует из названия, Allow: позволяет явно перечислить файлы/папки, которые можно сканировать.

Ниже приведены некоторые основные примеры файлов robots.txt.

* в строке User-agent означает, что всем поисковым роботам предписано не сканировать никакие страницы вашего сайта, на что указывает /. Скорее всего, именно этого вы предпочли бы избежать, но теперь вы поняли.

В приведенном выше примере вы запрещаете боту Google Image сканировать ваши изображения в выбранном каталоге.

Дополнительные инструкции о том, как писать такие файлы вручную, можно найти в руководстве разработчика Google.

Но процесс создания robots.txt может быть полностью автоматизирован – существует широкий спектр инструментов, которые способны создавать такие файлы. Например, WebSite Auditor может легко скомпилировать файл robots.txt для вашего сайта.

Запустив инструмент и создав проект для своего веб-сайта, перейдите в раздел Структура сайта > Страницы, щелкните значок гаечного ключа и выберите Robots.txt.

Загрузить WebSite Auditor

Затем нажмите Добавить правило и укажите инструкции. Выберите поисковый бот и каталог или страницу, для которой вы хотите ограничить сканирование.

Загрузить WebSite Auditor

После завершения всех настроек нажмите «Далее», чтобы инструмент сгенерировал файл robots.txt, который вы затем сможете загрузить на свой веб-сайт.

Чтобы просмотреть заблокированные для сканирования ресурсы и убедиться, что вы не запретили сканирование чего-либо, что следует сканировать, перейдите в раздел Структура сайта > Аудит сайта и проверьте раздел Ресурсы, ограниченные для индексации:

Загрузить WebSite Auditor

Примечание: Хотя robots.txt запрещает поисковым системам сканировать определенные страницы, URL-адреса этих страниц все равно могут быть проиндексированы, если другие страницы ссылаются на них с помощью описательного текста. Запрещенный URL-адрес может затем появиться в результатах поиска без описания, поскольку контент не будет просканирован и проиндексирован.

Также имейте в виду, что протокол robots.txt носит исключительно рекомендательный характер. Это не блокировка страниц вашего сайта, а скорее «Частное — не входить». Robots.txt может помешать «законопослушным» ботам (например, Google, Yahoo! и Bing) получить доступ к вашему контенту. Однако вредоносные боты просто игнорируют его и все равно просматривают ваш контент. Поэтому существует риск, что ваши личные данные могут быть скопированы, скомпилированы и повторно использованы под видом добросовестного использования. Если вы хотите сохранить свой контент на 100% безопасным, вам следует ввести более безопасные меры (например, добавить регистрацию на сайте, скрыть контент под паролем и т. д.).

Распространенные ошибки

Вот наиболее распространенные ошибки, которые люди допускают при создании файлов robots.txt. Внимательно прочтите эту часть.

1) Использование заглавных букв в имени файла. Имя файла robots.txt. Точка. Не Robots.txt и не ROBOTS.txt

2) Не помещать файл robots.txt в основной каталог

3) Заблокируйте весь свой веб-сайт (если вы этого не хотите), оставив запретную инструкцию следующим образом

4) Неправильное указание user-agent

5) Упоминание нескольких каталогов в одной строке запрета. Каждой странице или каталогу нужна отдельная строка

6) Оставляем строку user-agent пустой

7) Список всех файлов в каталоге. Если вы скрываете весь каталог, вам не нужно беспокоиться о перечислении каждого файла

8) Строка запрета инструкций вообще не упоминается

9) Отсутствие указания карты сайта в конце файла robots.txt

10) Добавление инструкции noindex в файл

Ограничьте индексацию с помощью метатега robots и тега X-Robots

Использование метатега robots noindex или тега X-Robots позволит поисковым роботам сканировать и получать доступ к вашей странице, но не позволит странице попасть в индекс, т. е. появиться в результатах поиска.

Теперь давайте рассмотрим каждый вариант подробнее.

Мета-тег noindex для роботов

Метатег robots noindex размещается в исходном коде HTML вашей страницы (раздел <head>). Процесс создания этих тегов требует лишь немного технических знаний и может быть легко выполнен даже начинающим SEO-специалистом.

Как это работает

Когда бот Google извлекает страницу, он видит метатег noindex и не включает эту страницу в веб-индекс. Страница все еще сканируется и существует по указанному URL, но не будет отображаться в результатах поиска независимо от того, как часто на нее ссылаются с любой другой страницы.

Примеры метатегов robots

Добавление этого метатега в исходный HTML-код вашей страницы дает указание поисковому роботу проиндексировать эту страницу и все ссылки, ведущие с этой страницы.

Изменяя «follow» на «nofollow», вы влияете на поведение поискового бота. Вышеупомянутая конфигурация тега предписывает поисковой системе индексировать страницу, но не следовать по ссылкам, размещенным на ней.

Этот метатег сообщает поисковому боту, что нужно игнорировать страницу, на которой он размещен, но переходить по всем размещенным на ней ссылкам.

Этот тег, размещенный на странице, означает, что ни сама страница, ни содержащиеся на ней ссылки не будут просматриваться или индексироваться.

Примечание: Атрибуты nofollow и follow, упомянутые выше, не имеют ничего общего с rel=nofollow. Это две разные вещи. Rel=nofollow применяется к ссылкам для предотвращения передачи ссылочного сока. Атрибут nofollow, о котором я упоминал выше, применяется ко всей странице и не позволяет сканерам переходить по ссылкам.

X-Robots-тег

Помимо метатега robots noindex, вы можете скрыть страницу, настроив ответ заголовка HTTP с X-Robots-Tag со значением noindex или none.

Помимо страниц и элементов HTML, X-Robots-Tag позволяет вам noindex отдельных PDF-файлов, видео, изображений или любых других не-HTML-файлов, для которых использование метатегов robots невозможно.

Как это работает

Механизм очень похож на механизм тега noindex. Когда поисковый бот заходит на страницу, HTTP-ответ возвращает заголовок X-Robots-Tag с инструкциями noindex. Страница или файл все равно сканируются, но не отображаются в результатах поиска.

Примеры X-Robots-Tags

Это наиболее распространенный пример HTTP-ответа с указанием не индексировать страницу.

HTTP/1.1 200 ОК

(…)

X-Robots-Тег: noindex

(…)

Вы можете указать тип поискового бота, если вам нужно скрыть свою страницу от определенных ботов. В примере ниже показано, как скрыть страницу от любой другой поисковой системы, кроме Google, и запретить всем ботам переходить по ссылкам на этой странице:

X-Robots-Tag: googlebot: nofollow

X-Robots-Tag: otherbot: noindex, nofollow

Если тип робота не указан, инструкции будут действительны для всех типов поисковых роботов.

Чтобы ограничить индексацию определенных типов файлов на всем вашем сайте, вы можете добавить инструкции ответа X-Robots-Tag в файлы конфигурации программного обеспечения веб-сервера вашего сайта.

Вот как можно ограничить доступ ко всем PDF-файлам на сервере Apache:

<Файлы ~ "\.pdf$">

Заголовок набора X-Robots-Tag "noindex, nofollow"

</Файлы>

А это те же инструкции для NGINX:

местоположение ~* \.pdf$ {

add_header X-Robots-Tag "noindex, nofollow";

}

Чтобы ограничить индексацию одного элемента, для Apache используется следующий шаблон:

# файл htaccess должен быть помещен в каталог соответствующего файла.

<Файлы "unicorn.pdf">

Заголовок набора X-Robots-Tag "noindex, nofollow"

</Файлы>

А вот как ограничить индексацию одного элемента для NGINX:

местоположение = /secrets/unicorn.pdf {

add_header X-Robots-Tag "noindex, nofollow";

}

Тег noindex роботов против X-Robots-Tag

Хотя тег robots noindex кажется более простым решением для ограничения индексации ваших страниц, в некоторых случаях использование тега X-Robots-Tag для страниц является лучшим вариантом:

Неиндексация целого поддомена или категории. X-Robots-Tag позволяет делать это массово, избегая необходимости помечать каждую страницу по отдельности;
Noindexing не-HTML файла. В этом случае X-Robots-Tag не лучший, но единственный вариант, который у вас есть.

Тем не менее, помните, что только Google точно следует инструкциям X-Robots-Tag. Что касается остальных поисковых систем, нет никакой гарантии, что они правильно интерпретируют тег. Например, Seznam вообще не поддерживает теги x-robots. Поэтому, если вы планируете, чтобы ваш сайт отображался в различных поисковых системах, вам нужно будет использовать тег robots noindex в фрагментах HTML.

Распространенные ошибки

Наиболее распространенные ошибки, которые допускают пользователи при работе с тегами noindex:

1) Добавление страницы или элемента noindexed в файл robots.txt. Robots.txt ограничивает сканирование, поэтому поисковые роботы не будут заходить на страницу и видеть директивы noindex. Это означает, что ваша страница может быть проиндексирована без контента и все равно отображаться в результатах поиска.

Чтобы проверить, попали ли какие-либо из ваших страниц с тегом noindex в файл robots.txt, проверьте столбец «Инструкции для роботов» в разделе «Структура сайта» > «Страницы» в WebSite Auditor.

Загрузить Аудитор веб-сайта

Примечание: Не забудьте включить параметры эксперта и снять отметку с параметра «Следовать инструкциям robots.txt» при сборке проекта, чтобы инструмент видел инструкции, но не следовал им.

2) Использование заглавных букв в директивах тегов. Согласно Google, все директивы чувствительны к регистру, поэтому будьте осторожны.

Особые случаи

Теперь, когда с основными проблемами индексации контента все более-менее понятно, перейдем к нескольким нестандартным случаям, заслуживающим особого упоминания.

1) Убедитесь, что страницы, которые вы не хотите индексировать, не включены в вашу карту сайта. Карта сайта — это фактически способ сообщить поисковым системам, куда им следует идти в первую очередь при сканировании вашего сайта. И нет никаких причин просить поисковых роботов посещать страницы, которые вы не хотите, чтобы они видели.

2) Тем не менее, если вам нужно деиндексировать страницу, которая уже присутствует в карте сайта, не удаляйте страницу из карты сайта, пока она не будет повторно просканирована и деиндексирована поисковыми роботами. В противном случае деиндексация может занять больше времени, чем ожидалось.

3) Защитите страницы, содержащие конфиденциальные данные, с помощью паролей. Защита паролем — самый надежный способ скрыть конфиденциальный контент даже от тех ботов, которые не следуют инструкциям robots.txt. Поисковые системы не знают ваших паролей, поэтому они не попадут на страницу, не увидят конфиденциальный контент и не выведут страницу в SERP.

4) Чтобы поисковые роботы не индексировали саму страницу, но переходили по всем ссылкам на странице и индексировали содержимое по этим URL-адресам, настройте следующую директиву

Это обычная практика для страниц результатов внутреннего поиска, которые содержат много полезных ссылок, но сами по себе не несут никакой ценности.

5) Ограничения индексации могут быть указаны для конкретного робота. Например, вы можете заблокировать свою страницу от новостных ботов, ботов изображений и т. д. Имена ботов могут быть указаны для любого типа инструкций, будь то файл robots.txt, метатег robots или X-Robots-Tag.

Например, вы можете скрыть свои страницы специально от бота ChatGPT с помощью robots.txt. После объявления плагинов ChatGPT и GPT-4 (что означает, что OpenAI теперь может получать информацию из Интернета) владельцы веб-сайтов были обеспокоены использованием своего контента. Вопросы цитирования, плагиата и авторских прав стали актуальными для многих сайтов.

Теперь мир SEO раскололся: одни говорят, что нам следует заблокировать доступ GPTBot к нашим сайтам, другие говорят обратное, а третьи говорят, что нам нужно подождать, пока что-то не прояснится. В любом случае, у вас есть выбор.

И если вы твердо уверены, что вам необходимо заблокировать GPTBot, вот как это можно сделать:

Если вы хотите закрыть весь свой сайт.
Пользовательский агент: GPTBot
Запретить: /
Если вы хотите закрыть только определенную часть вашего сайта.
Пользовательский агент: GPTBot
Разрешить: /directory-1/
Запретить: /directory-2/

6) Не используйте тег noindex в A/B-тестах, когда часть ваших пользователей перенаправляется со страницы A на страницу B. Так как если noindex сочетается с 301 (постоянным) редиректом, то поисковые системы получат следующие сигналы:

Страница A больше не существует, так как она навсегда перемещена на страницу B;
Страница B не должна индексироваться, так как она имеет тег noindex.

В результате обе страницы А и Б исчезают из индекса.

Чтобы правильно настроить A/B-тест, используйте 302-редирект (временный) вместо 301. Это позволит поисковым системам сохранить старую страницу в индексе и вернуть ее по завершении теста. Если вы тестируете несколько версий страницы (A/B/C/D и т. д.), то используйте тег rel=canonical, чтобы отметить каноническую версию страницы, которая должна попасть в SERP.

7) Используйте тег noindex, чтобы скрыть временные целевые страницы. Если вы скрываете страницы со специальными предложениями, рекламные страницы, скидки или любой другой тип контента, который не должен просачиваться, то запрет этого контента с помощью файла robots.txt — не лучшая идея. Поскольку сверхлюбопытные пользователи все равно могут просматривать эти страницы в вашем файле robots.txt. Использование noindex в этом случае лучше, чтобы случайно не скомпрометировать «секретный» URL-адрес в открытом доступе.

Подводя итог

Теперь вы знаете основы того, как найти и скрыть определенные страницы вашего сайта от внимания ботов поисковых систем. И, как видите, процесс на самом деле простой. Просто не смешивайте несколько типов инструкций на одной странице и будьте осторожны, чтобы не скрыть страницы, которые должны отображаться в поиске.

Я что-то пропустил? Поделитесь своими вопросами в комментариях.

Article stats:

Linking websites	N/A
Backlinks	N/A
InLink Rank	N/A

Данные из: инструмент проверки обратных ссылок.

Содержание

Страницы, которые следует скрыть от поиска

Страницы с личными данными

Страницы входа

Страницы благодарности

Версии для печати или чтения

Похожие страницы продуктов

Результаты внутреннего поиска

Страницы биографий авторов в блогах с одним автором

Страницы формы подписки

Страницы в разработке

Зеркальные страницы

Специальные предложения и рекламные целевые страницы

Как скрыть страницу из поиска

Ограничить сканирование с помощью файлов robots.txt

Как это работает

Создание файла robots.txt

Распространенные ошибки

Ограничьте индексацию с помощью метатега robots и тега X-Robots

Мета-тег noindex для роботов

Как это работает

Примеры метатегов robots

X-Robots-тег

Как это работает

Примеры X-Robots-Tags

Тег noindex роботов против X-Robots-Tag

Распространенные ошибки

Особые случаи

Подводя итог