Наиболее распространенные проблемы с индексированием и способы их устранения

Проблемы с индексацией могут свести на нет ваши усилия по SEO — страница может быть идеально оптимизирована и иметь отличный UX, но она ничего не будет стоить, если Google ее не увидит. Неиндексированные страницы не попадут в поисковую выдачу и не принесут трафика и конверсий.

И наоборот, если Google случайно увидит и проиндексирует страницу, которая не должна была быть проиндексирована, то вы рискуете получить утечку личной информации, штрафы Google за некачественный контент и другие малоприятные последствия.

В этом руководстве я расскажу, какие существуют проблемы с индексацией и как их исправить, чтобы они не приводили к внезапному падению рейтинга. Но сначала давайте посмотрим, как проверить, есть ли на вашем сайте проблемы с индексацией.

Как обнаружить проблемы с индексацией?

Консоль поиска Google может дать вам базовое, но все же достаточное понимание того, какие проблемы с индексацией имеет ваш сайт. Чтобы увидеть их, обратитесь к отчету «Указатель > Страницы».

Отчет Index-Pages в Google Search Console

Страницы, не проиндексированные по какой-либо причине, помещаются в один раздел «Не проиндексировано». Страницы, которые были проиндексированы, но по-прежнему имеют проблемы и требуют вашего внимания, можно найти внизу страницы в разделе «Улучшить внешний вид страницы »:

Раздел улучшения внешнего вида страницы

Для дальнейшего изучения проблемы щелкните строку ошибки, а затем значок линзы рядом с URL-адресом, который вы хотите проверить:

щелкните значок линзы, чтобы изучить проблему

Search Console покажет вам подробную информацию и поможет определить, что не так со страницей.

детали проблемы индексирования

Если вам нужно копнуть глубже и получить рекомендации о том, что нужно исправить, чтобы страница звучала нормально, обратитесь к разделу «Индексирование и сканируемость» WebSite Auditor:

Раздел «Индексирование и возможность сканирования» WebSite Auditor
Скачать WebSite Auditor

Инструмент соберет все URL-адреса с ошибками, поэтому вам не придется вручную проверять каждую страницу отдельно.

Что ж, теперь мы закончили с частью «где найти». Теперь пришло время посмотреть, какие типы проблем с индексацией вы можете обнаружить и как их исправить, чтобы ваш сайт сканировался и индексировался.

Примечание. Далее в этом руководстве я буду считать само собой разумеющимся, что все URL-адреса, на которые, как сообщается, влияют проблемы с индексированием, должны быть проиндексированы. Если URL-адрес не должен индексироваться, заблокируйте его тегом noindex или ограничьте доступ с помощью инструкций robots.txt. Кроме того, обязательно удалите эти страницы из карты сайта. Ничего не делайте, если они на самом деле не проиндексированы.

1. Не найдено (404)

Не найдено (404) или неверный URL-адрес, вероятно, является одной из наиболее распространенных проблем индексации. Страница может иметь код статуса 404 по многим причинам. Допустим, вы удалили URL, но не удалили страницу из карты сайта, неправильно написали URL и т. д.

Как говорит Google, ошибки 404 сами по себе не вредят производительности вашего сайта, пока они не будут отправлены URL-адресами (т. е. теми, которые вы явно попросили Google проиндексировать).

Если вы видите URL-адреса 404 в отчетах об индексировании, вот возможные варианты их исправления, если они не должны были произойти:

  • Обновите карту сайта и проверьте, правильно ли написан затронутый URL.
  • Если страница переехала на новый адрес, то настройте 301 редирект.
  • Если страница удаляется без какой-либо замены или альтернативы, сохраните ее как 404, но удалите из карты сайта. Таким образом, Google перестанет пытаться найти его и тратить бюджет сканирования.
  • Если вам нужно сохранить ошибку 404, создайте собственную, удобную для пользователя страницу 404 — вы можете добавить туда несколько полезных ссылок, чтобы пользователи оставались на вашем сайте, а не просто закрывали страницу. Помните, что страница 404 по-прежнему остается 404, поэтому Google не должен ее индексировать, какой бы хорошей она ни была.

Обратите внимание, что GSC не отличает сообщения 404 (не найден) от 410 (исчезло) и объединяет их в отчете 404. Раньше это были разные типы кодов ответа: 404 означал «не найден, но может быть найден позже», а 410 раньше означал «не найден и не будет таким, каким он был навсегда».

Что касается сегодняшнего дня, Google заявляет, что они обрабатывают как 404, так и 410 одинаково, поэтому вам, вероятно, не стоит беспокоиться, если вы обнаружите страницу 410 в отчете 404. Единственное, что я бы посоветовал вам сделать, это установить собственную страницу 404 вместо пустой 410, чтобы сэкономить трафик и предотвратить уход пользователей с вашего сайта.

Многие оптимизаторы и владельцы сайтов имеют привычку перенаправлять ошибки 404 на домашнюю страницу, но правда в том, что это не лучшая практика. Это сбивает с толку Google и приводит к ошибкам 404. Что ж, давайте посмотрим, что же представляют собой эти мягкие 404.

2. Софт 404

Проблемы с программной ошибкой 404 возникают, когда страница имеет ответ 200 OK, но Google не может найти ее содержимое и считает ее кодом 404. Ошибка 404 может возникать по многим причинам, и некоторые из них могут даже не зависеть от вас, например, ошибки в браузерах пользователей. Вот еще несколько причин:

  • Отсутствует включаемый файл на стороне сервера.

  • Нарушено соединение с базой данных

  • Пустая страница результатов внутреннего поиска.

  • Невыгруженный или отсутствующий по какой-либо причине файл JavaScript.

  • Слишком мало контента

  • Маскировка страниц

На самом деле исправить эти проблемы не так уж и сложно. Вот некоторые распространенные сценарии:

  • Если контент переместился, а страница на самом деле 200 ОК, но пуста, то настройте 301 редирект на новый адрес;

  • Если удаленному контенту нет альтернативы, то отметьте его как 404 и удалите из карты сайта;

  • Если страница должна существовать, то добавьте некоторый контент и проверьте, что все скрипты на ней корректно отрисовываются и отображаются (не блокируются robots.txt, поддерживаются браузерами и т. д.);

  • Если ошибка возникает из-за того, что сервер не работает, когда робот Googlebot пытается получить страницу, проверьте, работает ли сервер нормально. Если да, то запросите переиндексацию этой страницы.

3. Заблокировано по несанкционированному запросу (401)

Ошибка 401 возникает, когда робот Googlebot пытается получить доступ к странице, требующей авторизации, а ваш сервер блокирует это.

Если вы хотите, чтобы эта страница была проиндексирована, предоставьте роботу Google соответствующее разрешение или удалите запрос на авторизацию.

4. Заблокировано из-за запрета доступа (403)

Ошибка такого типа возникает, когда пользовательский агент предоставил учетные данные для входа на страницу (логин, пароль), но ему не был предоставлен доступ для фактического входа на страницу. Однако робот Googlebot никогда не предоставляет учетные данные, поэтому сервер возвращает 403 вместо целевой страницы.

Если страница была заблокирована по ошибке и вам действительно нужно ее проиндексировать, разрешите доступ не вошедшим в систему пользователям или явно разрешите роботу Googlebot войти на страницу, чтобы прочитать и проиндексировать ее.

5. Отправленный URL-адрес с пометкой «noindex».

Как ясно из названия, эта ошибка возникает, когда вы явно просите Google проиндексировать страницу (т. е. добавляете ее в карту сайта или вручную запрашиваете индексацию), но эта страница имеет тег noindex.

Исправить это довольно просто — удалите тег noindex, чтобы Google мог получить доступ к странице.

6. URL-адрес заблокирован файлом robots.txt.

Если вы заблокируете страницу с помощью robots.txt, то Google не будет ее сканировать. Снимите ограничения на индексацию страницы.

Примечание. Файл Robots.txt не является гарантией того, что страница не будет проиндексирована. Вот почему иногда Google Search Console может показать вам что-то вроде этого:

проиндексировано, хотя заблокировано файлом robots.txt

Подобные проблемы могут принести вам больше проблем, чем неиндексированные страницы, поскольку Google может получить доступ и раскрыть информацию, которая никогда не должна была появляться в результатах поиска (например, корзины, личные данные и т. д.).

Если вы столкнулись с такой проблемой, решите, нужно ли вам индексировать страницу или нет. Если да, удалите URL-адрес из файла robots.txt. Если нет, также удалите его из файла robots.txt, но примените тег noindex или ограничьте доступ для неавторизованных пользователей. После применения новых ограничений вы также можете попросить Google удалить страницу из индекса через GSC ( Индекс > Удаление > Новый запрос).

7. Индексируется без содержания

Это еще один тип проблем, которые могут ухудшить производительность вашего сайта сильнее, чем неиндексированные страницы. Google не любит пустые страницы и, скорее всего, снизит ваши позиции, так как пустые страницы — это сигнал о спам-сайтах и ​​некачественном контенте.

Если вы заметили, что некоторые из ваших страниц имеют статус «Проиндексировано без содержания», вручную проверьте URL-адрес, чтобы выяснить причину. Например:

  • Возможно, на странице слишком мало контента;

  • На странице может быть контент, блокирующий рендеринг, который не загружается должным образом;

  • Содержимое скрыто.

Принимайте меры в зависимости от того, что вы видите.

Например, если страница слишком пуста, добавьте больше контента. Здесь вы можете проверить своих конкурентов в поисковой выдаче и следовать их лучшим практикам с помощью раздела редактора контента WebSite Auditor.

Раздел редактора контента WebSite Auditor
Скачать WebSite Auditor

Если вы подозреваете, что на затронутой странице может быть какой-то контент, блокирующий рендеринг, проверьте всплывающие окна, в которых используются сторонние скрипты, и убедитесь, что они работают правильно и действительно доступны для чтения Google. В целом, Google должен видеть содержимое ваших страниц так же, как его видят пользователи.

Если содержимое вашей страницы замаскировано, убедитесь, что все скрипты или изображения доступны Google.

8. Ошибка перенаправления

SEO-сообщество много говорило о перенаправлении URL-адресов. Тем не менее, оптимизаторы продолжают совершать ошибки, которые приводят к ошибкам перенаправления и повреждению индексации. Вот несколько распространенных причин, по которым Google не может правильно прочитать перенаправления:

  • Цепочка перенаправлений слишком длинная

  • Перенаправление приводит к бесконечному циклу перенаправлений (цикл перенаправления).

  • URL-адрес перенаправления превышает максимальную длину URL-адреса (2 МБ для Google Chrome).

  • Цепочка перенаправлений содержит неверный или пустой URL-адрес.

Единственный способ исправить ошибки редиректа сводится к одной фразе: правильно настроить редиректы. Избегайте длинных цепочек перенаправлений, которые только тратят бюджет на поисковое сканирование и истощают ссылочный вес, убедитесь, что в цепочке нет URL-адресов 404 или 410, и всегда перенаправляйте URL-адреса на соответствующие страницы.

9. Ошибка сервера (5xx)

Ошибки сервера могут возникнуть из-за того, что сервер мог выйти из строя, выйти из строя или отключиться во время работы робота Googlebot.

Первое, что нужно сделать, это проверить затронутый URL-адрес. Перейдите к инструменту проверки URL-адресов в GSC и посмотрите, показывает ли он по-прежнему ошибку. Если все в порядке, то единственное, что вы можете сделать, это запросить переиндексацию.

Если ошибка по-прежнему возникает, у вас есть следующие варианты в зависимости от характера ошибки:

  • Уменьшите чрезмерную загрузку страниц для запросов динамических страниц.

  • Убедитесь, что хост-сервер вашего сайта не отключен, не перегружен и не настроен неправильно.

  • Убедитесь, что вы случайно не блокируете Google

  • Разумно контролируйте сканирование и индексацию сайта.

После того, как вы все исправили, запросите переиндексацию, чтобы Google быстрее получал страницу.

10. Дублирование без выбранного пользователем канонического

Дублирование без выбранного пользователем канонического формата — распространенная проблема для многоязычных сайтов и/или сайтов электронной коммерции, на которых имеется множество страниц с идентичным или очень похожим контентом, предназначенным для разных целей. В этом случае вам следует пометить одну страницу как каноническую, чтобы избежать проблем с дублированием контента.

11. Дубликат, Google выбрал другой канонический, чем пользовательский

Это интересная вещь. Может случиться так, что вы указали определенную страницу как каноническую, но Google решил выбрать другую версию этой страницы как каноническую и проиндексировал ее.

Самый простой способ исправить подобные ошибки — поставить канонический тег на странице, которую выбрал Google, чтобы не путать ее в дальнейшем. Если вы хотите сохранить каноничность выбранной вами страницы, вы можете перенаправить страницу, выбранную Google, на нужный вам URL-адрес.

12. Альтернативная страница с правильным каноническим тегом.

Примечание. Сейчас я расскажу о проблемах, которые не требуют каких-либо конкретных действий (в большинстве случаев). Тем не менее, они отображаются в консоли поиска Google, и я предполагаю, что вам может быть интересно, что они означают.

Google не индексирует страницу, поскольку она является дубликатом канонической страницы. Просто оставьте все как есть.

13. Обнаружено – в настоящее время не индексируется

Если страница имеет статус «Обнаружено», значит, Google ее уже обнаружил, но еще не просканировал и не проиндексировал. Единственное, что вы можете здесь сделать, это проверить инструкции по индексированию страницы в случае каких-либо сомнений. Если все в порядке (то есть так, как вы задумали), пусть Google сделает все остальное позже.

14. Просканировано – в настоящее время не индексируется.

Логично, что это описание означает, что Google просканировал вашу страницу, но не проиндексировал ее. Страница будет проиндексирована, если в инструкции по индексированию не указано обратное. Вам не нужно запрашивать переиндексацию — робот Google знает, что страница ожидает своей очереди на индексацию.

Перепроверьте проблемы с индексированием, не обнаруженные Google.

Этот шаг требует WebSite Auditor. Вы можете скачать его прямо сейчас бесплатно. Скачать WebSite Auditor

Консоль поиска Google может очень помочь вам в обнаружении и устранении проблем с индексацией. Но было бы слишком хорошо, если бы не было «но». Дело в том, что консоль поиска показывает проблемы только тогда, когда Google пытается получить страницу и терпит неудачу по какой-либо причине. Если такая страница даже не обнаружена Google, в GSC не будет и понятия о проблеме с индексацией. Хотя вопрос может быть важным, и их на самом деле может быть много.

WebSite Auditor может помочь вам найти и устранить подобные проблемы. Перейдите в «Структура сайта» > «Страницы» и включите столбец «Кэшировать дату в Google» в нужном вам рабочем пространстве.

включить дату кэширования в столбце Google
Скачать WebSite Auditor

Это позволит вам увидеть дату кэширования страницы в Google.

Примечание. Вы можете спросить: «Как вам удается видеть страницы, которые не видит Google?» Вот ответ: мы используем наш собственный индекс с современной системой сканирования, которая может обнаружить страницы, по какой-либо причине не обнаруженные другими поисковыми системами.

Теперь взгляните на дату кэша.

посмотри на дату кэша
Скачать WebSite Auditor

Если дата слишком далека (больше года назад) или вообще отсутствует — то Google, скорее всего, не знает о существовании страницы. И вам предстоит выяснить, почему.

Сначала взгляните на столбец «Ссылки на страницу» в той же рабочей области. Если ссылок нет, это означает, что это потерянная страница, и Google не может найти ее, просканировав ваш сайт. Если вы хотите, чтобы страница была проиндексирована, добавьте ссылку на нее с релевантных и богатых трафиком страниц.

Кроме того, проверьте столбец «Инструкции для роботов» и углубитесь в страницы, помеченные как «Не разрешено». Возможно, вы по ошибке заблокировали страницы, предназначенные для индексации.

Визуализация — еще один полезный модуль для поиска проблем с индексацией.

Модуль визуализации WebSite Auditor
Скачать WebSite Auditor

Здесь вы легко обнаружите страницы-сироты (те, которые не имеют связи с другими страницами), сломанные страницы (выделены красным) и длинные цепочки редиректов, которые также могут быть причиной того, что некоторые страницы не индексируются.

После того, как вы обнаружите и устраните все проблемы, попросите инструмент создать новую карту сайта (и файл robots.txt, если необходимо), которая будет отправлена ​​в Google, чтобы он мог обнаружить все нужные вам страницы.

создание карты сайта в WebSite Auditor
Скачать WebSite Auditor

Если вам нужно как можно скорее проиндексировать фиксированные URL-адреса, вы можете вручную запросить переиндексацию в консоли поиска Google.

Подвести итог

Регулярно проверяйте, как индексируются ваши страницы, поскольку ошибки могут возникнуть в любое время. И по любой причине: от проблем с хостинг-провайдером до ошибок Google и обновлений Google, которые могут повлиять на то, как алгоритмы Google обрабатывают вещи.

С какими проблемами индексации вы сталкиваетесь чаще всего? Поделитесь своим опытом в нашем SEO-сообществе Facebook.

Article stats:
Linking websites N/A
Backlinks N/A
InLink Rank N/A
Данные Seo SpyGlass: попробуйте бесплатную проверку обратных ссылок.
Есть вопросы или комментарии?