24004
•
12 минут чтения
•
Проблемы с индексацией могут свести на нет ваши усилия по SEO — страница может быть идеально оптимизирована и иметь отличный UX, но она ничего не будет стоить, если Google ее не увидит. Неиндексированные страницы не попадут в поисковую выдачу и не принесут трафика и конверсий.
И наоборот, если Google случайно увидит и проиндексирует страницу, которая не должна была быть проиндексирована, то вы рискуете получить утечку личной информации, штрафы Google за некачественный контент и другие малоприятные последствия.
В этом руководстве я расскажу, какие существуют проблемы с индексацией и как их исправить, чтобы они не приводили к внезапному падению рейтинга. Но сначала давайте посмотрим, как проверить, есть ли на вашем сайте проблемы с индексацией.
Консоль поиска Google может дать вам базовое, но все же достаточное понимание того, какие проблемы с индексацией имеет ваш сайт. Чтобы увидеть их, обратитесь к отчету «Указатель > Страницы».
Страницы, не проиндексированные по какой-либо причине, помещаются в один раздел «Не проиндексировано». Страницы, которые были проиндексированы, но по-прежнему имеют проблемы и требуют вашего внимания, можно найти внизу страницы в разделе «Улучшить внешний вид страницы »:
Для дальнейшего изучения проблемы щелкните строку ошибки, а затем значок линзы рядом с URL-адресом, который вы хотите проверить:
Search Console покажет вам подробную информацию и поможет определить, что не так со страницей.
Если вам нужно копнуть глубже и получить рекомендации о том, что нужно исправить, чтобы страница звучала нормально, обратитесь к разделу «Индексирование и сканируемость» WebSite Auditor:
Скачать WebSite AuditorИнструмент соберет все URL-адреса с ошибками, поэтому вам не придется вручную проверять каждую страницу отдельно.
Что ж, теперь мы закончили с частью «где найти». Теперь пришло время посмотреть, какие типы проблем с индексацией вы можете обнаружить и как их исправить, чтобы ваш сайт сканировался и индексировался.
Не найдено (404) или неверный URL-адрес, вероятно, является одной из наиболее распространенных проблем индексации. Страница может иметь код статуса 404 по многим причинам. Допустим, вы удалили URL, но не удалили страницу из карты сайта, неправильно написали URL и т. д.
Как говорит Google, ошибки 404 сами по себе не вредят производительности вашего сайта, пока они не будут отправлены URL-адресами (т. е. теми, которые вы явно попросили Google проиндексировать).
Если вы видите URL-адреса 404 в отчетах об индексировании, вот возможные варианты их исправления, если они не должны были произойти:
Обратите внимание, что GSC не отличает сообщения 404 (не найден) от 410 (исчезло) и объединяет их в отчете 404. Раньше это были разные типы кодов ответа: 404 означал «не найден, но может быть найден позже», а 410 раньше означал «не найден и не будет таким, каким он был навсегда».
Что касается сегодняшнего дня, Google заявляет, что они обрабатывают как 404, так и 410 одинаково, поэтому вам, вероятно, не стоит беспокоиться, если вы обнаружите страницу 410 в отчете 404. Единственное, что я бы посоветовал вам сделать, это установить собственную страницу 404 вместо пустой 410, чтобы сэкономить трафик и предотвратить уход пользователей с вашего сайта.
Многие оптимизаторы и владельцы сайтов имеют привычку перенаправлять ошибки 404 на домашнюю страницу, но правда в том, что это не лучшая практика. Это сбивает с толку Google и приводит к ошибкам 404. Что ж, давайте посмотрим, что же представляют собой эти мягкие 404.
Проблемы с программной ошибкой 404 возникают, когда страница имеет ответ 200 OK, но Google не может найти ее содержимое и считает ее кодом 404. Ошибка 404 может возникать по многим причинам, и некоторые из них могут даже не зависеть от вас, например, ошибки в браузерах пользователей. Вот еще несколько причин:
Отсутствует включаемый файл на стороне сервера.
Нарушено соединение с базой данных
Пустая страница результатов внутреннего поиска.
Невыгруженный или отсутствующий по какой-либо причине файл JavaScript.
Слишком мало контента
Маскировка страниц
На самом деле исправить эти проблемы не так уж и сложно. Вот некоторые распространенные сценарии:
Если контент переместился, а страница на самом деле 200 ОК, но пуста, то настройте 301 редирект на новый адрес;
Если удаленному контенту нет альтернативы, то отметьте его как 404 и удалите из карты сайта;
Если страница должна существовать, то добавьте некоторый контент и проверьте, что все скрипты на ней корректно отрисовываются и отображаются (не блокируются robots.txt, поддерживаются браузерами и т. д.);
Если ошибка возникает из-за того, что сервер не работает, когда робот Googlebot пытается получить страницу, проверьте, работает ли сервер нормально. Если да, то запросите переиндексацию этой страницы.
Ошибка 401 возникает, когда робот Googlebot пытается получить доступ к странице, требующей авторизации, а ваш сервер блокирует это.
Если вы хотите, чтобы эта страница была проиндексирована, предоставьте роботу Google соответствующее разрешение или удалите запрос на авторизацию.
Ошибка такого типа возникает, когда пользовательский агент предоставил учетные данные для входа на страницу (логин, пароль), но ему не был предоставлен доступ для фактического входа на страницу. Однако робот Googlebot никогда не предоставляет учетные данные, поэтому сервер возвращает 403 вместо целевой страницы.
Если страница была заблокирована по ошибке и вам действительно нужно ее проиндексировать, разрешите доступ не вошедшим в систему пользователям или явно разрешите роботу Googlebot войти на страницу, чтобы прочитать и проиндексировать ее.
Как ясно из названия, эта ошибка возникает, когда вы явно просите Google проиндексировать страницу (т. е. добавляете ее в карту сайта или вручную запрашиваете индексацию), но эта страница имеет тег noindex.
Исправить это довольно просто — удалите тег noindex, чтобы Google мог получить доступ к странице.
Если вы заблокируете страницу с помощью robots.txt, то Google не будет ее сканировать. Снимите ограничения на индексацию страницы.
Примечание. Файл Robots.txt не является гарантией того, что страница не будет проиндексирована. Вот почему иногда Google Search Console может показать вам что-то вроде этого:
Подобные проблемы могут принести вам больше проблем, чем неиндексированные страницы, поскольку Google может получить доступ и раскрыть информацию, которая никогда не должна была появляться в результатах поиска (например, корзины, личные данные и т. д.).
Если вы столкнулись с такой проблемой, решите, нужно ли вам индексировать страницу или нет. Если да, удалите URL-адрес из файла robots.txt. Если нет, также удалите его из файла robots.txt, но примените тег noindex или ограничьте доступ для неавторизованных пользователей. После применения новых ограничений вы также можете попросить Google удалить страницу из индекса через GSC ( Индекс > Удаление > Новый запрос).
Это еще один тип проблем, которые могут ухудшить производительность вашего сайта сильнее, чем неиндексированные страницы. Google не любит пустые страницы и, скорее всего, снизит ваши позиции, так как пустые страницы — это сигнал о спам-сайтах и некачественном контенте.
Если вы заметили, что некоторые из ваших страниц имеют статус «Проиндексировано без содержания», вручную проверьте URL-адрес, чтобы выяснить причину. Например:
Возможно, на странице слишком мало контента;
На странице может быть контент, блокирующий рендеринг, который не загружается должным образом;
Содержимое скрыто.
Принимайте меры в зависимости от того, что вы видите.
Например, если страница слишком пуста, добавьте больше контента. Здесь вы можете проверить своих конкурентов в поисковой выдаче и следовать их лучшим практикам с помощью раздела редактора контента WebSite Auditor.
Скачать WebSite AuditorЕсли вы подозреваете, что на затронутой странице может быть какой-то контент, блокирующий рендеринг, проверьте всплывающие окна, в которых используются сторонние скрипты, и убедитесь, что они работают правильно и действительно доступны для чтения Google. В целом, Google должен видеть содержимое ваших страниц так же, как его видят пользователи.
Если содержимое вашей страницы замаскировано, убедитесь, что все скрипты или изображения доступны Google.
SEO-сообщество много говорило о перенаправлении URL-адресов. Тем не менее, оптимизаторы продолжают совершать ошибки, которые приводят к ошибкам перенаправления и повреждению индексации. Вот несколько распространенных причин, по которым Google не может правильно прочитать перенаправления:
Цепочка перенаправлений слишком длинная
Перенаправление приводит к бесконечному циклу перенаправлений (цикл перенаправления).
URL-адрес перенаправления превышает максимальную длину URL-адреса (2 МБ для Google Chrome).
Цепочка перенаправлений содержит неверный или пустой URL-адрес.
Единственный способ исправить ошибки редиректа сводится к одной фразе: правильно настроить редиректы. Избегайте длинных цепочек перенаправлений, которые только тратят бюджет на поисковое сканирование и истощают ссылочный вес, убедитесь, что в цепочке нет URL-адресов 404 или 410, и всегда перенаправляйте URL-адреса на соответствующие страницы.
Ошибки сервера могут возникнуть из-за того, что сервер мог выйти из строя, выйти из строя или отключиться во время работы робота Googlebot.
Первое, что нужно сделать, это проверить затронутый URL-адрес. Перейдите к инструменту проверки URL-адресов в GSC и посмотрите, показывает ли он по-прежнему ошибку. Если все в порядке, то единственное, что вы можете сделать, это запросить переиндексацию.
Если ошибка по-прежнему возникает, у вас есть следующие варианты в зависимости от характера ошибки:
Уменьшите чрезмерную загрузку страниц для запросов динамических страниц.
Убедитесь, что хост-сервер вашего сайта не отключен, не перегружен и не настроен неправильно.
Убедитесь, что вы случайно не блокируете Google
Разумно контролируйте сканирование и индексацию сайта.
После того, как вы все исправили, запросите переиндексацию, чтобы Google быстрее получал страницу.
Дублирование без выбранного пользователем канонического формата — распространенная проблема для многоязычных сайтов и/или сайтов электронной коммерции, на которых имеется множество страниц с идентичным или очень похожим контентом, предназначенным для разных целей. В этом случае вам следует пометить одну страницу как каноническую, чтобы избежать проблем с дублированием контента.
Это интересная вещь. Может случиться так, что вы указали определенную страницу как каноническую, но Google решил выбрать другую версию этой страницы как каноническую и проиндексировал ее.
Самый простой способ исправить подобные ошибки — поставить канонический тег на странице, которую выбрал Google, чтобы не путать ее в дальнейшем. Если вы хотите сохранить каноничность выбранной вами страницы, вы можете перенаправить страницу, выбранную Google, на нужный вам URL-адрес.
Google не индексирует страницу, поскольку она является дубликатом канонической страницы. Просто оставьте все как есть.
Если страница имеет статус «Обнаружено», значит, Google ее уже обнаружил, но еще не просканировал и не проиндексировал. Единственное, что вы можете здесь сделать, это проверить инструкции по индексированию страницы в случае каких-либо сомнений. Если все в порядке (то есть так, как вы задумали), пусть Google сделает все остальное позже.
Логично, что это описание означает, что Google просканировал вашу страницу, но не проиндексировал ее. Страница будет проиндексирована, если в инструкции по индексированию не указано обратное. Вам не нужно запрашивать переиндексацию — робот Google знает, что страница ожидает своей очереди на индексацию.
Консоль поиска Google может очень помочь вам в обнаружении и устранении проблем с индексацией. Но было бы слишком хорошо, если бы не было «но». Дело в том, что консоль поиска показывает проблемы только тогда, когда Google пытается получить страницу и терпит неудачу по какой-либо причине. Если такая страница даже не обнаружена Google, в GSC не будет и понятия о проблеме с индексацией. Хотя вопрос может быть важным, и их на самом деле может быть много.
WebSite Auditor может помочь вам найти и устранить подобные проблемы. Перейдите в «Структура сайта» > «Страницы» и включите столбец «Кэшировать дату в Google» в нужном вам рабочем пространстве.
Скачать WebSite AuditorЭто позволит вам увидеть дату кэширования страницы в Google.
Теперь взгляните на дату кэша.
Скачать WebSite AuditorЕсли дата слишком далека (больше года назад) или вообще отсутствует — то Google, скорее всего, не знает о существовании страницы. И вам предстоит выяснить, почему.
Сначала взгляните на столбец «Ссылки на страницу» в той же рабочей области. Если ссылок нет, это означает, что это потерянная страница, и Google не может найти ее, просканировав ваш сайт. Если вы хотите, чтобы страница была проиндексирована, добавьте ссылку на нее с релевантных и богатых трафиком страниц.
Кроме того, проверьте столбец «Инструкции для роботов» и углубитесь в страницы, помеченные как «Не разрешено». Возможно, вы по ошибке заблокировали страницы, предназначенные для индексации.
Визуализация — еще один полезный модуль для поиска проблем с индексацией.
Скачать WebSite AuditorЗдесь вы легко обнаружите страницы-сироты (те, которые не имеют связи с другими страницами), сломанные страницы (выделены красным) и длинные цепочки редиректов, которые также могут быть причиной того, что некоторые страницы не индексируются.
После того, как вы обнаружите и устраните все проблемы, попросите инструмент создать новую карту сайта (и файл robots.txt, если необходимо), которая будет отправлена в Google, чтобы он мог обнаружить все нужные вам страницы.
Скачать WebSite AuditorЕсли вам нужно как можно скорее проиндексировать фиксированные URL-адреса, вы можете вручную запросить переиндексацию в консоли поиска Google.
Регулярно проверяйте, как индексируются ваши страницы, поскольку ошибки могут возникнуть в любое время. И по любой причине: от проблем с хостинг-провайдером до ошибок Google и обновлений Google, которые могут повлиять на то, как алгоритмы Google обрабатывают вещи.
С какими проблемами индексации вы сталкиваетесь чаще всего? Поделитесь своим опытом в нашем SEO-сообществе Facebook.