158399
•
11 минут чтения
•
Как найти все страницы, существующие на веб-сайте? Первая идея, которая приходит в голову, — погуглить доменное имя сайта.
А как насчет URL-адресов, которые не индексируются? Или потерянные страницы? Или веб-кеш?
Найти все страницы веб-сайта довольно легко; однако это требует особого внимания, поскольку есть страницы, которые скрыты от глаз посетителей или поисковых ботов. В этом руководстве показаны 8 различных методов поиска всех страниц сайта, а также инструменты, которые можно использовать.
Вот как найти все страницы веб-сайта:
Существует множество причин, по которым вам может потребоваться найти все страницы веб-сайта. Назвать несколько:
1. Провести аудит сайта нового клиента и выявить проблемы с индексацией.
Технические проблемы, такие как неработающие ссылки, ошибки сервера, низкая скорость страницы или плохое удобство использования на мобильных устройствах, не позволяют Google индексировать страницы. Таким образом, аудит сайта показывает, сколько URL-адресов имеет сайт и какие из них являются проблемными. В конечном итоге это помогает оптимизаторам оценить объем будущей работы в проекте.
2. Для обнаружения страниц вашего сайта, которые не были проиндексированы по ошибке.
Если на вашем веб-сайте есть дублированный контент, Google может не проиндексировать все дубликаты. То же самое касается длинных цепочек редиректов и 404 URL: если их на сайте много, краулинговый бюджет тратится зря. В результате поисковые боты реже посещают сайт, и в целом он будет хуже индексироваться. Именно поэтому необходимы регулярные проверки, даже если в целом что-то выглядит нормально.
3. Чтобы обнаружить проиндексированные страницы, которые не предназначены для индексации Google.
Некоторые страницы не нужны в индексе поиска — например, страницы входа для администраторов, страницы в разработке или корзины покупок. Тем не менее, эти страницы могут быть проиндексированы против вашей воли из-за противоречивых правил или ошибок в ваших технических файлах. Например, если вы полагаетесь исключительно на robots.txt, чтобы запретить страницу, URL-адрес все равно может сканироваться и отображаться в поиске.
4. Найти устаревшие страницы и запланировать полную переработку контента.
Google стремится предоставить своим пользователям наилучшие результаты, поэтому, если ваш контент низкого качества, некачественный или дублирующийся, он может не быть проиндексирован. Хорошо иметь список всех ваших страниц, чтобы знать, какие темы вы еще не затронули. Имея под рукой весь свой контент, вы сможете более эффективно планировать свою контент-стратегию.
5. Найти потерянные страницы и спланировать стратегию связывания.
Сироты — это страницы без входящих ссылок, из-за чего пользователи и поисковые боты посещают их редко или не посещают вообще. Страницы-сироты могут быть проиндексированы в Google и привлечь случайных пользователей. Однако большое количество бесхозных страниц на сайте портит его авторитет: структура сайта не кристально ясна, страницы могут выглядеть бесполезными или неважными, а весь валежник снижает общую видимость сайта.
6. Сделать редизайн сайта и изменить его архитектуру.
Чтобы спланировать редизайн веб-сайта и улучшить взаимодействие с пользователем, вам сначала необходимо найти все его страницы и соответствующие показатели.
Четкая и организованная структура с логической иерархией всех страниц может помочь поисковым системам легче находить ваш контент. Таким образом, все важные URL-адреса должны быть доступны в пределах одного, двух или трех кликов от главной страницы.
Хотя пользовательский опыт не влияет на сканирование и рейтинг, он имеет значение для сигналов качества вашего веб-сайта: успешные покупки, количество вернувшихся посетителей, просмотры страниц на посетителя и множество других показателей показывают, насколько ваш веб-сайт полезен для посетителей.
7. Анализировать сайты конкурентов.
Аудируя страницы ваших конкурентов, вы можете глубже изучить их стратегии SEO: выявить их страницы с наибольшим трафиком, страницы с наибольшим количеством ссылок, лучшие источники рефералов и т. д. Таким образом, вы можете получить ценную информацию и узнать, что хорошо работает для ваших конкурентов.. Вы можете позаимствовать их методы и сравнить результаты, чтобы увидеть, как улучшить свой собственный веб-сайт.
Есть много способов найти все страницы веб-сайта, но в каждом случае вы можете использовать свой метод. Итак, давайте посмотрим на плюсы и минусы каждого метода и на то, как его использовать без суеты.
Поиск Google может быстро помочь найти все страницы веб-сайта. Просто введите «сайт: ваш домен» в строку поиска, и Google покажет вам все страницы сайта, которые он проиндексировал.
Однако важно помнить, что результаты поиска, отображаемые оператором «site:», не обязательно отражают точное количество проиндексированных страниц вашего сайта.
Во-первых, нет никакой гарантии, что Google проиндексирует каждую страницу сразу после ее сканирования. Он может исключать определенные страницы из индекса по разным причинам: например, считает некоторые страницы дубликатами или низкого качества.
Во-вторых, поисковый оператор «сайт:» также может показывать страницы, которые были удалены с вашего сайта, но они сохраняются в Google как кэшированные или заархивированные.
Таким образом, поисковый запрос «site:» — хорошее начало для получения приблизительного представления о размере вашего сайта. Но чтобы найти остальные страницы, которые могут отсутствовать в индексе, вам потребуются другие инструменты.
Robots.txt — это технический файл, который инструктирует поисковых ботов о том, как сканировать ваш сайт, с помощью правил разрешения/запрета для отдельных страниц или целых каталогов.
Таким образом, файл покажет вам не все страницы вашего сайта. Однако он может помочь вам найти страницы, доступ к которым запрещен для поисковых ботов.
Как
Вот шаги, как найти страницы с ограниченным доступом с помощью robots.txt:
Вот пример директив роботов для YouTube.
Проверьте, как это работает. Например, страница регистрации запрещена. Тем не менее, вы все равно можете получить его при поиске в Google — обратите внимание, что для страницы нет описательной информации.
Необходимо перепроверить правила файла robots.txt, чтобы убедиться, что все ваши страницы сканируются правильно. Поэтому для его проверки вам может понадобиться такой инструмент, как Google Search Console или сканер сайта. Я остановлюсь на этом через мгновение.
А пока, если вы хотите узнать больше о назначении файла, прочитайте это руководство по сокрытию веб-страниц от индексации.
Карта сайта — это еще один технический файл, который веб-мастера используют для правильной индексации сайта. В этом документе, часто в формате XML, перечислены все URL-адреса веб-сайта, которые следует проиндексировать. Карта сайта — ценный источник информации о структуре и содержании веб-сайта.
Большие веб-сайты могут иметь несколько карт сайта: поскольку размер файла ограничен 50 000 URL-адресами и 50 МБ, его можно разделить на несколько и включать отдельную карту сайта для каталогов, изображений, видео и т. д. Платформы электронной коммерции, такие как Shopify или Wix автоматически генерировать карты сайта. Для других существуют плагины или инструменты-генераторы карт сайта для создания файлов.
Как
Помимо всего прочего, карта сайта веб-сайта позволяет легко найти все его страницы и убедиться, что они проиндексированы:
Вам также следует время от времени перепроверять правильность вашей карты сайта, поскольку с ней тоже могут возникнуть проблемы: она может быть пустой, отвечать кодом 404, кэшироваться давно или просто содержать неправильные URL-адреса, которые вам не нужны. появиться в индексе.
Хороший способ проверить карту сайта — использовать инструмент сканирования веб-сайтов. В Интернете доступно несколько инструментов для сканирования веб-сайтов, и один из них — WebSite Auditor, который является мощным инструментом SEO для аудита всего сайта. Давайте посмотрим, как он может помочь вам найти все страницы веб-сайта и проверить технические файлы.
Как
Вот как вы можете использовать WebSite Auditor, чтобы найти все страницы вашего сайта:
Вы можете указать инструкции для определенного поискового бота или пользовательского агента; указать сканеру игнорировать параметры URL, сканировать сайт, защищенный паролем, сканировать домен отдельно или вместе с поддоменами и т. д.
После того, как вы нажмете «ОК», инструмент проведет аудит вашего сайта и соберет все страницы в разделе «Структура сайта» > «Страницы».
WebSite Auditor поможет вам еще раз проверить, правильно ли оптимизированы URL-адреса для поисковых систем. Вы познакомитесь с инструментом за несколько минут, так как настройка быстрая, а интерфейс довольно интуитивно понятен.
Вот вам короткая видеоинструкция:
Давайте посмотрим, что вы можете получить от инструмента сканирования веб-сайтов.
На вкладке «Все страницы» вы можете отсортировать список по URL-адресу, заголовку или любому другому столбцу, щелкнув заголовок столбца.
Вы можете использовать поле поиска, чтобы отфильтровать список страниц по ключевому слову или URL-адресу страницы. Это может быть полезно, если вы ищете определенную страницу или группу страниц.
Кроме того, вы можете добавить видимые столбцы, чтобы представить дополнительную информацию об этой странице, например метатеги, заголовки, ключевые слова, перенаправления или любой другой элемент SEO на странице.
Наконец, вы можете щелкнуть любой URL-адрес, чтобы просмотреть все ресурсы на странице в нижней половине рабочей области.
Все данные можно обрабатывать внутри инструмента или копировать/экспортировать в формат CSV или Excel.
В разделе «Аудит сайта» вы увидите списки страниц, разбитые по типам ошибок, например:
Под каждым типом проблемы вы увидите объяснение важности этого фактора и несколько советов по его устранению.
Кроме того, вы можете просмотреть свою визуальную карту сайта в разделе «Структура сайта» > «Визуализация», которая показывает связи между всеми вашими URL-адресами. Интерактивная карта позволяет добавлять или удалять страницы и ссылки для настройки структуры вашего сайта. Вы можете пересчитать значение внутреннего PageRank и проверить количество просмотров страниц (согласно данным Google Analytics).
Кроме того, WebSite Auditor также проверяет доступность вашего файла robots.txt и карты сайта.
Он позволяет редактировать технические файлы в инструментах веб-сайта и загружать их прямо на ваш сайт с соответствующими настройками.
Вам не нужно будет соблюдать какой-то особый синтаксис при редактировании файлов – просто выберите нужные URL-адреса и примените необходимые правила. Затем нажмите кнопку «Сгенерировать файлы» и сохраните их на свой компьютер или загрузите на сайт по FTP.
Еще один отличный инструмент для поиска всех страниц вашего сайта — Google Search Console. Это поможет вам проверить индексацию страниц и выявить проблемы, которые мешают поисковым ботам корректно индексировать эти URL-адреса.
Как
Вы можете получить разбивку всех ваших страниц по статусу индексирования, включая те страницы, которые еще не были проиндексированы.
Вот как найти все страницы вашего сайта с помощью Search Console:
1. Перейдите в отчет «Индексирование» и нажмите «Просмотреть данные об проиндексированных страницах». Вы увидите все страницы, которые последний раз сканировал поисковый бот на вашем сайте. Однако имейте в виду, что в таблице будет ограничение до 1000 URL-адресов. Существует быстрый фильтр для сортировки всех известных страниц по всем отправленным URL-адресам и т. д.
2. Включите вкладку Не индексируется. Ниже инструмент дает подробную информацию о том, почему каждый URL-адрес не индексируется.
Нажмите на каждую причину и просмотрите URL-адреса, затронутые проблемой.
Сложность в том, что вы получите не только основные URL-адреса ваших страниц, но и анкорные ссылки, страницы с пагинацией, параметры URL-адресов и прочий мусор, требующий ручной сортировки. И список может быть неполным из-за ограничения в 1000 записей в таблице.
Помимо прочего, имейте в виду, что разные поисковые системы могут иметь разные правила индексирования, и вам необходимо использовать их инструменты для веб-мастеров для поиска и решения таких проблем. Например, используйте инструменты Bing Webmaster, Yandex Webmaster, Naver Webmaster и другие для проверки индексации в соответствующих поисковых системах.
Я думаю, Google Analytics — одна из наиболее широко используемых аналитических платформ, поэтому любой владелец или редактор веб-сайта знаком с ней. Старый добрый Universal Analytics скоро будет заменен Google Analytics 4. Итак, давайте посмотрим обе версии инструмента.
Как
Чтобы собрать данные о страницах вашего сайта в Google Universal Analytics, выполните следующие действия:
Вы увидите страницы со статистикой поведения пользователей, такой как просмотры страниц, показатель отказов, среднее время на странице и т. д. Обратите внимание на страницы с наименьшим количеством просмотров за все время – возможно, это потерянные страницы.
Чтобы воссоздать аналогичный процесс в Google Analytics 4:
Как и в случае с консолью, она будет включать параметры URL и тому подобное. Вы можете экспортировать список страниц в формате CSV или лист Excel, нажав кнопку «Экспорт» в верхней части страницы.
Некоторые веб-сайты действительно огромны, и даже мощным SEO-паукам может быть сложно просканировать все их страницы. Анализ журналов — хороший вариант для поиска и изучения всех страниц крупных веб-сайтов.
Анализируя файл журнала вашего веб-сайта, вы можете определить все страницы, на которые приходят посетители из Интернета, их HTTP-ответы, частоту посещения страниц сканерами и т. д.
Файлы журналов хранятся на вашем сервере, и вам потребуется необходимый уровень доступа для их получения и инструмент анализа журналов. Итак, этот метод больше подходит технически подкованным людям, веб-мастерам или разработчикам.
Как
Вот шаги, которые помогут найти все страницы вашего сайта с помощью анализа журналов:
Другой способ найти все страницы веб-сайта — обратиться к вашей системе управления контентом (CMS), поскольку она будет содержать все URL-адреса веб-сайта, которые вы когда-то создали. Примером CMS являются Wordpress или Squarespace, которые содержат инструменты для создания веб-сайтов для редактирования контента в различных областях — новости и блоги, электронная коммерция, корпоративные сайты и тому подобное.
Как
Хотя CMS сильно различаются по внешнему виду, общие шаги применимы к большинству из них:
Имейте в виду, что могут быть категории, сообщения в блогах или целевые страницы — это разные типы страниц, которые могут принадлежать разным разделам CMS.
Большинство CMS позволяют сортировать URL-адреса по дате их создания, автору, категории или каким-либо другим критериям. Вы также можете использовать поле поиска, чтобы отфильтровать список страниц по ключевым словам или заголовкам.
Чтобы найти все страницы веб-сайта, существует множество методов и инструментов. Выбор зависит от цели и объема предстоящей работы.
Я надеюсь, что этот список оказался для вас полезным и теперь вы сможете легко собрать все страницы вашего сайта, даже если вы новичок в SEO.
Если у вас еще нет ответа на вопрос, задайте его в нашей группе пользователей на Facebook.