155170
•
Leitura de 11 minutos
•
Como você encontra todas as páginas existentes em um site? A primeira ideia que vem à mente é pesquisar no Google o nome de domínio do site.
Mas e os URLs que não conseguem ser indexados? Ou páginas órfãs? Ou cache da web?
Encontrar todas as páginas de um site é muito fácil; no entanto, requer atenção extra, considerando que existem páginas que ficam escondidas dos olhos dos visitantes ou dos bots de pesquisa. Este guia mostra 8 métodos diferentes para encontrar todas as páginas do site junto com as ferramentas a serem usadas.
Veja como encontrar todas as páginas de um site:
Existem vários motivos pelos quais você pode precisar encontrar todas as páginas de um site. Para nomear alguns:
1. Para auditar o site de um novo cliente e encontrar problemas de indexação.
Problemas técnicos como links quebrados, erros de servidor, velocidade lenta da página ou má usabilidade em dispositivos móveis impedem o Google de indexar as páginas. Portanto, as auditorias de sites revelam quantos URLs um site possui e quais deles são problemáticos. No final, ajuda os SEOs a estimar o escopo do trabalho futuro no projeto.
2. Para detectar as páginas do seu próprio site que não foram indexadas por engano.
Se o seu site tiver conteúdo duplicado, o Google poderá não conseguir indexar todas as duplicatas. O mesmo se aplica a longas cadeias de redirecionamento e URLs 404: se houver muitos deles em um site, o orçamento de rastreamento será gasto em vão. Como resultado, os bots de pesquisa visitam o site com menos frequência e ele será indexado de maneira pior no geral. É por isso que são necessárias auditorias regulares, mesmo que algo pareça normal em geral.
3. Para localizar páginas indexadas que não se destinam à indexação do Google.
Algumas páginas não são necessárias no índice de pesquisa – por exemplo, páginas de login para administradores, páginas em desenvolvimento ou carrinhos de compras. Ainda assim, essas páginas podem ser indexadas contra a sua vontade devido a regras conflitantes ou erros em seus arquivos técnicos. Por exemplo, se você confiar apenas no robots.txt para proibir uma página, o URL ainda poderá ser rastreado e aparecer na pesquisa.
4. Para encontrar páginas desatualizadas e planejar uma revisão completa do conteúdo.
O Google pretende fornecer os melhores resultados possíveis para seus usuários, portanto, se o seu conteúdo for de baixa qualidade, limitado ou duplicado, ele poderá não ser indexado. É bom ter uma lista de todas as suas páginas para saber quais tópicos você ainda não abordou. Com todo o seu inventário de conteúdo em mãos, você poderá planejar sua estratégia de conteúdo de forma mais eficaz.
5. Para encontrar páginas órfãs e planejar estratégias de links.
Órfãs são páginas sem links de entrada, por causa das quais os usuários e os bots de pesquisa as visitam raramente ou nem as visitam. As páginas órfãs podem ser indexadas no Google e atrair usuários acidentais. No entanto, um grande número de páginas órfãs num website prejudica a sua autoridade: a estrutura do site não é cristalina, as páginas podem parecer inúteis ou sem importância, e toda a madeira morta prejudicará a visibilidade total do website.
6. Redesenhar um site e mudar sua arquitetura.
Para planejar a reformulação de um site e melhorar a experiência do usuário, primeiro você precisa encontrar todas as suas páginas e métricas relevantes.
Uma estrutura clara e organizada com uma hierarquia lógica de todas as páginas pode ajudar os mecanismos de pesquisa a encontrar seu conteúdo com mais facilidade. Portanto, todos os URLs importantes devem estar acessíveis a um, dois ou três cliques da página inicial.
Embora a experiência do usuário não afete o rastreamento e a classificação, ela é importante para os sinais de qualidade do seu site – compras bem-sucedidas, o número de visitantes recorrentes, visualizações de página por visitante e muitas outras métricas mostram o quanto o seu site é útil para os visitantes.
7. Analisar sites de concorrentes.
Ao auditar as páginas de seus concorrentes, você pode se aprofundar em suas estratégias de SEO: revelar suas páginas de maior tráfego, as páginas mais vinculadas, as melhores fontes de referência, etc.. Você pode pegar emprestadas suas técnicas e comparar os resultados para ver como melhorar seu próprio site.
Existem muitas maneiras de encontrar todas as páginas de um site, mas para cada caso, você pode usar um método diferente para fazer isso. Então, vamos ver os prós e os contras de cada método e como empregá-lo sem complicações.
A pesquisa do Google pode ajudar a encontrar rapidamente todas as páginas de um site. Basta inserir “site: seu domínio” na barra de pesquisa e o Google mostrará todas as páginas do site que ele indexou.
Porém, é importante lembrar que os resultados da pesquisa mostrados pelo operador “site:” não refletem necessariamente o número exato de páginas indexadas do seu site.
Primeiro, não há garantia de que o Google indexará todas as páginas logo após rastreá-las. Pode excluir certas páginas do índice por vários motivos: por exemplo, considera algumas páginas duplicadas ou de baixa qualidade.
Em segundo lugar, o operador de pesquisa “site:” também pode mostrar páginas que foram removidas do seu site, mas são mantidas como páginas em cache ou arquivadas no Google.
Portanto, a consulta de pesquisa “site:” é um bom começo para obter uma imagem aproximada do tamanho do seu site. Mas para encontrar o restante das páginas que podem estar faltando no índice, você precisará de outras ferramentas.
Robots.txt é um arquivo técnico que instrui os bots de pesquisa sobre como rastrear seu site, com a ajuda das regras de permissão/proibição para páginas individuais ou diretórios inteiros.
Assim, o arquivo não mostrará todas as páginas do seu site. No entanto, pode ajudá-lo a localizar páginas cujo acesso é proibido por bots de pesquisa.
Como
Aqui estão as etapas sobre como encontrar as páginas restritas usando robots.txt:
Aqui está um exemplo de diretivas de robôs para o YouTube.
Verifique como funciona. Por exemplo, a página de inscrição não é permitida. No entanto, você ainda pode obtê-lo pesquisando no Google – observe que nenhuma informação descritiva está disponível para a página.
É necessário verificar novamente as regras do robots.txt para garantir que todas as suas páginas sejam rastreadas corretamente. Portanto, você pode precisar de uma ferramenta como o Google Search Console ou um rastreador de site para revisá-lo. Vou falar sobre isso em um momento.
E até agora, se você quiser saber mais sobre a finalidade do arquivo, leia este guia para ocultar páginas da web da indexação.
Um mapa do site é outro arquivo técnico que os webmasters usam para a indexação adequada do site. Este documento, muitas vezes em formato XML, lista todos os URLs de um site que devem ser indexados. Um mapa do site é uma fonte valiosa de informações sobre a estrutura e o conteúdo de um site.
Sites grandes podem ter vários sitemaps: como o tamanho do arquivo é limitado a 50.000 URLs e 50 MB, ele pode ser dividido em vários e incluir um sitemap separado para diretórios, imagens, vídeos, etc. Plataformas de comércio eletrônico como Shopify ou Wix gerar mapas de sites automaticamente. Para outros, existem plug-ins ou ferramentas geradoras de mapas de sites para criar os arquivos.
Como
Entre tudo isso, o mapa do site de um site permite que você encontre facilmente todas as páginas dele e garanta que elas sejam indexadas:
Você também deve verificar novamente a exatidão do seu mapa do site de vez em quando, pois ele também pode ter problemas: pode estar em branco, respondendo com um código 404, armazenado em cache há muito tempo ou pode simplesmente conter URLs errados que você não deseja para aparecer no índice.
Um bom método para validar o mapa do seu site é usar uma ferramenta de rastreamento de sites. Existem várias ferramentas de rastreamento de sites disponíveis online, e uma delas é o WebSite Auditor, que é uma ferramenta de SEO poderosa para auditorias em todo o site. Vamos ver como isso pode ajudá-lo a encontrar todas as páginas de um site e validar arquivos técnicos.
Como
Veja como você pode usar o WebSite Auditor para encontrar todas as páginas do seu site:
Você pode especificar as instruções para um determinado bot de pesquisa ou agente de usuário; diga ao rastreador para ignorar os parâmetros de URL, rastrear um site protegido por senha, rastrear um domínio sozinho ou junto com subdomínios, etc.
Depois de clicar em OK, a ferramenta auditará seu site e coletará todas as páginas na seção Estrutura do site > Páginas.
O WebSite Auditor irá ajudá-lo a verificar novamente se os URLs estão devidamente otimizados para mecanismos de pesquisa. Você conhecerá a ferramenta em poucos minutos, pois a configuração é rápida e a interface é bastante intuitiva.
Aqui está um breve guia em vídeo para você:
Vamos ver o que você pode obter com a ferramenta de rastreamento de sites.
Na guia Todas as páginas, você pode classificar a lista por URL, título ou qualquer outra coluna clicando no cabeçalho da coluna.
Você pode usar a caixa de pesquisa para filtrar a lista de páginas por palavra-chave ou URL da página. Isso pode ser útil se você estiver procurando uma página ou grupo de páginas específico.
Além disso, você pode adicionar colunas visíveis para apresentar mais informações sobre esta página, como meta tags, títulos, palavras-chave, redirecionamentos ou qualquer outro elemento de SEO na página.
Finalmente, você pode clicar em qualquer URL para examinar todos os recursos da página na metade inferior da área de trabalho.
Todos os dados podem ser tratados dentro da ferramenta ou copiados/exportados em formato CSV ou Excel.
A seção Auditoria do site mostrará listas de páginas divididas por tipos de erros, como:
Abaixo de cada tipo de problema, você verá uma explicação de por que esse fator é importante e algumas sugestões sobre como corrigi-lo.
Além disso, você pode examinar o mapa visual do seu site em Estrutura do site> Visualização, que mostra as relações entre todos os seus URLs. O mapa interativo permite adicionar ou remover páginas e links para ajustar a estrutura do seu site. Você pode recalcular o valor do PageRank interno e verificar as visualizações de página (conforme rastreadas pelo Google Analytics).
Além disso, o WebSite Auditor também verifica a disponibilidade do arquivo robots.txt e do mapa do site.
Permite editar os arquivos técnicos nas ferramentas do site e enviá-los diretamente para o seu site com as configurações adequadas.
Você não precisará observar nenhuma sintaxe especial ao editar os arquivos – basta selecionar os URLs necessários e aplicar as regras necessárias. Em seguida, clique para gerar os arquivos e salvá-los em seu computador ou carregá-los no site via FTP.
Mais uma ótima ferramenta para descobrir todas as páginas do seu site é o Google Search Console. Isso o ajudará a verificar a indexação das páginas e a revelar os problemas que impedem os bots de pesquisa de indexar corretamente esses URLs.
Como
Você pode obter um detalhamento de todas as suas páginas por status de indexação, incluindo aquelas páginas que ainda não foram indexadas.
Veja como encontrar todas as páginas do seu site com o Search Console:
1. Acesse o relatório Indexação e clique em Visualizar dados sobre páginas indexadas. Você verá todas as páginas que o bot de pesquisa rastreou pela última vez em seu site. Porém, lembre-se que haverá um limite na tabela de até 1.000 URLs. Existe um filtro rápido para classificar todas as páginas conhecidas de todos os URLs enviados, etc.
2. Ative a guia Não indexado. Abaixo, a ferramenta fornece detalhes sobre por que cada URL não é indexado.
Clique em cada motivo e veja os URLs afetados pelo problema.
A dificuldade é que você obterá não apenas as URLs principais de suas páginas, mas também links âncora, páginas de paginação, parâmetros de URL e outros tipos de lixo que requerem classificação manual. E a lista pode estar incompleta devido ao limite de 1.000 entradas na tabela.
Entre outras coisas, lembre-se de que diferentes mecanismos de pesquisa podem ter outras regras de indexação e você precisa usar suas ferramentas para webmasters para encontrar e lidar com esses problemas. Por exemplo, use as ferramentas Bing Webmaster, Yandex Webmaster, Naver Webmaster e outras para verificar a indexação nos respectivos mecanismos de pesquisa.
Acho que o Google Analytics é uma das plataformas analíticas mais utilizadas, então qualquer proprietário ou editor de site está familiarizado com ele. O bom e velho Universal Analytics será substituído em breve pelo Google Analytics 4. Então, vamos ver as duas versões da ferramenta.
Como
Para coletar as páginas do seu site no Universal Analytics do Google, siga estas etapas:
Você verá as páginas com estatísticas de comportamento do usuário, como visualizações de página, taxa de rejeição, tempo médio na página, etc. Preste atenção às páginas com o menor número de visualizações de página em todos os tempos - provavelmente, são páginas órfãs.
Para recriar um fluxo semelhante no Google Analytics 4:
Assim como no Console, incluirá parâmetros de URL e similares. Você pode exportar a lista de páginas como CSV ou planilha Excel clicando no botão Exportar na parte superior da página.
Alguns sites são realmente enormes e até mesmo spiders de SEO poderosos podem ter dificuldade em rastrear todas as suas páginas. A análise de log é uma boa opção para localizar e examinar todas as páginas de grandes sites.
Ao analisar o arquivo de log do seu site, você pode identificar todas as páginas que recebem visitantes da web, suas respostas HTTP, a frequência com que os rastreadores visitam as páginas e assim por diante.
Os arquivos de log ficam em seu servidor e você precisará do nível de acesso necessário para recuperá-los e de uma ferramenta de análise de log. Portanto, este método é mais adequado para pessoas, webmasters ou desenvolvedores que entendem de tecnologia.
Como
Aqui estão as etapas para encontrar todas as páginas do seu site usando análise de log:
Outra forma de encontrar todas as páginas de um site é consultar o seu Sistema de gerenciamento de conteúdo (CMS), pois ele conterá todos os URLs do site que você criou. Um exemplo de CMSs são Wordpress ou Squarespace que contêm ferramentas de construção de sites para edição de conteúdo em diferentes domínios – notícias e blogs, e-commerce, sites corporativos e similares.
Como
Embora os CMSs tenham aparência bastante diferente, as etapas gerais se aplicam à maioria deles:
Lembre-se de que pode haver categorias, postagens de blog ou landing pages, que são diferentes tipos de páginas que podem pertencer a diferentes seções do CMS.
A maioria dos CMSs permite classificar os URLs pela data de criação, autor, categoria ou algum outro critério. Você também pode usar a caixa de pesquisa para filtrar a lista de páginas por palavras-chave ou títulos.
Para encontrar todas as páginas de um site, existe uma grande variedade de métodos e ferramentas. O que você escolhe depende do propósito e do escopo do trabalho a ser realizado.
Espero que você tenha achado esta lista útil e agora consiga coletar facilmente todas as páginas do seu site, mesmo se você for novo no SEO.
Se você tiver alguma dúvida ainda não respondida, sinta-se à vontade para perguntar em nosso grupo de usuários no Facebook.