24820
•
Lectura de 12 minutos
•
Los problemas de indexación pueden anular sus esfuerzos de SEO: una página puede estar perfectamente optimizada y tener una excelente experiencia de usuario, pero no vale nada si Google no la ve. Las páginas no indexadas no entrarán en las SERP y no generarán tráfico ni conversiones.
Viceversa, si Google ocasionalmente ve e indexa una página que no estaba destinada a ser indexada, entonces corre el riesgo de sufrir una filtración de información privada, sanciones de Google por contenido de baja calidad y otras consecuencias poco satisfactorias.
En esta guía, compartiré qué tipos de problemas de indexación existen y cómo solucionarlos para que no causen caídas repentinas en la clasificación. Pero primero, veamos cómo comprobar si tiene algún problema de indexación en su sitio web.
Google Search Console puede brindarle una comprensión básica pero suficiente de los problemas de indexación que tiene su sitio. Consulta el informe Índice > Páginas para verlas.
Las páginas no indexadas por cualquier motivo se colocan en una sección, No indexadas. Las páginas que han sido indexadas pero que aún tienen problemas y requieren su atención se pueden encontrar en la parte inferior de la página en la sección Mejorar la apariencia de la página:
Para investigar más a fondo cualquier problema, haga clic en la línea de error y luego en el ícono de lente cerca de la URL que desea verificar:
Search Console le mostrará los detalles y le ayudará a identificar el problema de la página.
Una vez que necesite profundizar y obtener recomendaciones sobre qué corregir para que una página suene, consulte la sección Indexación y rastreabilidad de WebSite Auditor:
Descargar Auditor de Sitio WebLa herramienta recopilará todas las URL con errores, por lo que no será necesario comprobar manualmente cada página por separado.
Bueno, ahora hemos terminado con la parte de "dónde encontrar". Ahora es el momento de ver qué tipos de problemas de indexación puede encontrar y cómo solucionarlos para mantener su sitio web rastreado e indexado.
No encontrado (404) o una URL rota es probablemente uno de los problemas de indexación más comunes. Una página puede tener un código de estado 404 por muchos motivos. Digamos que eliminó la URL pero no eliminó la página del mapa del sitio, escribió la URL incorrectamente, etc.
Como dice Google, los 404 en sí no dañan el rendimiento de su sitio hasta que se envíen URL (es decir, aquellas que usted le pidió explícitamente a Google que indexara).
Si ve URL 404 en sus informes de indexación, estas son posibles opciones para solucionarlas si no estaban previstas:
Tenga en cuenta que GSC no diferencia 404 (no encontrado) de 410 (desaparecido) y los reúne en el informe 404. Solían ser diferentes tipos de códigos de respuesta: 404 significaba "no encontrado pero se pudo encontrar más tarde", mientras que 410 solía significar "no encontrado y no se encontrará porque desapareció para siempre".
Por el momento, Google dice que tratan tanto el 404 como el 410 de la misma manera, por lo que probablemente no tengas que preocuparte si encuentras una página 410 en el informe 404. Lo único que le sugiero que haga es configurar una página 404 personalizada en lugar de una 410 vacía para ahorrar tráfico y evitar que los usuarios abandonen su sitio.
Muchos SEO y propietarios de sitios tienen la costumbre de redirigir los 404 a la página de inicio, pero la verdad es que no es la mejor práctica. Hacerlo resulta confuso para Google y genera problemas 404 leves. Bueno, veamos qué son estos 404 blandos.
Los problemas 404 blandos ocurren cuando una página tiene una respuesta 200 OK pero Google no puede encontrar su contenido y lo considera un 404. Los 404 blandos pueden ocurrir por muchas razones, y es posible que algunas de ellas ni siquiera dependan de usted, como errores en los navegadores de los usuarios. Aquí hay algunas razones más:
Falta un archivo de inclusión del lado del servidor
Una conexión rota a la base de datos
Una página de resultados de búsqueda interna vacía
Un archivo JavaScript descargado o faltante
Muy poco contenido
Encubrimiento de página
En realidad, estos problemas no son tan difíciles de solucionar. A continuación se muestran algunos escenarios comunes:
Si el contenido se ha movido y la página en realidad está 200 OK pero vacía, configure una redirección 301 a la nueva dirección;
Si el contenido eliminado no tiene alternativa, márquelo como 404 y elimínelo del mapa del sitio;
Si la página debe existir, agregue contenido y verifique que todos los scripts que contiene se representen y muestren correctamente (no bloqueados por robots.txt, compatibles con navegadores, etc.);
Si el error se produce porque el servidor no funciona cuando el robot de Google intenta recuperar la página, verifique si el servidor funciona bien. Si es así, solicite la reindexación de esta página.
El error 401 ocurre cuando el robot de Google intenta acceder a una página que requiere autorización y su servidor bloquea el robot para que no lo haga.
Si desea indexar esa página, otorgue al robot de Google el permiso correspondiente o elimine la solicitud de autorización.
Este tipo de error ocurre cuando el agente de usuario proporcionó credenciales para ingresar a la página (inicio de sesión, contraseña), pero no se le concedió acceso para hacerlo. Sin embargo, el robot de Google nunca proporciona credenciales, por lo que el servidor devuelve 403 en lugar de la página deseada.
Si una página ha sido bloqueada por error y realmente necesita indexarla, permita el acceso a usuarios que no hayan iniciado sesión o permita explícitamente que Googlebot ingrese a la página para leerla e indexarla.
Como se desprende del nombre, este error ocurre cuando le pides explícitamente a Google que indexe una página (es decir, la agrega al mapa del sitio o solicita la indexación manualmente), pero esa página tiene una etiqueta noindex.
La solución es bastante simple: elimine la etiqueta noindex para que Google pueda acceder a la página.
Si bloquea una página con la ayuda de robots.txt, Google no la rastreará. Elimina las restricciones para tener la página indexada.
Nota: Robots.txt no garantiza que la página no será indexada. Es por eso que a veces Google Search Console puede mostrarte algo como esto:
Problemas como ese pueden traerle más problemas que las páginas no indexadas, ya que Google puede acceder y revelar información que no estaba destinada a aparecer en las SERP (como carritos, datos privados, etc.).
Si se encuentra con un problema como ese, decida si necesita indexar la página o no. Si es así, elimine la URL del archivo robots.txt. De lo contrario, elimínelo también de robots.txt, pero aplique la etiqueta noindex o limite el acceso a usuarios no autorizados. Una vez que aplique nuevas restricciones, también puede pedirle a Google que elimine la página del índice a través de GSC ( Índice > Eliminaciones > Nueva solicitud).
Este es otro tipo de problema que puede perjudicar el rendimiento de su sitio peor que las páginas no indexadas. Google no favorece las páginas vacías y lo más probable es que reduzca sus posiciones, ya que las páginas vacías son una señal de sitios con spam y contenido de baja calidad.
Si nota que algunas de sus páginas tienen el estado Indexado sin contenido, verifique manualmente la URL para averiguar el motivo. Por ejemplo:
Es posible que la página tenga muy poco contenido;
Es posible que la página tenga contenido que bloquee el procesamiento y que no se cargue correctamente;
El contenido está encubierto.
Toma medidas dependiendo de lo que veas.
Por ejemplo, si la página está demasiado vacía, agregue más contenido. Aquí puede consultar a sus competidores SERP y seguir sus mejores prácticas con la ayuda de la sección Editor de contenido de WebSite Auditor.
Descargar Auditor de Sitio WebSi sospecha que puede haber algún contenido que bloquee el procesamiento en la página afectada, verifique las ventanas emergentes que utilizan scripts de terceros y asegúrese de que funcionen correctamente y que Google pueda leerlas. En definitiva, Google debería ver el contenido de sus páginas de la misma manera que lo ven los usuarios.
Si el contenido de su página está oculto, verifique que Google pueda acceder a todos los scripts o imágenes.
La comunidad SEO ha hablado mucho sobre las redirecciones de URL. Aun así, los SEO siguen cometiendo errores que provocan errores de redireccionamiento y una indexación corrupta. A continuación se detallan algunas razones comunes por las que Google no puede leer las redirecciones correctamente:
Una cadena de redireccionamiento es demasiado larga
Una redirección da como resultado un bucle interminable de redirecciones (bucle de redirección)
Una URL de redireccionamiento supera la longitud máxima de la URL (2 MB para Google Chrome)
Una cadena de redireccionamiento contiene una URL incorrecta o vacía
La única forma de corregir errores de redireccionamiento se reduce a una frase: configurar los redireccionamientos correctamente. Evite cadenas de redireccionamiento largas que solo desperdician el presupuesto de rastreo de SEO y agotan el contenido de los enlaces, asegúrese de que no haya URL 404 o 410 en la cadena y siempre redirija las URL a páginas relevantes.
Los errores del servidor pueden ocurrir porque es posible que el servidor haya fallado, se haya agotado el tiempo de espera o haya estado inactivo cuando apareció el robot de Google.
Lo primero que debe hacer aquí es comprobar la URL afectada. Vaya a la herramienta Inspeccionar URL en GSC y vea si todavía muestra un error. Si está bien, lo único que puede hacer es solicitar la reindexación.
Si todavía hay un error, tiene las siguientes opciones dependiendo de la naturaleza del error:
Reducir la carga excesiva de páginas para solicitudes de páginas dinámicas
Asegúrese de que el servidor de alojamiento de su sitio no esté caído, sobrecargado o mal configurado
Comprueba que no estás bloqueando a Google sin querer
Controle el rastreo y la indexación del sitio de forma inteligente
Una vez que haya solucionado todo, solicite la reindexación para que Google busque la página más rápido.
Duplicar sin canonical seleccionado por el usuario es un problema común para sitios multilingües y/o de comercio electrónico que tienen muchas páginas con contenido idéntico o muy similar diseñado para diferentes propósitos. En este caso, debes marcar una página como canónica para evitar problemas de contenido duplicado.
Esto es algo interesante. Puede suceder que hayas indicado una determinada página como canónica, pero Google decidió elegir otra versión de esa página como canónica, indexándola así en su lugar.
La forma más sencilla de corregir este tipo de errores es colocar una etiqueta canónica en la página elegida por Google para no confundirla en el futuro. Si desea mantener la página canónica que eligió, puede redirigir la página elegida por Google a la URL que necesita.
Google no indexa una página porque es un duplicado de una página canónica. Déjalo como está.
Si una página tiene el estado Descubierto, entonces Google ya la descubrió pero aún no la ha rastreado ni indexado. Lo único que puedes hacer aquí es consultar las instrucciones de indexación de la página en caso de dudas. Si todo está bien (es decir, como querías), deja que Google haga el resto más tarde.
Lógicamente, esta descripción significa que Google ha rastreado tu página pero no la ha indexado. La página será indexada si las instrucciones de indexación no indican lo contrario. No es necesario solicitar una reindexación: el robot de Google sabe que la página está esperando su turno para ser indexada.
Google Search Console puede ayudarte mucho a la hora de detectar y solucionar problemas de indexación. Pero sería demasiado bueno si no hubiera peros. El problema es que Search Console solo muestra problemas cuando Google intenta buscar una página y falla por algún motivo. Si Google ni siquiera descubre una página de este tipo, GSC no tendrá ninguna idea del problema de indexación. Aunque el tema puede ser importante, y en realidad puede que haya muchos de ellos.
WebSite Auditor puede ayudarle a encontrar y solucionar problemas como ese. Vaya a Estructura del sitio > Páginas y habilite la fecha de caché en la columna de Google en el espacio de trabajo que necesite.
Descargar Auditor de Sitio WebAl hacerlo, podrá ver la fecha en que se almacenó en caché una página en Google.
Ahora eche un vistazo a la fecha del caché.
Descargar Auditor de Sitio WebSi la fecha está demasiado alejada (hace más de un año) o falta, lo más probable es que Google no sepa que la página existe. Y hay que descubrir por qué.
Primero, eche un vistazo a la columna Enlaces a la página en el mismo espacio de trabajo. Si no hay enlaces, significa que se trata de una página huérfana y Google no puede encontrarla rastreando su sitio web. Si desea indexar la página, vincúlela desde las páginas relevantes y con mucho tráfico.
Además, consulte la columna Instrucciones de robots y profundice en las páginas marcadas como No permitido. Es posible que haya bloqueado por error las páginas que debían indexarse.
La visualización es un módulo más útil para encontrar problemas de indexación
Descargar Auditor de Sitio WebAquí podrá detectar fácilmente páginas huérfanas (aquellas que no tienen conexiones con otras páginas), páginas rotas (resaltadas en rojo) y largas cadenas de redireccionamiento, que también pueden ser la razón por la cual algunas páginas no se indexan.
Una vez que haya detectado y solucionado todos los problemas, solicite a la herramienta que genere un nuevo mapa del sitio (y un archivo robots.txt si es necesario), que se enviará a Google para que pueda descubrir todas las páginas que necesita.
Descargar Auditor de Sitio WebSi necesita que las URL fijas se indexen lo antes posible, puede solicitar la reindexación manualmente en Google Search Console.
Audite periódicamente cómo se indexan sus páginas, ya que pueden ocurrir errores en cualquier momento. Y por cualquier motivo: desde problemas con el proveedor de alojamiento hasta errores de Google y actualizaciones de Google que pueden afectar la forma en que los algoritmos de Google tratan las cosas.
¿Cuáles son los problemas de indexación que enfrenta con más frecuencia? Comparte tu experiencia en nuestra comunidad SEO de Facebook.