Páginas bloqueadas de la indexación
¿Qué es la indexación?
La indexación es el proceso de analizar las páginas del sitio (esto normalmente lo realizan los motores de búsqueda) y luego, después del rastreo, agregarlas a los índices del motor de búsqueda. Este índice (base de datos) se utiliza luego para formar los resultados de búsqueda, y también para el ranking de las páginas dentro de los resultados de búsqueda (después de que los algoritmos analicen más a fondo las páginas en función de la satisfacción de la intención de la consulta y el SEO exitoso). La indexación la lleva a cabo un rastreador/robot del motor de búsqueda.
¿Por qué necesitamos la capacidad de excluir información de los índices de los motores de búsqueda?
Como regla general, la información que no debe mostrarse en los resultados de búsqueda puede bloquearse de los índices de los motores de búsqueda utilizando la etiqueta "noindex" o bloqueando el rastreo de ciertas secciones/páginas del sitio dentro del archivo robots.txt.
Las páginas que normalmente se bloquean de los motores de búsqueda son de naturaleza técnica, propietaria y confidencial, y se consideran inadecuadas para su colocación en los resultados de búsqueda.
¡Ejemplos de esto dentro de un sitio comercial pueden ser enlaces que apuntan a; cuentas de usuarios, carritos de compras, comparaciones de productos, páginas duplicadas, resultados de búsqueda dentro del sitio y así sucesivamente!
Estas páginas son valiosas para los clientes y esenciales para la funcionalidad del sitio, pero no son útiles para los índices de los motores de búsqueda.
Formas de bloquear páginas para que no sean indexadas por los motores de búsqueda
Hay muchas maneras de prevenir la indexación de páginas:
1.- Usando un archivo robots.txt.
Robots.txt es un archivo de texto que le dice a los motores de búsqueda qué páginas puede indexar y cuáles no puede indexar.
Para bloquear una página de la indexación en robots.txt, debe usar la directiva Disallow.
Ejemplo de un archivo robots.txt que permite la indexación de páginas de catálogo mientras bloquea la indexación del carrito:
# El contenido del archivo robots.txt,
# que debe estar en el directorio raíz del sitio
# permitir la indexación de páginas y archivos que comienzan con '/catalog'
Allow: /catalog
# bloquear la indexación de páginas y archivos que comienzan con '/cart'
Disallow: /cart
2.- Usando la etiqueta <meta> robots con el atributo noindex.
Para bloquear una página usando este atributo, debe agregar las siguientes líneas a la sección <head>
de la página:
Para bloquear toda la página de la indexación, debe colocar la siguiente línea en el bloque <head>
de la propia página:
<meta name="robots" content="noindex">
3.- No seguir enlaces para que no indexen la página a la que están vinculando.
Hay dos maneras de hacer esto:
1.- Bloquear al rastreador siguiendo un enlace caso por caso:
<a href="/page" rel="nofollow"> texto del enlace </a>
Tenga en cuenta que este método solo funcionará si cada enlace a la página tiene el atributo "nofollow". Si falta este atributo en un enlace, el rastreador del motor de búsqueda lo seguirá y la página aún se indexará.
2.- Bloquear al rastreador siguiendo cualquier enlace en la página dándole a la propia página el atributo nofollow:
Al agregar la línea a continuación en el bloque <head> de la página, el rastreador se bloqueará de seguir la página y, por lo tanto, cualquier enlace contenido dentro de la página no se indexará.
<meta name="robots" content="nofollow" />
4.- También puede bloquear la página para que no sea rastreada por cualquier motor de búsqueda específico en el encabezado de la página HTML, por ejemplo:
Puede colocar esta línea en el bloque <head> de la propia página; esto bloqueará la página para que no sea indexada por Google (ya que ha bloqueado completamente su rastreador):
<meta name="googlebot" content="noindex">
También puede optar por "noindex" una página específica mientras permite que Google siga los enlaces en dicha página, y luego indexe las páginas vinculadas desde la página "noindex":
<meta name="googlebot" content="noindex, follow">
5.- Página canónica.
El atributo rel=canonical se usa para indicar al motor de búsqueda que la página es una página canónica (la más autorizada). Esto indica al rastreador que esta es la página preferida para indexar y es el ejemplo más autorizado de este contenido en su sitio.
Especificar páginas canónicas es necesario para evitar que se indexen páginas con contenido idéntico, lo que puede dañar la clasificación de la página en el SERP.
Usaría este atributo cuando tenga varias páginas con contenido idéntico pero con diferentes URL para diferentes dispositivos:
- https://example.com/news/
- https://m.example.com/news/
- https://amp.example.com/news/
O cuando hay varias opciones de 'ordenar' disponibles para la página que alterarán la URL de la página pero mostrarán el mismo contenido:
- https://example.com/catalog/
- https://example.com/catalog?sort=date
- https://example.com/catalog?sort=cost
O si el enlace especifica los diferentes tamaños de un producto dado dentro de la URL:
- https://example.com/catalog/shirt
- https://example.com/catalog/shirt?size=XL
- https://example.com/catalog/shirt38
El atributo rel=canonical se aplica de la siguiente manera:
<link rel=canonical href="https://example.com/catalog/shirt" />
Nota: debe colocar este atributo en el bloque <head> de la página
También es posible ingresar la página canónica deseada en el encabezado de la solicitud HTTP.
Sin embargo, tenga cuidado, ya que sin el uso de complementos especiales para su navegador, no podrá verificar si este atributo se ha configurado correctamente, ya que la mayoría de los navegadores no muestran encabezados HTTP a sus usuarios.
HTTP / 1.1 200 OK
Puede leer más sobre páginas canónicas en la documentación de Google.
Link: <https://example.com/catalog/shirt>; rel=canonical
6,. Usando el encabezado de solicitud HTTP "X-Robots-Tag" para una URL específica:
HTTP / 1.1 200 OK
X-Robots-Tag: google: noindex
Tenga cuidado, ya que sin el uso de complementos especiales para su navegador, no podrá verificar si este atributo se ha configurado correctamente, ya que la mayoría de los navegadores no muestran encabezados HTTP a sus usuarios.
¿Cómo encuentro páginas que han sido bloqueadas de la indexación en mi sitio?
Puede ver esta información en la sección "Auditoría SEO" - "Páginas bloqueadas de la indexación" de su panel de control de Labrika.
En la página del informe, puede filtrar los resultados para ver cualquier página de destino que haya sido bloqueada de la indexación. Para hacer esto, debe hacer clic en el botón "error crítico".
Normalmente, cuando un rastreador de motor de búsqueda visita su sitio, rastreará todas las páginas que pueda encontrar a través de enlaces internos y luego las indexará en consecuencia.
El objetivo de este informe es mostrar cualquier página que haya sido bloqueada de la indexación. Estas tienden a ser páginas que no tienen palabras clave en los 50 mejores resultados de búsqueda, y pueden haber sido bloqueadas intencionalmente de la indexación por los motores de búsqueda por usted.
Informe de "Páginas bloqueadas de la indexación" de Labrika
- La URL de cualquier página que esté bloqueada de la indexación actualmente.
- La directiva en robots.txt que está bloqueando la indexación de esta página (si la página está bloqueada de la indexación en Google por este método).
- Si esta página ha sido bloqueada mediante el atributo nofollow.
¿Cómo evito que una página sea noindexada que se encuentra en este informe?
En muchos sistemas modernos de gestión de contenido (CMS), puede cambiar el archivo robots.txt, rel=canonical, la etiqueta meta "robots", los atributos "noindex" y "nofollow". Por lo tanto, para hacer que una página sea indexable nuevamente que se encuentra en este informe, solo necesitaría eliminar el atributo/etiqueta que está causando que esta página no se indexe. Hay muchos complementos simples que le permiten hacer esto. Si no puede cambiarlo usted mismo, sería una tarea relativamente simple subcontratar a un desarrollador.