Los robots de búsqueda indexan un sitio web independientemente de la existencia de robots.txt
y sitemap.xml
. A través del archivo robots.txt
, se puede indicar a los motores de búsqueda qué excluir de la indexación y ajustar otros parámetros importantes.
Es importante tener en cuenta que los rastreadores de los motores de búsqueda ignoran ciertas reglas, por ejemplo:
Las directivas son reglas para los robots. Existe una especificación del W3C desde el 30 de enero de 1994 y un estándar ampliado desde 1996.
User-agent: es la directiva que inicia el archivo robots.txt
.
Ejemplo:
User -agent: * # instrucciones para todos los robots de búsqueda. User -agent: GoogleBot # instrucciones para el robot de Google. Disallow: / # directiva que prohíbe la indexación de lo que se indica después de /. Allow: / # directiva que permite la indexación de la URL. Disallow: # no funciona sin el carácter especial /. Allow: / # se ignora si no se especifica una URL después de /.
Presta atención al carácter /, ya que se puede cometer un gran error escribiendo, por ejemplo:
User -agent: * Disallow: / # de esta manera se puede cerrar todo el sitio de la indexación.
El carácter * significa cualquier secuencia de caracteres, incluida la vacía, por ejemplo:
Disallow: /cart/* # cierra de la indexación todas las páginas después de la URL: site.com/cart/
El carácter $ limita la acción del carácter *, proporcionando una restricción estricta:
User -agent: * Disallow: /catalog # con este carácter no se indexará catalog, pero catalog.html estará en el índice.
La directiva sitemap indica la ruta al mapa del sitio y se ve así:
User -agent: * Allow: / Sitemap: http://www.site.com/sitemap.xml # debe indicarse con http:// o https://, https:// se indica si se ha conectado un certificado SSL.
La directiva Host indica el dominio principal del sitio con www o sin www.
User -agent: * Allow: / Sitemap: http://www.site.com/sitemap.xml Host: www.site.com # se debe escribir la ruta al dominio sin http y sin barras, asegúrate de que el dominio esté unido. Sin una correcta unión del dominio, la misma página puede aparecer en el índice de los motores de búsqueda más de una vez, lo que puede llevar a una penalización.
La directiva Crawl-Delay limita la carga en el servidor, estableciendo un tiempo de espera para los motores de búsqueda:
User -agent: * Crawl-delay: 2 # establece un tiempo de espera de 2 segundos. User -agent: * Disallow: /search Crawl-delay: 4.5 # establece un tiempo de espera de 4.5 segundos.
La directiva Clean-Param es necesaria si las direcciones de las páginas del sitio contienen parámetros dinámicos que no afectan el contenido, como identificadores de sesión, usuarios, referidos, etc.
El robot de búsqueda, utilizando los valores de la directiva Clean-Param, no volverá a cargar información duplicada. De esta manera, se aumentará la eficiencia del rastreo de tu sitio y se reducirá la carga en el servidor.
Por ejemplo, páginas con direcciones como:
www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123
El parámetro ref se utiliza solo para rastrear de qué recurso se realizó la solicitud y no cambia el contenido; en las tres direcciones se mostrará la misma página con el libro book_id=123. Entonces, si se indica la directiva de la siguiente manera:
User -agent: GoogleBot Disallow: Clean-param: ref /some_dir/get_book.pl
el robot de búsqueda reducirá todas las direcciones de la página a una:
www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123,
También vale la pena señalar que para esta directiva hay varias opciones de configuración.
Es importante tener en cuenta que un archivo de más de 32 KB se lee como completamente permisivo, independientemente de lo que esté escrito.
El llenado excesivo de robots.txt. Los webmasters principiantes se impresionan con artículos que dicen que todo lo innecesario debe cerrarse en robots.txt y comienzan a cerrar prácticamente todo, excepto el texto en páginas estrictamente determinadas. Esto, dicho suavemente, es incorrecto. En primer lugar, existe la recomendación de no cerrar scripts, CSS y otros elementos que pueden impedir que el bot vea el sitio como lo ve un usuario. En segundo lugar, una gran cantidad de errores están relacionados con el hecho de que al cerrar uno, el usuario cierra otro también. Sin duda, se puede y se debe verificar la accesibilidad de la página y sus elementos. Como opción de error, hay confusión con la secuencia de Allow y Disallow. Lo mejor es cerrar en robots.txt solo cosas que son claramente innecesarias para el bot, como formularios de registro, páginas de redireccionamiento de enlaces, etc., y eliminar duplicados mediante canonical. Ten en cuenta que corregir robots.txt no significa que el bot de búsqueda lo vuelva a leer de inmediato. Para acelerar este proceso, basta con revisar robots.txt en la sección correspondiente del webmaster.
Ejemplos de robots.txt configurados correctamente para diferentes CMS:
User -Agent: * Allow: /wp-content/uploads/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Disallow: /tag Disallow: /category Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Host: site.com Sitemap: http://site.com/sitemap.xml
User -agent: * Disallow: /manager/ Disallow: /assets/components/ Disallow: /core/ Disallow: /connectors/ Disallow: /index.php Disallow: *? Host: example.com Sitemap: http://example.com/sitemap.xml
User -agent: * Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route=product/search Disallow: /index.php?route=product/product*&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /download Disallow: /export Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?filter_name= Disallow: /*&filter_name= Disallow: /*?filter_sub_category= Disallow: /*&filter_sub_category= Disallow: /*?filter_description= Disallow: /*&filter_description= Disallow: /*?tracking= Disallow: /*&tracking= Disallow: /*?page= Disallow: /*&page= Disallow: /wishlist Disallow: /login Disallow: /index.php?route=product/manufacturer Disallow: /index.php?route=product/compare Disallow: /index.php?route=product/category
User -agent:* Allow: /index.php?option=com_xmap&sitemap=1&view=xml Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /go.php Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /*com_mailto* Disallow: /*pop=* Disallow: /*lang=es* Disallow: /*format=* Disallow: /*print=* Disallow: /*task=vote* Disallow: /*=watermark* Disallow: /*=download* Disallow: /*user/* Disallow: /.html Disallow: /index.php? Disallow: /index.html Disallow: /*? Disallow: /*% Disallow: /*& Disallow: /index2.php Disallow: /index.php Disallow: /*tag Disallow: /*print=1 Disallow: /trackback Host: tu_sitio
User -agent: * Disallow: /*index.php$ Disallow: /bitrix/ Disallow: /auth/ Disallow: /personal/ Disallow: /upload/ Disallow: /search/ Disallow: /*/search/ Disallow: /*/slide_show/ Disallow: /*/gallery/*order=* Disallow: /*?print= Disallow: /*&print= Disallow: /*register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*?action= Disallow: /*action=ADD_TO_COMPARE_LIST Disallow: /*action=DELETE_FROM_COMPARE_LIST Disallow: /*action=ADD2BASKET Disallow: /*action=BUY Disallow: /*bitrix_*= Disallow: /*backurl=* Disallow: /*BACKURL=* Disallow: /*back_url=* Disallow: /*BACK_URL=* Disallow: /*back_url_admin=* Disallow: /*print_course=Y Disallow: /*COURSE_ID= Disallow: /*?COURSE_ID= Disallow: /*?PAGEN Disallow: /*PAGEN_1= Disallow: /*PAGEN_2= Disallow: /*PAGEN_3= Disallow: /*PAGEN_4= Disallow: /*PAGEN_5= Disallow: /*PAGEN_6= Disallow: /*PAGEN_7= Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*PAGE_NAME=search Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*SHOWALL Disallow: /*show_all= Host: sitename.com Sitemap: http://www.sitename.com/sitemap.xml
En estos ejemplos, en la indicación User-Agent se ha indicado el parámetro *, que permite el acceso a todos los robots de búsqueda. Para configurar robots.txt para motores de búsqueda específicos, se utiliza el nombre del robot: GoogleBot, etc.