Junio 17, 2025

Guía Completa sobre el Archivo Robots.txt para SEO

Los robots de búsqueda indexan un sitio web independientemente de la existencia de robots.txt y sitemap.xml. A través del archivo robots.txt, se puede indicar a los motores de búsqueda qué excluir de la indexación y ajustar otros parámetros importantes.

Es importante tener en cuenta que los rastreadores de los motores de búsqueda ignoran ciertas reglas, por ejemplo:

El bot de Google no utiliza la directiva host ni Crawl-Delay.
Los robots específicos pueden ignorar directivas generales si no están escritas específicamente para ellos.

Directivas

Las directivas son reglas para los robots. Existe una especificación del W3C desde el 30 de enero de 1994 y un estándar ampliado desde 1996.

Directivas Comunes

User-agent: es la directiva que inicia el archivo robots.txt.

Ejemplo:

User -agent: * # instrucciones para todos los robots de búsqueda.
User -agent: GoogleBot # instrucciones para el robot de Google.
Disallow: / # directiva que prohíbe la indexación de lo que se indica después de /.
Allow: / # directiva que permite la indexación de la URL.
Disallow: # no funciona sin el carácter especial /.
Allow: / # se ignora si no se especifica una URL después de /.

Caracteres Especiales en robots.txt

Presta atención al carácter /, ya que se puede cometer un gran error escribiendo, por ejemplo:

User -agent: *
Disallow: / # de esta manera se puede cerrar todo el sitio de la indexación.

El carácter * significa cualquier secuencia de caracteres, incluida la vacía, por ejemplo:

Disallow: /cart/* # cierra de la indexación todas las páginas después de la URL: site.com/cart/

El carácter $ limita la acción del carácter *, proporcionando una restricción estricta:

User -agent: *
Disallow: /catalog # con este carácter no se indexará catalog, pero catalog.html estará en el índice.

La directiva sitemap indica la ruta al mapa del sitio y se ve así:

User -agent: * 
Allow: / 
Sitemap: http://www.site.com/sitemap.xml # debe indicarse con http:// o https://, https:// se indica si se ha conectado un certificado SSL.

La directiva Host indica el dominio principal del sitio con www o sin www.

User -agent: *
Allow: / 
Sitemap: http://www.site.com/sitemap.xml 
Host: www.site.com # se debe escribir la ruta al dominio sin http y sin barras, asegúrate de que el dominio esté unido. Sin una correcta unión del dominio, la misma página puede aparecer en el índice de los motores de búsqueda más de una vez, lo que puede llevar a una penalización.

La directiva Crawl-Delay limita la carga en el servidor, estableciendo un tiempo de espera para los motores de búsqueda:

User -agent: * Crawl-delay: 2 # establece un tiempo de espera de 2 segundos.
User -agent: * 
Disallow: /search 
Crawl-delay: 4.5 # establece un tiempo de espera de 4.5 segundos.

La directiva Clean-Param es necesaria si las direcciones de las páginas del sitio contienen parámetros dinámicos que no afectan el contenido, como identificadores de sesión, usuarios, referidos, etc.

El robot de búsqueda, utilizando los valores de la directiva Clean-Param, no volverá a cargar información duplicada. De esta manera, se aumentará la eficiencia del rastreo de tu sitio y se reducirá la carga en el servidor.

Por ejemplo, páginas con direcciones como:

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123
www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123 
www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123

El parámetro ref se utiliza solo para rastrear de qué recurso se realizó la solicitud y no cambia el contenido; en las tres direcciones se mostrará la misma página con el libro book_id=123. Entonces, si se indica la directiva de la siguiente manera:

User -agent: GoogleBot
Disallow:
Clean-param: ref /some_dir/get_book.pl

el robot de búsqueda reducirá todas las direcciones de la página a una:

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123,

También vale la pena señalar que para esta directiva hay varias opciones de configuración.

Recomendaciones sobre qué cerrar en el archivo robots.txt

El panel administrativo - pero ten en cuenta que la ruta a tu panel administrativo será conocida, asegúrate de la seguridad de la contraseña en el panel de gestión del sitio.
El carrito, el formulario de pedido y los datos de entrega y pedidos.
Páginas con parámetros de filtros, ordenación y comparación.

Errores que pueden estar en robots.txt

Una línea vacía - no es aceptable hacer una línea vacía en la directiva user-agent, que según las reglas de robots.txt se considera "separadora" (en relación con los bloques de descripciones). Esto significa que no se puede predecir la aplicabilidad de las directivas que siguen a la línea vacía.
En caso de conflicto entre dos directivas con prefijos de la misma longitud, se da prioridad a la directiva Allow.
Para cada archivo robots.txt se procesa solo una directiva Host. Si hay varias directivas en el archivo, el robot utiliza la primera.
La directiva Clean-Param es interseccional, por lo que puede indicarse en cualquier lugar del archivo robots.txt. Si se indican varias directivas, todas serán consideradas por el robot.
Seis robots de búsqueda no siguen las reglas de Robots.txt. Para prohibir su indexación en el sitio, se deben crear parámetros user-agent separados para cada uno de ellos.
La directiva User-agent siempre debe escribirse por encima de la directiva que prohíbe.
Una línea, para un directorio. No se pueden escribir múltiples directorios en una línea.
El nombre del archivo debe ser solo: robots.txt. No Robots.txt, ROBOTS.txt, etc. Solo letras minúsculas en el nombre.
En la directiva host, se debe escribir la ruta al dominio sin http y sin barras. Incorrecto: Host: http://www.site.com/, Correcto: Host: www.site.com (o site.com)
Al utilizar un protocolo seguro https en la directiva host (para el robot de búsqueda), es necesario indicarlo con el protocolo, así: Host: https://www.site.com

Verificación de errores en robots.txt

Es importante tener en cuenta que un archivo de más de 32 KB se lee como completamente permisivo, independientemente de lo que esté escrito.

El llenado excesivo de robots.txt. Los webmasters principiantes se impresionan con artículos que dicen que todo lo innecesario debe cerrarse en robots.txt y comienzan a cerrar prácticamente todo, excepto el texto en páginas estrictamente determinadas. Esto, dicho suavemente, es incorrecto. En primer lugar, existe la recomendación de no cerrar scripts, CSS y otros elementos que pueden impedir que el bot vea el sitio como lo ve un usuario. En segundo lugar, una gran cantidad de errores están relacionados con el hecho de que al cerrar uno, el usuario cierra otro también. Sin duda, se puede y se debe verificar la accesibilidad de la página y sus elementos. Como opción de error, hay confusión con la secuencia de Allow y Disallow. Lo mejor es cerrar en robots.txt solo cosas que son claramente innecesarias para el bot, como formularios de registro, páginas de redireccionamiento de enlaces, etc., y eliminar duplicados mediante canonical. Ten en cuenta que corregir robots.txt no significa que el bot de búsqueda lo vuelva a leer de inmediato. Para acelerar este proceso, basta con revisar robots.txt en la sección correspondiente del webmaster.

Ejemplos de robots.txt configurados correctamente para diferentes CMS:

WordPress

User -Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: site.com
Sitemap: http://site.com/sitemap.xml

ModX

User -agent: *
Disallow: /manager/
Disallow: /assets/components/
Disallow: /core/
Disallow: /connectors/
Disallow: /index.php
Disallow: *?
Host: example.com
Sitemap: http://example.com/sitemap.xml

OpenCart

User -agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login
Disallow: /index.php?route=product/manufacturer
Disallow: /index.php?route=product/compare
Disallow: /index.php?route=product/category

Joomla

User -agent:*
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /go.php
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*com_mailto*
Disallow: /*pop=*
Disallow: /*lang=es*
Disallow: /*format=*
Disallow: /*print=*
Disallow: /*task=vote*
Disallow: /*=watermark*
Disallow: /*=download*
Disallow: /*user/*
Disallow: /.html
Disallow: /index.php?
Disallow: /index.html
Disallow: /*?
Disallow: /*%
Disallow: /*&
Disallow: /index2.php
Disallow: /index.php
Disallow: /*tag
Disallow: /*print=1
Disallow: /trackback
Host: tu_sitio

Bitrix

User -agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*?action=
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BASKET
Disallow: /*action=BUY
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*?COURSE_ID=
Disallow: /*?PAGEN
Disallow: /*PAGEN_1=
Disallow: /*PAGEN_2=
Disallow: /*PAGEN_3=
Disallow: /*PAGEN_4=
Disallow: /*PAGEN_5=
Disallow: /*PAGEN_6=
Disallow: /*PAGEN_7=
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*PAGE_NAME=search
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*SHOWALL
Disallow: /*show_all= 
Host: sitename.com
Sitemap: http://www.sitename.com/sitemap.xml

En estos ejemplos, en la indicación User-Agent se ha indicado el parámetro *, que permite el acceso a todos los robots de búsqueda. Para configurar robots.txt para motores de búsqueda específicos, se utiliza el nombre del robot: GoogleBot, etc.

¿Por qué no probarlo ahora?