El archivo robots.txt ideal para tu blog de Blogger

Usa el archivo robots.txt con cuidado, si no estás seguro de lo que haces o de si lo necesitas, te recomiendo no usarlo. Si tienes dudas puedes preguntar, pero antes revisa los otros comentarios.

Entre las opciones de Blogger hay una que pasa muy desapercibida pero que tiene una importancia "vital" para una buena estrategia a largo plazo y a corto para el SEO. Se trata del archivo robots.txt personalizado.

Ni tan personalizado ni para este tipo de robot

El archivo robots.txt es un fichero de texto que los rastreadores "honrados" de la web visitan antes de analizar tu sitio. Lo hacen para conocer las directrices para el indexado (inclusión en el índice), entre otras cosas, que le indiques. Estos robots son de buscadores cómo Yahoo, Google o Bing, pero también los de anuncios cómo Adsense, e imágenes cómo Google Images.

¿Por qué debemos añadir un archivo robots.txt personalizado?

Con el archivo robots.txt personalizado podemos indicar los buscadores, directivas para que indexen o no, determinado contenido. Lo más usual sería retirar las páginas o entradas que podrían perjudicar nuestro posicionamiento.

Paralelamente; en los blogs, y muchos otros formatos de web, tenemos un problema por el contenido duplicado que se genera cuando incluimos las entradas en secciones por etiquetas (directorio search en Blogger) o simplemente se almacenan en el archivo por periodos de tiempo (directorio archive en Blogger). Los rastreadores encuentran el mismo contenido con diferentes direcciones, y en algunos casos, como el de Google, nos puede acusar de un problema que, por desconocimiento -y falta de información precisa-, hemos generado.

Para solucionar el problema del contenido duplicado que se genera al tener el mismo contenido en diferentes direcciones el archivo robots.txt, tiene (en parte) la solución; impedir que los rastreadores incluyan en el índice de resultados de sus buscadores las direcciones a las páginas de etiquetas y archivo.

No es una medida efectiva al 100% porque seguirán existiendo enlaces que apunten a las direcciones que queremos bloquear; unos en nuestro blog -que podemos cambiar o añadir el atributo nofollow- y otros fuera de él.

Si no me equivoco en breve se acerca una novedad a Blogger que si lo permitirá, mientras, podemos y debemos usar las etiquetas de encabezado de robots personalizadas que nos permitiran retirar todo este contenido duplicado generado por Blogger.

El archivo ideal y cómo añadirlo en Blogger

Este archivo ha sido actualizado en junio de 2016 y agosto de 2017.

Es muy sencillo de hacer en Blogger. Para ello copiamos el siguiente texto y lo pegamos en la sección de Blogger dedicada a ello (Configuración -> Preferencias para motores de búsqueda -> Archivo robots.txt personalizado -> Editar):

# Archivo robots.txt personalizado | Exprimiblog.
User-agent: Mediapartners-Google # Sólo para el robot de Adsense
Disallow: # Al robot de Adsense le dejamos rastrear todas las páginas

User-agent: * # Todos los rastreadores se dan por aludidos.
# Disallow: /*? # Bloquea URLs que incluyan signo de interrogación (anulado)
Disallow: /*archive/ # Bloquea los directorios que acaben por archive

# Incluimos la dirección del sitemap xml para entradas y páginas

Sitemap: http://**tublog**.blogspot.com/sitemap-pages.xml
Sitemap: http://**tublog**.blogspot.com/sitemap.xml

Puedes copiar el código desde aquí. La quinta linea de texto está totalmente anulada (con #, lo que es lo mismo que no incluirla), te explico el motivo aquí (además parece que Google ya no está indexando como duplicadas ninguna de las páginas de los blogs de Blogger).

Al bloquear las URLs que contienen al menos un signo de interrogación estamos bloqueando por ejemplo las páginas con plantillas móviles de blogger, ya que están termina en ?m=1. Esto no significa que las personas no accedan a ellas normalmente, sólo que los robots no las incluirán en los índices, y esto es lo correcto pues no tienen un contenido diferente al original.

Todo lo que va después del # es un comentario, hasta el salto de línea así que los rastreadores no le harán caso.

Ten en cuenta que cuando copias texto de este blog se añade una línea al final con un enlace al mismo. Bórrala después de copiarla.

Sustituye **tublog**.blogspot.com por el nombre de tu blog. Esto incluirá el sitemap completo de tu sitio (el primero las entradas y el segundo las páginas), independientemente del número de entradas publicadas, no como antes.

Como verás, hay un sitemap para las entradas y otro más nuevo para las páginas. Si no desees que tus páginas se indexen pueden no incluirlo, pero se indexarán igual. Para evitar que algunas páginas sean vistas desde Google, solamente usa las cabeceras de robots personalizadas.

Esto ya está obsoleto y no es necesario añadirlo:

Si tienes más de 500 entradas, o tienes previsto alcanzarlas, agrega algunas de estas -o más, pero fíjate en la correlación de números- líneas para tu sitemap XML, aquí tienes la explicación de porque hay que hacerlo así:

~~Sitemap: http://**tublog**.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=150~~
~~Sitemap: http://**tublog**.blogspot.com/atom.xml?redirect=false&start-index=151&max-results=150~~
~~Sitemap: http://**tublog**.blogspot.com/atom.xml?redirect=false&start-index=301&max-results=150~~
~~Sitemap: http://**tublog**.blogspot.com/atom.xml?redirect=false&start-index=451&max-results=150~~

Listo, la próxima vez que el robot de Google pase por tu sitio ya no tendrás más problemas con el contenido duplicado que aparece en las páginas de categorías ni archivo. Recuerda que puede crear tantas categorías cómo Blogger te permita.

Por supuesto, hay muchas más formas de configurar tu archivo robots.txt. Además de este archivo es recomendable entender el uso correcto del atributo nofollow.

Exprimiblog: Rentabilizar tu blog

Buscar este blog