Los robots de los buscadores como los de Google y resto de motores de búsqueda (también llamados crawlers, arañas e indexadores) son muy obedientes en cuanto a que páginas incluir en sus índices y cuales no, según le indique el archivo robots.txt que existe en muchas webs.
¿PORQUÉ RETIRAR PÁGINAS DE LOS RESULTADOS DE BÚSQUEDA?
Podemos tener sospechas de una página nos puede estar perjudicando porque sabemos que Google penaliza duramente el contenido copiado, o porque incluye algún enlace que creemos que Google interpretará cómo un intercambio o una venta de enlaces.
Paper Airplane Hoop Art (Photo credit: Hey Paul Studios) |
Alguna de las páginas que debemos plantear retirar de los resultados de los buscadores (no de nuestro sitio) son, por ejemplo:
- páginas con contenido duplicado, fuera de temática o irrelevantes para los usuarios de los buscadores (páginas de inicio y cierre de sesión, etc).
- análisis patrocinados cómo los de Teliad o Exponsor, con lo que podemos ganar bastante dinero (ahora sin preocuparse), mensajes de agradecimiento a nuestros lectores, avisos y alertas, etc.
- contenido copiado total o parcialmente de otras fuentes.
- en menor medida y en algunos casos especiales: Información obsoleta, atrasada o anticuada.
Debéis tener en cuenta que la edición del archivo robots.txt no sirve como medida de seguridad, es más, entre otros, podríamos estar dándole pistas a los hackers sobre donde buscar la información confidencial.
¿CÓMO RETIRAR PÁGINAS ESPECÍFICAS DE LOS RESULTADOS DE BÚSQUEDA?
A continuación; los pasos para bloquear una página de los resultados de búsqueda:
- Localizar la página o las páginas que queremos hacer desaparecer de Google.
- Copiar la dirección URL canónica (acabada en ".html" - sin nada más allá).
- Incluirla en el archivo de los robots. Te lo explico a continuación:
Editar el archivo robots.txt de Blogger es muy sencillo. Basta con ir a Preferencias de búsqueda en Configuración y Editar el archivo robots.txt personalizado.
Una vez dentro, sólo hay que indicarle el tipo de robot al que nos dirigimos y lo que queremos que haga con esa carpeta. Por ejemplo, puedes modificar esta plantilla y pegarla ahí:
User-agent: *
Disallow: /2012/11/pagina-a-quitar.html
User-agent: Mediapartners-Google
Allow: /
En User-agent se especifica el robot. Usando un asterisco los incluimos a todos. Con Disallow retiramos los recursos del acceso a ese robot. Es por eso que debemos incluir el de Adsense (Mediapartners-Google) para seguir teniendo publicidad orientada en esa página.
Recuerda que la página no se quita de tu blog, se quita de los resultados de búsqueda de todos los buscadores autorizados. Pero no usaremos este código directamente, que aunque funciona y es correcto, se puede mejorar para conseguir todavía mejores resultados en las posiciones de los resultados de los buscadores.
EL CÓDIGO FINAL PARA INSERTAR EN TU ARCHIVO ROBOTS.TXT
A continuación te lo presento, recuerda cambiar las X primeras direcciones:
# generado en el Exprimiblog
User-agent: *
Disallow: /2012/11/pagina-a-quitar.html
Disallow: /p/sobre-ti.html
Disallow: /search
Allow: /
User-agent: Mediapartners-Google
Allow: /
Sitemap: http://tublog.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: http://tublog.blogspot.com/atom.xml?redirect=false&start-index=501&max-results=500
Lo editamos cambiando las rutas en verde por las direcciones reales de tu blog y listo. Sencillo. La próxima vez que cualquier robot (User-agent:*) pase por tu sitio no mostará (Disallow:) las rutas marcadas en tu archivo robots.txt.
Nota: usando "/search/*?" en lugar de "/search" cómo mucha gente prefiere usar, estamos permitiendo que las páginas en donde se muestran los artículos de las categorías también se indexe (aunque se podría considerar contenido duplicado, pero también te puede beneficiar, sobre todo si ya estás bien posicionado con ella).
En Sitemap señalamos nuestro mapa del sitio consiguiendo un acceso a él desde el primer momento. No me digáis no que os he ayudado...
¿Alguna opción más?
Hay muchas opciones para configurar nuestro archivo robots.txt.
Por ejemplo, imaginemos que tenemos un blog acerca de eventos que se celebran cada año, de entradas para espectáculos u otras cosas así. Podría interesarnos entonces loquear todas las entradas de un año específico para que las del año actual tengan más visibilidad:
O las de uno o varios meses de uno o varios años:
También podemos bloquear páginas que incluyan algún término específico (siempre en su URL). Pero hay que tener cuidado porque podemos bloquear otras páginas sin querer.
O algún tipo de archivo (aunque esto en blogger no es posible subirlos):
Todas las imágenes de nuestro sitio en los principales buscadores de imágenes (que no recomiendo a no ser que las hayamos plagiado);
Hacer desaparecer tu sitio de los buscadores sin renunciar a un Adsense orientado
Por ejemplo, imaginemos que tenemos un blog acerca de eventos que se celebran cada año, de entradas para espectáculos u otras cosas así. Podría interesarnos entonces loquear todas las entradas de un año específico para que las del año actual tengan más visibilidad:
Disallow: /2014/* # bloquea todo el año 2014
Disallow: /2013/* # y así sucesivamente,
Disallow: /2012/* # este debería ser el año de la primera publicación.
O las de uno o varios meses de uno o varios años:
Disallow: /*/08 # Bloquea todos los agostos,
Disallow: /2012/08 # bloquea solo al agosto de 2012
También podemos bloquear páginas que incluyan algún término específico (siempre en su URL). Pero hay que tener cuidado porque podemos bloquear otras páginas sin querer.
Disallow: /*patrocinado
Disallow: /*anuncio
O algún tipo de archivo (aunque esto en blogger no es posible subirlos):
Disallow: /*.pdf
Todas las imágenes de nuestro sitio en los principales buscadores de imágenes (que no recomiendo a no ser que las hayamos plagiado);
User-agent: Googlebot-Image # El buscador de imágenes de Google
Disallow: /
User-agent: Yahoo-MMCrawler # El de imágenes de Yahoo
Disallow: /
User-agent: msnbot # El de Bing que el mismo que para los sitios web
Disallow: /*.jpg$ # por eso hay que bloquear cada tipo de archivo
Disallow: /*.jpeg$ # por sus extensiones
Disallow: /*.gif$
Disallow: /*.png$
Hacer desaparecer tu sitio de los buscadores sin renunciar a un Adsense orientado
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /
¿CÓMO SABER SI EL ARCHIVO ROBOTS.TXT FUNCIONA?
Este que yo he generado funciona correctamente, pero si añades alguna dirección comprometida o modificas algo te recomiendo probar el archivo robots.txt de tu sitio. Para ello, sigue estos pasos:
- Accede a Herramientas para Webmasters de Google y conecta con tu sitio
- En la opción de estado, selecciona URL bloqueadas y Probar robots.txt.
- Copia el contenido de tu archivo robots.txt y pégalo en el primer cuadro.
- En el segundo cuadro indica la dirección de tu sitio y en la lista User-agents, selecciona los robots.
En los resultados deberá obtener algo cómo "Autorización por línea 11. Se ha detectado como directorio; los archivos concretos pueden tener distintas restricciones" y "Se ha detectado una referencia de sitemap válida." para saber que todo es correcto para Google.
¿Qué tal? ¿A qué ahora parece más sencillo? Si estáis pensando en crear un archivo robots.txt mejor para Blogger echad un vistazo aquí. Podéis agradecer con un comentario ;)
Recuerda que además puedes usar las etiquetas meta para la misma función, aunque tendrías que ir página por página y en Blogger es muy complicado, sino casi imposible, modificar las cabeceras de páginas individuales. No obstante el valor NOFOLLOW de los enlaces también te puede ser útil si estás buscando retirar páginas de los resultados de búsqueda.