Mejorar el posicionamiento retirando páginas y entradas de los resultados de búsqueda

votar
Los robots de los buscadores como los de Google y resto de motores de búsqueda (también llamados crawlers, arañas e indexadores) son muy obedientes en cuanto a que páginas incluir en sus índices y cuales no, según le indique el archivo robots.txt que existe en muchas webs.

¿PORQUÉ RETIRAR PÁGINAS DE LOS RESULTADOS DE BÚSQUEDA?


Podemos tener sospechas de una página nos puede estar perjudicando porque sabemos que Google penaliza duramente el contenido copiado, o porque incluye algún enlace que creemos que Google interpretará cómo un intercambio o una venta de enlaces.

Paper Airplane Hoop Art
Paper Airplane Hoop Art (Photo credit: Hey Paul Studios)
Alguna de las páginas que debemos plantear retirar de los resultados de los buscadores (no de nuestro sitio) son, por ejemplo:
  • páginas con contenido duplicado, fuera de temática o irrelevantes para los usuarios de los buscadores (páginas de inicio y cierre de sesión, etc).
  • análisis patrocinados cómo los de Teliad o Exponsor, con lo que podemos ganar bastante dinero (ahora sin preocuparse), mensajes de agradecimiento a nuestros lectores, avisos y alertas, etc.
  • contenido copiado total o parcialmente de otras fuentes.
  • en menor medida y en algunos casos especiales: Información obsoleta, atrasada o anticuada.

Debéis tener en cuenta que la edición del archivo robots.txt no sirve como medida de seguridad, es más, entre otros, podríamos estar dándole pistas a los hackers sobre donde buscar la información confidencial.


¿CÓMO RETIRAR PÁGINAS ESPECÍFICAS DE LOS RESULTADOS DE BÚSQUEDA?


A continuación; los pasos para bloquear una página de los resultados de búsqueda:
  1. Localizar la página o las páginas que queremos hacer desaparecer de Google.
  2. Copiar la dirección URL canónica (acabada en ".html" - sin nada más allá).
  3. Incluirla en el archivo de los robots. Te lo explico a continuación:
Editar el archivo robots.txt de Blogger es muy sencillo. Basta con ir a Preferencias de búsqueda en Configuración y Editar el archivo robots.txt personalizado.

Una vez dentro, sólo hay que indicarle el tipo de robot al que nos dirigimos y lo que queremos que haga con esa carpeta. Por ejemplo, puedes modificar esta plantilla y pegarla ahí:

User-agent: *
Disallow: /2012/11/pagina-a-quitar.html  
User-agent: Mediapartners-Google 
Allow: /

En User-agent se especifica el robot. Usando un asterisco los incluimos a todos. Con Disallow retiramos los recursos del acceso a ese robot. Es por eso que debemos incluir el de Adsense (Mediapartners-Google) para seguir teniendo publicidad orientada en esa página.

Recuerda que la página no se quita de tu blog, se quita de los resultados de búsqueda de todos los buscadores autorizados. Pero no usaremos este código directamente, que aunque funciona y es correcto, se puede mejorar para conseguir todavía mejores resultados en las posiciones de los resultados de los buscadores.


EL CÓDIGO FINAL PARA INSERTAR EN TU ARCHIVO ROBOTS.TXT


A continuación te lo presento, recuerda cambiar las X primeras direcciones:

# generado en el Exprimiblog 
User-agent: *
Disallow: /2012/11/pagina-a-quitar.html 
Disallow: /p/sobre-ti.html 
Disallow: /search
Allow: / 
User-agent: Mediapartners-Google  
Allow: /
Sitemap: http://tublog.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500  
Sitemap: http://tublog.blogspot.com/atom.xml?redirect=false&start-index=501&max-results=500


Lo editamos cambiando las rutas en verde por las direcciones reales de tu blog y listo. Sencillo. La próxima vez que cualquier robot (User-agent:*) pase por tu sitio no mostará (Disallow:) las rutas marcadas en tu archivo robots.txt.

Nota: usando "/search/*?" en lugar de "/search" cómo mucha gente prefiere usar, estamos permitiendo que las páginas en donde se muestran los artículos de las categorías también se indexe (aunque se podría considerar contenido duplicado, pero también te puede beneficiar, sobre todo si ya estás bien posicionado con ella).

En Sitemap señalamos nuestro mapa del sitio consiguiendo un acceso a él desde el primer momento. No me digáis no que os he ayudado...


¿Alguna opción más?


Hay muchas opciones para configurar nuestro archivo robots.txt.

Por ejemplo, imaginemos que tenemos un blog acerca de eventos que se celebran cada año, de entradas para espectáculos u otras cosas así. Podría interesarnos entonces loquear todas las entradas de un año específico para que las del año actual tengan más visibilidad:

Disallow: /2014/* # bloquea todo el año 2014
Disallow: /2013/* # y así sucesivamente,
Disallow: /2012/* # este debería ser el año de la primera publicación.

O las de uno o varios meses de uno o varios años:

Disallow: /*/08       # Bloquea todos los agostos,
Disallow: /2012/08    # bloquea solo al agosto de 2012

También podemos bloquear páginas que incluyan algún término específico (siempre en su URL). Pero hay que tener cuidado porque podemos bloquear otras páginas sin querer.

Disallow: /*patrocinado
Disallow: /*anuncio 

O algún tipo de archivo (aunque esto en blogger no es posible subirlos):

Disallow: /*.pdf

Todas las imágenes de nuestro sitio en los principales buscadores de imágenes (que no recomiendo a no ser que las hayamos plagiado);

User-agent: Googlebot-Image   # El buscador de imágenes de Google
Disallow: /
User-agent: Yahoo-MMCrawler   # El de imágenes de Yahoo
Disallow: /
User-agent: msnbot    # El de Bing que el mismo que para los sitios web
Disallow: /*.jpg$     # por eso hay que bloquear cada tipo de archivo
Disallow: /*.jpeg$    # por sus extensiones
Disallow: /*.gif$
Disallow: /*.png$

Hacer desaparecer tu sitio de los buscadores sin renunciar a un Adsense orientado

User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /


¿CÓMO SABER SI EL ARCHIVO ROBOTS.TXT FUNCIONA?


Este que yo he generado funciona correctamente, pero si añades alguna dirección comprometida o modificas algo te recomiendo probar el archivo robots.txt de tu sitio. Para ello, sigue estos pasos:
  • Accede a Herramientas para Webmasters de Google y conecta con tu sitio
  • En la opción de estado, selecciona URL bloqueadas y Probar robots.txt.
  • Copia el contenido de tu archivo robots.txt y pégalo en el primer cuadro.
  • En el segundo cuadro indica la dirección de tu sitio y en la lista User-agents, selecciona los robots.
Ten en cuenta que esta herramienta sólo sirve para probar, no se guardará ninguno de los cambios que realices. Para ello tendrás que pegarlo en el archivo robots.txt.

En los resultados deberá obtener algo cómo "Autorización por línea 11. Se ha detectado como directorio; los archivos concretos pueden tener distintas restricciones" y "Se ha detectado una referencia de sitemap válida." para saber que todo es correcto para Google.


¿Qué tal? ¿A qué ahora parece más sencillo? Si estáis pensando en crear un archivo robots.txt mejor para Blogger echad un vistazo aquí. Podéis agradecer con un comentario ;)

Recuerda que además puedes usar las etiquetas meta para la misma función, aunque tendrías que ir página por página y en Blogger es muy complicado, sino casi imposible, modificar las cabeceras de páginas individuales. No obstante el valor NOFOLLOW de los enlaces también te puede ser útil si estás buscando retirar páginas de los resultados de búsqueda.

2 comentarios:

  1. Muy útil tu artículo! Sobre todo en estos tiempos en los que Google se pone duro con mucho tipo de contenido dudoso, puede ser una medida muy acertada.

    La dificultad será estudiar cuales podrían ser esa páginas que te están perjudicando.

    Saludos!

    ResponderEliminar
    Respuestas
    1. Hola, pues muchas gracias JaviEN.

      Efectivamente, sobre todo el contenido duplicado todavía le gusta menos que antes a Google. Sobre las páginas que nos podrían perjudicar estarían las entradas que tienen total, en mayor medida o parcialmente contenido copiado de otras fuentes (pero también las nuestras propias, por ejemplo las páginas de búsqueda y etiquetas, la portada, etc, pero eso será otra entrada aparte).

      En principio en los blogs personales no debería haber mucho problema porque algo siempre se añade a las entradas, el problema está centrado en los contenidos generados automáticamente o, por ejemplo, páginas copiadas completamente de la Wikipedia, del soporte de Google y de casi cualquier otro sitio por el que el robot de Google haya pasado.

      Pero aún así también existen otras páginas; cómo las que podemos usar para alojar información como avisos de privacidad, alguna página que hayamos creado con recopilaciones de enlaces a otros sitios y similares.

      Se trata básicamente de hacer que en los buscadores sólo estén las páginas que interesen a los usuarios de los mismos y al propio buscador.


      Seguro que algo se me queda atrás pero no quiero explanarme mucho. Muchas gracias por comentar y hasta pronto!

      Eliminar

Tu comentario tiene valor, dedícale unos minutos y repásalo. Si tiene faltas de gramaticales o de ortografía lo borraré. Respondo a todos así que si tienes dudas no repares en preguntar.

Si esperas respuesta acuérdate de marcar el botón de 'Avisarme'.

Y RECUERDA: Para mantener las conversaciones legibles usa correctamente el botón COMENTAR o RESPONDER cuando proceda. Muchas gracias.

Más de 2000 suscriptores reciben las entradas en su correo

Vía FeedBurner. Introduce tu dirección de correo electrónico y confirma el mensaje que te llegue.