Mejorar el posicionamiento retirando páginas y entradas de los resultados de búsqueda

Los robots de los buscadores como los de Google y resto de motores de búsqueda (también llamados crawlers, arañas e indexadores) son muy obedientes en cuanto a que páginas incluir en sus índices y cuales no, según le indique el archivo robots.txt que existe en muchas webs.

¿PORQUÉ RETIRAR PÁGINAS DE LOS RESULTADOS DE BÚSQUEDA?

Podemos tener sospechas de una página nos puede estar perjudicando porque sabemos que Google penaliza duramente el contenido copiado, o porque incluye algún enlace que creemos que Google interpretará cómo un intercambio o una venta de enlaces.

Paper Airplane Hoop Art (Photo credit: Hey Paul Studios)

Alguna de las páginas que debemos plantear retirar de los resultados de los buscadores (no de nuestro sitio) son, por ejemplo:

páginas con contenido duplicado, fuera de temática o irrelevantes para los usuarios de los buscadores (páginas de inicio y cierre de sesión, etc).
análisis patrocinados cómo los de Teliad o Exponsor, con lo que podemos ganar bastante dinero (ahora sin preocuparse), mensajes de agradecimiento a nuestros lectores, avisos y alertas, etc.
contenido copiado total o parcialmente de otras fuentes.
en menor medida y en algunos casos especiales: Información obsoleta, atrasada o anticuada.

Debéis tener en cuenta que la edición del archivo robots.txt no sirve como medida de seguridad, es más, entre otros, podríamos estar dándole pistas a los hackers sobre donde buscar la información confidencial.

¿CÓMO RETIRAR PÁGINAS ESPECÍFICAS DE LOS RESULTADOS DE BÚSQUEDA?

A continuación; los pasos para bloquear una página de los resultados de búsqueda:

Localizar la página o las páginas que queremos hacer desaparecer de Google.
Copiar la dirección URL canónica (acabada en ".html" - sin nada más allá).
Incluirla en el archivo de los robots. Te lo explico a continuación:

Editar el archivo robots.txt de Blogger es muy sencillo. Basta con ir a Preferencias de búsqueda en Configuración y Editar el archivo robots.txt personalizado.

Una vez dentro, sólo hay que indicarle el tipo de robot al que nos dirigimos y lo que queremos que haga con esa carpeta. Por ejemplo, puedes modificar esta plantilla y pegarla ahí:

User-agent: *
Disallow: /2012/11/pagina-a-quitar.html

User-agent: Mediapartners-Google
Allow: /

En User-agent se especifica el robot. Usando un asterisco los incluimos a todos. Con Disallow retiramos los recursos del acceso a ese robot. Es por eso que debemos incluir el de Adsense (Mediapartners-Google) para seguir teniendo publicidad orientada en esa página.

Recuerda que la página no se quita de tu blog, se quita de los resultados de búsqueda de todos los buscadores autorizados. Pero no usaremos este código directamente, que aunque funciona y es correcto, se puede mejorar para conseguir todavía mejores resultados en las posiciones de los resultados de los buscadores.

EL CÓDIGO FINAL PARA INSERTAR EN TU ARCHIVO ROBOTS.TXT

A continuación te lo presento, recuerda cambiar las X primeras direcciones:

# generado en el Exprimiblog

User-agent: *

Disallow: /2012/11/pagina-a-quitar.html

Disallow: /p/sobre-ti.html

Disallow: /search

Allow: /

User-agent: Mediapartners-Google

Allow: /

Sitemap: http://tublog.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500

Sitemap: http://tublog.blogspot.com/atom.xml?redirect=false&start-index=501&max-results=500

Lo editamos cambiando las rutas en verde por las direcciones reales de tu blog y listo. Sencillo. La próxima vez que cualquier robot (User-agent:*) pase por tu sitio no mostará (Disallow:) las rutas marcadas en tu archivo robots.txt.

Nota: usando "/search/*?" en lugar de "/search" cómo mucha gente prefiere usar, estamos permitiendo que las páginas en donde se muestran los artículos de las categorías también se indexe (aunque se podría considerar contenido duplicado, pero también te puede beneficiar, sobre todo si ya estás bien posicionado con ella).

En Sitemap señalamos nuestro mapa del sitio consiguiendo un acceso a él desde el primer momento. No me digáis no que os he ayudado...

¿Alguna opción más?

Hay muchas opciones para configurar nuestro archivo robots.txt.

Por ejemplo, imaginemos que tenemos un blog acerca de eventos que se celebran cada año, de entradas para espectáculos u otras cosas así. Podría interesarnos entonces loquear todas las entradas de un año específico para que las del año actual tengan más visibilidad:

Disallow: /2014/* # bloquea todo el año 2014
Disallow: /2013/* # y así sucesivamente,
Disallow: /2012/* # este debería ser el año de la primera publicación.

O las de uno o varios meses de uno o varios años:

Disallow: /*/08 # Bloquea todos los agostos,
Disallow: /2012/08 # bloquea solo al agosto de 2012

También podemos bloquear páginas que incluyan algún término específico (siempre en su URL). Pero hay que tener cuidado porque podemos bloquear otras páginas sin querer.

Disallow: /*patrocinado
Disallow: /*anuncio

O algún tipo de archivo (aunque esto en blogger no es posible subirlos):

Disallow: /*.pdf

Todas las imágenes de nuestro sitio en los principales buscadores de imágenes (que no recomiendo a no ser que las hayamos plagiado);

User-agent: Googlebot-Image # El buscador de imágenes de Google
Disallow: /
User-agent: Yahoo-MMCrawler # El de imágenes de Yahoo
Disallow: /
User-agent: msnbot # El de Bing que el mismo que para los sitios web
Disallow: /*.jpg$ # por eso hay que bloquear cada tipo de archivo
Disallow: /*.jpeg$ # por sus extensiones
Disallow: /*.gif$
Disallow: /*.png$

Hacer desaparecer tu sitio de los buscadores sin renunciar a un Adsense orientado

User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /

¿CÓMO SABER SI EL ARCHIVO ROBOTS.TXT FUNCIONA?

Este que yo he generado funciona correctamente, pero si añades alguna dirección comprometida o modificas algo te recomiendo probar el archivo robots.txt de tu sitio. Para ello, sigue estos pasos:

Accede a Herramientas para Webmasters de Google y conecta con tu sitio
En la opción de estado, selecciona URL bloqueadas y Probar robots.txt.
Copia el contenido de tu archivo robots.txt y pégalo en el primer cuadro.
En el segundo cuadro indica la dirección de tu sitio y en la lista User-agents, selecciona los robots.

Ten en cuenta que esta herramienta sólo sirve para probar, no se guardará ninguno de los cambios que realices. Para ello tendrás que pegarlo en el archivo robots.txt.

En los resultados deberá obtener algo cómo "Autorización por línea 11. Se ha detectado como directorio; los archivos concretos pueden tener distintas restricciones" y "Se ha detectado una referencia de sitemap válida." para saber que todo es correcto para Google.

¿Qué tal? ¿A qué ahora parece más sencillo? Si estáis pensando en crear un archivo robots.txt mejor para Blogger echad un vistazo aquí. Podéis agradecer con un comentario ;)

Recuerda que además puedes usar las etiquetas meta para la misma función, aunque tendrías que ir página por página y en Blogger es muy complicado, sino casi imposible, modificar las cabeceras de páginas individuales. No obstante el valor NOFOLLOW de los enlaces también te puede ser útil si estás buscando retirar páginas de los resultados de búsqueda.

Compatible con Youtube, Lanza.me trae otras muchas mejoras

Lanza.me es es un acortador y metaacortador con funcionalidades únicas. Una de ellas es la de mostrar páginas externas de nuestra preferencia, así como acortar nuestros enlaces con los principales acortadores de enlaces. Hubo novedades, y en esta entrada te las presento. Si quieres saber más acerca de Lanza.me visita esta sección del blog . Vídeos de Youtube como páginas intermedias Desde la madrugada del 24 de febrero Lanza.me es compatible con Youtube. Cuando inserten la URL de un vídeo de youtube como una página externa, el acortador lo detectará y lo mostrará ocupando todo el ancho de la pantalla cuando los usuarios visiten el enlace. Los usuarios VIP pueden configurar estas páginas para que reproduzcan el vídeo automáticamente, con lo que conseguirán más visitas. Más datos añadidos y un repaso a las estadísticas Hace tiempo comenté que otra vez había habido cambios en las estadísticas. Miraremos más por encima esas estadísticas porque tienen algunas opciones que sería inte...

Leer la entrada completa »

Exprimiblog: Rentabilizar tu blog

Buscar este blog