El archivo robots.txt ideal para tu blog de Blogger

votar

Usa el archivo robots.txt con cuidado, si no estás seguro de lo que haces o de si lo necesitas, te recomiendo no usarlo. Si tienes dudas puedes preguntar, pero antes revisa los otros comentarios.

Entre las opciones de Blogger hay una que pasa muy desapercibida pero que tiene una importancia "vital" para una buena estrategia a largo plazo y a corto para el SEO. Se trata del archivo robots.txt personalizado.

Ni tan personalizado ni para este tipo de robot

El archivo robots.txt es un fichero de texto que los rastreadores "honrados" de la web visitan antes de analizar tu sitio. Lo hacen para conocer las directrices para el indexado (inclusión en el índice), entre otras cosas, que le indiques. Estos robots son de buscadores cómo Yahoo, Google o Bing, pero también los de anuncios cómo Adsense, e imágenes cómo Google Images.

¿Por qué debemos añadir un archivo robots.txt personalizado?


Con el archivo robots.txt personalizado podemos indicar los buscadores, directivas para que indexen o no, determinado contenido. Lo más usual sería retirar las páginas o entradas que podrían perjudicar nuestro posicionamiento.

Paralelamente; en los blogs, y muchos otros formatos de web, tenemos un problema por el contenido duplicado que se genera cuando incluimos las entradas en secciones por etiquetas (directorio search en Blogger) o simplemente se almacenan en el archivo por periodos de tiempo (directorio archive en Blogger). Los rastreadores encuentran el mismo contenido con diferentes direcciones, y en algunos casos, como el de Google, nos puede acusar de un problema que, por desconocimiento -y falta de información precisa-, hemos generado.

Para solucionar el problema del contenido duplicado que se genera al tener el mismo contenido en diferentes direcciones el archivo robots.txt, tiene (en parte) la solución; impedir que los rastreadores incluyan en el índice de resultados de sus buscadores las direcciones a las páginas de etiquetas y archivo.

No es una medida efectiva al 100% porque seguirán existiendo enlaces que apunten a las direcciones que queremos bloquear; unos en nuestro blog -que podemos cambiar o añadir el atributo nofollow- y otros fuera de él.

Si no me equivoco en breve se acerca una novedad a Blogger que si lo permitirá, mientras, podemos y debemos usar las etiquetas de encabezado de robots personalizadas que nos permitiran retirar todo este contenido duplicado generado por Blogger.

El archivo ideal y cómo añadirlo en Blogger

Este archivo ha sido actualizado en junio de 2016 y agosto de 2017.

Es muy sencillo de hacer en Blogger. Para ello copiamos el siguiente texto y lo pegamos en la sección de Blogger dedicada a ello (Configuración -> Preferencias para motores de búsqueda -> Archivo robots.txt personalizado -> Editar):

# Archivo robots.txt personalizado | Exprimiblog. 
User-agent: Mediapartners-Google  # Sólo para el robot de Adsense
Disallow: # Al robot de Adsense le dejamos rastrear todas las páginas 
User-agent: * # Todos los rastreadores se dan por aludidos.
# Disallow: /*? # Bloquea URLs que incluyan signo de interrogación (anulado)
Disallow: /*archive/ # Bloquea los directorios que acaben por archive    
# Incluimos la dirección del sitemap xml para entradas y páginas
Sitemap: http://**tublog**.blogspot.com/sitemap-pages.xml
Sitemap: http://**tublog**.blogspot.com/sitemap.xml

Puedes copiar el código desde aquí. La quinta linea de texto está totalmente anulada (con #), te explico el motivo aquí.

Al bloquear las URLs que contienen al menos un signo de interrogación estamos bloqueando por ejemplo las páginas con plantillas móviles de blogger, ya que están termina en ?m=1. Esto no significa que las personas no accedan a ellas normalmente, sólo que los robots no las incluirán en los índices, y esto es lo correcto pues no tienen un contenido diferente al original.

Todo lo que va después del # es un comentario, hasta el salto de línea así que los rastreadores no le harán caso.

Ten en cuenta que cuando copias texto de este blog se añade una línea al final con un enlace al mismo. Bórrala después de copiarla.

Sustituye **tublog**.blogspot.com por el nombre de tu blog. Esto incluirá el sitemap completo de tu sitio (el primero las entradas y el segundo las páginas), independientemente del número de entradas publicadas, no como antes.

Como verás, hay un sitemap para las entradas y otro más nuevo para las páginas. Si no desees que tus páginas se indexen pueden no incluirlo, pero se indexarán igual. Para evitar que algunas páginas sean vistas desde Google, solamente usa las cabeceras de robots personalizadas.


Esto ya está obsoleto y no es necesario añadirlo:

Si tienes más de 500 entradas, o tienes previsto alcanzarlas, agrega algunas de estas -o más, pero fíjate en la correlación de números- líneas para tu sitemap XML, aquí tienes la explicación de porque hay que hacerlo así:


Sitemap: http://**tublog**.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=150
Sitemap: http://**tublog**.blogspot.com/atom.xml?redirect=false&start-index=151&max-results=150
Sitemap: http://**tublog**.blogspot.com/atom.xml?redirect=false&start-index=301&max-results=150
Sitemap: http://**tublog**.blogspot.com/atom.xml?redirect=false&start-index=451&max-results=150


Listo, la próxima vez que el robot de Google pase por tu sitio ya no tendrás más problemas con el contenido duplicado que aparece en las páginas de categorías ni archivo. Recuerda que puede crear tantas categorías cómo Blogger te permita.

Por supuesto, hay muchas más formas de configurar tu archivo robots.txt. Además de este archivo es recomendable entender el uso correcto del atributo nofollow.

169 comentarios:

  1. Nunca se me había dado por modificar el archivo robot.txt y ahora que lo estoy probando ¿Alguna recomendación para las "Etiquetas de encabezado de robots personalizadas"?

    ResponderEliminar
    Respuestas
    1. Pues no estoy seguro, las Etiquetas de encabezado de robots personalizadas son más potentes que el archivo robots.txt. Pero creo que en breve (si no es que se puede ya, no me he enterado por lo menos) Blogger añadirá una opción para editar estas etiquetas en el editor de entradas de Blogger así que lo reservaré para ese momento.

      En principio la entrada sólo es para el archivo robots.txt ideal para Blogger pero está claro que por si sólo no es suficiente en la mayoría de los casos. Aún tengo que pensar cómo hacerlo bien porque en la mayoría de los blogs, los enlaces a las categorías suelen estar casi todos visibles desde todas las páginas.

      Eliminar
  2. Esto lo voy a hacer ahora mismo. :)

    ResponderEliminar
    Respuestas
    1. Haces muy bien en comentarlo, si añado alguna modificación o actualización (que es muy probable) serás avisada personalmente :D

      Hasta pronto!

      Eliminar
  3. para que se necesita bloquear los directorios que empiecen por archive?? lo demas si lo entiendo... gracias de ante mano

    ResponderEliminar
  4. una pregunta para que se necesita Disallow: /*? # Bloquea las URL que incluyan un signo de interrogación... a mi me sucede esto cuando envio mi sitemap

    Se ha producido un error al intentar acceder al sitemap. Asegúrate de que cumpla nuestras directrices y de que se encuentre en la ubicación especificada y vuelve a enviarlo.
    1
    URL restringida por robots.txt

    yo uso este sitemap /atom.xml?redirect=false&start-index=1&max-results=500

    sera que cuando uso el robot q me bloquea los signos de interrogacion me bloquearia mi sitemap el cual contiene un signo de interrogacion??? Gracias x la futura respuesta...

    ResponderEliminar
    Respuestas
    1. Pues creo que indudablemente está pasando eso. En realidad no tienes porque enviar el sitemap desde las Herramientas para Webmasters de Google cómo intuyo que estas haciendo, aunque no digo que no sea la mejor opción. En pocos días lo tendrás, pero efectivamente tendrás que deshabilitar esa linea o todo el archivo robots.txt ya que el asterisco afecta a todos los navegadores, tal vez debería hacer un cambio ahí.

      Incluyendo el sitemap sólo a través del archivo para los robots este tardará hasta 90 días, que los tarda bien. En blogs con pocas entradas no hay que preocuparse mucho pero si tienes muchas es mejor no perder el tiempo y subir el sitemap completo como efectivamente haces. En cuanto esté, yo creo casi sin ninguna duda porque todas las entradas siguen siendo indexables desde la dirección genérica.

      El motivo de retirar páginas que contengan el símbolo de interrogación ? es para evitar que se añadan páginas con enlaces que incluyan información en lo que se llama la "URL Query string". Se usa para añadir variables que se pueden usar por ejemplo para saber de donde vienen las visitas, por ejemplo ?source=gmail.

      Los usuarios un poco más avanzados nos damos cuenta y más útil en estos casos que el archivo robots.txt es poner todos los enlaces bien. Aún así la suma de ambas acciones es mucho mejor que cualquiera por separado.

      Yo te diría que subieras el sitemap completo a través de las Herramientas para Webmastes y lo dejases ir, si ves contenido duplicado o URLS de más (más URLS indexadas que entradas), pues apliques el robots.txt.

      Si se me ocurre alguna otra cosa importante por el camino te escribiré. Cualquier cosa estamos en contacto, un saludo!

      Eliminar
  5. Gracias por tu respuesta.. efectivamente uso herramientas para webmaster... note q mi pagina tenia varias Metadescripciones duplicadas.. por eso decidí usar robot.txt.. tuve estos días aprendiendo a ver como usarlas.. note q en las herramientas.. las duplicaciones q tenia era por archive.. entonces use el q tienes pero le quite la del ? ... y bueno aora ya no presenta el error anterior del sitemap... yo creo q antes de hacer este tipo de robots primero uno debe saber mas o menos porq lo va usar y en mejoras html vi q lo necesitaba.. aora a esperar para q las eliminen...

    ResponderEliminar
  6. Muy bien pensado lo del robot... y gracias por compartirlo.

    Un saludo.

    ResponderEliminar
    Respuestas
    1. De nada, hay que explorar siempre todas las posibilidades.

      Gracias a ti por comentar, un saludo!

      Eliminar
  7. una pregunta estos signos hay que ponerlos en el robot¿

    este signo # o solo lo usas para separar los comentarios?

    ResponderEliminar
    Respuestas
    1. Las almohadillas o cómo se llame este carácter "#" marca el comienzo del comentario, puedes quitarlos pero también tendrías que quitar el comentario, es decir, todo lo que está más allá del # en la misma linea (funciona por saltos de líneas).

      No estoy seguro de si también me preguntas por el signo de interrogación; este se incluye sólo para excluir las direcciones que contengan ese carácter. Realmente en Blogger parece que no da problemas, pero no está de más ponerlas.

      Espero que te haya quedado algo más claro ahora. Un saludo.

      Eliminar
  8. Pero mis URL de archivos son del tipo nombredelblog.com/2010_12_29_archive.html, por lo tanto, la URL estaría terminando con "archive". Como sería la línea para bloquear las páginas de archivos en mi caso? Gracias de antemano

    ResponderEliminar
    Respuestas
    1. Hola Javier, pues creo que con toda seguridad sería con el asterisco antes en vez de después.

      Quedaría así: Disallow: /*archive/

      Ten en cuenta que no tendrá efecto hasta que el robot de Google pasé por ahí. Ahora mismo no encuentro un servicio de Google que te avisaba cuanto tiempo lleva sin pasar su robot por la página que preguntemos. Si aparece te lo dejo en otro comentario.

      Un saludo y gracias por preguntar.

      Eliminar
    2. Ahora que lo veo yo también tengo esas páginas, lo añado a la entrada. Gracias por avisar.

      Eliminar
  9. Hola Jorge,
    Esto me ha venido de maravillas, porque soy nueva en esto y no entiendo nada de esto de los robots .-

    Quiero saber si este robot que esta puesto en mi sitio esta bien, porque en las herramientas de webmaster veo URL bloqueadas y no entiendo porque

    User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search
    Allow: /

    Sitemap: http://MISITIO/feeds/posts/default?orderby=UPDATED

    Mil gracias y un saludo !

    ResponderEliminar
    Respuestas
    1. Hola Laura, está mal, el bloqueo de las direcciones con "disallow" que contengan la palabra "search" no se usa así, fíjate en el ejemplo del artículo y en cómo lo construya tu blog.

      Y otra cosa, el sitemap lleva a un sitio que no existe. Usa el archivo robots.txt con precaución o tu blog puede salir mal parado, si no entiendes muy bien lo que quieres hacer y que directorios y cómo bloquearlos sería mejor que no lo hicieses, podría desaparecer una parte importante o todo tu blog de la base de datos de Google.

      Un saludo.

      Eliminar
    2. Mil gracias Jorge,

      El sitemap esta bien, solo que lo escribi así aquí para no poner mi sitio y hacerle "autobombo" en tu blog.

      No tengo ningun directorio que comience con Search.
      ¿Como lo pondrias si no te apetece bloquear nada ?

      ¿Simplemente asi estaría bien?

      User-agent: Mediapartners-Google
      Disallow:

      User-agent: *
      Disallow: /
      Allow: /

      Sitemap: http://MISITIO/feeds/posts/default?orderby=UPDATED

      Mil gracias de nuevo por tu respuesta Jorge,
      Un saludo

      Eliminar
    3. Nota aclaratoria, Jorge ese robot no lo hice yo, es el que había / hay por defecto de blogger.-

      Pero me sorprendio el bloqueo de las URLs, no entiendo porque si yo no hice nada !!!

      Saludos de nuevo .-

      Eliminar
    4. Laura como lo dejaste? yo lo tengo exactamente igual que tu por defecto y tengo muchas paginas no indexadas :(

      Eliminar
  10. Completamente de acuerdo yo cometí ese error y ahora no encuenro mi blog posicionado. Antes cuándo escribía la palabra clave de mi blog aparecía posicionado ahora no.

    ResponderEliminar
    Respuestas
    1. Después de solucionarlo, pasará un tiempo hasta que el robot de Google vuelva y se actualice la clasificación con tu sitio incluido. Puedes comprobarlo aquí sustituyendo la dirección por la de tu sitio: http://www.google.com/safebrowsing/diagnostic?site=nomre-de-tu-blog.blogspot.com

      Espero que te sirva y te recuperes completamente, un saludo.

      Eliminar
  11. Hola que tal puse la etiqueta meta en los codigos html
    meta keywords
    meta description
    meta Autor
    sera necesario que active robots.txt o ya no

    ResponderEliminar
    Respuestas
    1. No tiene nada que ver. El archivo robots.txt es un estandar de exclusión de robots. Es decir, para indicar que robots quieres que accedan a determinados directorios o todo lo contrario, a donde no quieres que accedan determinados robots.

      Las etiquetas meta son para dar información sobre una página a los buscadores. Es más que recomendable usar ambas. Un saludo.

      Eliminar
  12. En las herramientas de google me sale esto (en bloquear URL)

    User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search
    Allow: /

    Yo lo que quiero es que no indexe las páginas Archive de blogger. ¿Donde copio el código que has puesto, en el blog o en las herramientas de google?

    Gracias

    ResponderEliminar
    Respuestas
    1. El archivo robots.txt está en el directorio de tu blog pero sólo puedes modificarlo a través de las Preferencias -tienes más info en la entrada-.

      El texto del archivo sería así:

      User-agent: *
      Disallow: /archive*/

      Un saludo.

      Eliminar
  13. ¿Entonces copio eso en el robot.txt del blog y ya está? ¿Después envio un sitemap a Google mediante las Herramientas?

    ResponderEliminar
    Respuestas
    1. Básicamente sí, aunque si usas Adsense deberías darle acceso a todo el sitio, así se mostrarán anuncios orientados en todas las páginas. Lo mejor es que entiendas bien como funciona y cuando estés seguro lo implementes. Mientras envía el sitemap, efectivamente, a través de las Herramientas para webmasters. Un saludo y disculpa la demora en responder.

      Eliminar
  14. Hay una persona que me ha dejado un comentario con una duda acerca de los comentarios en al archivo robots.txt y sin querer lo he borrado. Espero que te llegue.

    A lo que llamamos comentario dentro de un código se usa siempre sólo como información, una vez se procese este código (en los bots de los buscadores en este caso), ellos se encargan de omitirlo. Es decir, sólo te sirve a ti.

    Un saludo a tod@s!

    ResponderEliminar
  15. Jorge he tenido un grave problema a raíz de poner los código que ofreces en el robot.

    De ayer a hoy mi URL ha sido retringida por robots, según me dice Google Webmaster.

    Sospecho que es por esta línea, tal y como le ha pasado a otra persona en el comentario anterior. Ya he procedido a retirarla y espero que se solucione.

    Disallow: /*? # Bloquea las URL que incluyan un signo de interrogación


    Un saludo.

    ResponderEliminar
    Respuestas
    1. Hola Felix, no sé a que te refieres concretamente con tu URL, es lógico que te salgan URLs restringidas por el archivo robots.txt porque es lo que se suele hacer con él. De lo que te avisa la Herramienta para webmasters de Google es de que hay direcciones que están siendo bloquedas. Estas deberían contener un símbolo de interrogación, la palabra search o archive.

      No debes preocuparte por la gente que venga desde direcciones no canónicas que otras personas hayan creado, no tendrán problemas porque realmente las direcciones llevan al mismo sitio a pesar de tener parámetros diferentes en las URL después del signo de interrogación. De lo que se trata es que no haya direcciones repetidas que lleven al mismo sitio en el índice de Google.

      Si es otra cosa diferente no repares en preguntar. También puedes restaurar el archivo desde las opciones de Blogger. Un saludote!

      Eliminar
  16. Mira: esto es lo que me sale al enviar el sitemap:

    http://3.bp.blogspot.com/-ZsvtPWgqgQk/UfH_rdw3DDI/AAAAAAAAXjM/4zTgslRCGLU/s320/Nueva+imagen.jpg

    Y aquí tienes mi robot txt:

    http://www.arqueocinema.com/robots.txt

    Arqueocinema es ahora mismo un blog que lo tengo un poco en obras. Cuando he modificado el sitemap hace unos días, incluyendo alguna que otras cosa que he visto de otras webs y en la tuya, Google Webmaster me da error.

    ResponderEliminar
    Respuestas
    1. hola Félix, no se ve con claridad la imagen, no tiene calidad para poder leers. Ten en cuenta que si es un tema de URL restringidas es la más normal del mundo pues de eso se trata. Fíjate que las URL bloqueadas coinciden con las reglas de exclusión del archivo robots.txt, que son las URLs que no quieres que salgan en los resultados de búsqueda.

      Eliminar
    2. Y te agradecería que usases el botón Responder en lugar de Añadir comentario cuando los comentarios pertenezcan a una conversación anterior. Un saludo.

      Eliminar
  17. Muy interesante y útil.
    Me pregunto, si no utilizo adsense, supongo que no será necesario los últimos robots.
    Saludos

    ResponderEliminar
    Respuestas
    1. Efectivamente Sr. Edertano. Hay muchos más rastreadores, incluidos los de otras plataformas publicitarias, pero no atienden a este archivo. Aún si lo quisieras dejar no afectaría para nada a tu blog. Un saludote!

      Eliminar
  18. hola, me da este mensaje de error cuando copio y pego El contenido del archivo robots.txt no cumple las normas de formato.

    ResponderEliminar
    Respuestas
    1. Hola Luis. Cuando se copia texto de mi blog se añade una pequeña línea que pone "Read more: http://exprimiblog.blogspot.com/...". Hay que borrarla.

      Modifico ahora la entrada para avisar, fallo mío. Vuelve también a copiar el contenido del archivo que lo he renovado un poco, tenía un error. Un saludo!

      Eliminar
  19. Jorge que tal ves este robots.txt ves algun error? estoy fusionando lo que ya tenia con lo que sugieres en tu blog

    User-agent: *

    Disallow: /*? # Bloquea las URL que incluyan un signo de interrogación
    Disallow: /search*/ # Bloquea los directorios que empiecen por search
    Disallow: /*search/ # Bloquea los directorios que acaben en search
    Disallow: /*archive/ # Bloquea los directorios que acaben por archive

    User-agent: Mediapartners-Google # Sólo para el robot de Adsense
    Disallow: # Al robot de Adsense le dejamos rastrear todas las páginas



    Disallow: /archive*/
    Allow: /
    Sitemap: Http://jamesaddicted.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
    Sitemap: Http://jamesaddicted.blogspot.com/atom.xml?redirect=false&start-index=501&max-results=500
    Sitemap: Http://jamesaddicted.blogspot.com/atom.xml?redirect=false&start-index=1001&max-results=500
    Sitemap: Http://jamesaddicted.blogspot.com/atom.xml?redirect=false&start-index=1501&max-results=500
    Sitemap: Http://jamesaddicted.blogspot.com/atom.xml?redirect=false&start-index=2001&max-results=500
    Sitemap: Http://jamesaddicted.blogspot.com/atom.xml?redirect=false&start-index=2501&max-results=500
    Sitemap: Http://jamesaddicted.blogspot.com/atom.xml?redirect=false&start-index=3001&max-results=500

    ResponderEliminar
    Respuestas
    1. He actualizado el mío y retirado las líneas que empezaban por Allow. Según parece no tenía sentido usarlas ya que se da por supuesto que se permite lo demás.

      Por el resto está bien pero al robot de Google no le permites rastrear las páginas de archivo y creo que sí deberías, de otro modo no tendrá anuncios correctamente orientados para mostrar cuando los visitantes estén en esas páginas. Déjale vía libre para ir por todo el blog, lo que este robot indexe no afecta al robot principal y no se trata de contenido duplicado.

      Por el resto está bien, incluyendo los Allow. Puedes comprobarlo aquí: http://www.frobee.com/robots-txt-check

      Un saludo!

      Eliminar
  20. Gracias Jorge por tu cuidada presentación acerca de los robots.txt. He estado buscando y pocos sitios hay que den una aplicación para blogger tan clara como la que das. Lo acabo de probar en mi blog. Le daré un tiempo para ver si el flujo de visitas mejora. Gracias nuevamente y un saludo.

    ResponderEliminar
    Respuestas
    1. Gracias a ti. Ten en cuenta que si has tenido un bajón brusco de visitas seguramente no se deba al contenido duplicado, este puede empeorar el posicionamiento de las páginas con contenido similar pero no una penalización en los resultados de búsqueda para el sitio.

      En cualquier caso, si tu sitio tiene un problema, en cuanto lo soluciones, junto con esta mejora tendrás más posibilidades de mejorar el posicionamiento para muchas páginas individuales. Un saludo!

      Eliminar
  21. excelente aporte !, Muchas gracias por compartirlo:)

    ResponderEliminar
  22. ayuda quiero un robots.txt que salgan todas mis entradas en google quiero k salga todo lode mi blog en google algien me pude pasar el codigo correcto? nose mucho de esto x favor saludos.

    ResponderEliminar
    Respuestas
    1. Hola, claro. El código correcto es nada. Si quieres que salgan todas tus entradas en Google entonces no tiene sentido que uses un robots.txt. Quítalo y listo. Un saludo.

      Eliminar
  23. Hola tengo un Blog su direccion es http://gatwindinero.blogspot.com/ al buscarlos en google: escribo gatwindinero y es la unica forma de que salga, google me muestra unas entradas y luego da un mensaje que dice "Para que veas los resultados más relevantes, omitimos ciertas entradas muy similares a las 4 que ya te mostramos.
    Si lo deseas, puedes repetir la búsqueda e incluir los resultados omitidos" en lo q repito la busqueda para omitir las entradas, me aparecen pero con este mensaje, "No se dispone de una descripción de este resultado debido a robots.txt. Más información" Lo que quiero es que mi blog aparezca en google, me recomendaron que pusiera esto:

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    pero no soy muy experto en el tema por eso queria consultar con alguien que tuviera claro el tema.

    Gracias

    ResponderEliminar
    Respuestas
    1. Hola, tu blog ya sale en Google, pero como tienes 2 entradas son las que te salen, junto con las de categorías. Está bien.

      En cuanto a lo de "No hay disponible una descripción de este resultado debido al archivo robots.txt de este sitio" puede ser debido a que estuvieses haciendo cambios en el archivo y Google mantiene parte de una información indexada y otra no al tener constancia del cambio -es mi teoría porque debería o no debería aparecer-. Se supone que una vez que vuelva a pasar el robot por tu sitio quedará como indiques.

      Así que todo bien, tu blog sale en Google dale tiempo a la indexación después de hacer los cambios. Y otra cosa muy importante; cambia el contenido del archivo por el mío, el que estás usando es para Wordpress y además va mal.

      Eliminar
    2. Hola, me recomiendas entonces configurar el archivo robots.txt por el que publicas aca en este blog, lo tengo inhabilitado, ya que como te dije antes de hacer algo primero tenia que preguntar. La configuracion que colocas aca optimiza el blog para posicionarlo?? Gracias por responder

      Eliminar
    3. Hola, creo que te confundes, tu archivo robotx.txt está activado y se puede ver en: http://gatwindinero.blogspot.com/robots.txt

      La configuración claro que optimiza la posición sino no la pondría. Por otro lado, sino consigues entender para que sirve es mejor que no lo uses. Un saludo.

      Eliminar
    4. Hola, pense que estaba inhabilitado porque en la configuracion del blog asi aparece, entiendo mas o menos. mi idea es aprender, no simplemente dejar de usarlo y ya porque esa no es la mejor solucion, te iba a comentar que a diario recibo visitas Spam de www.vampirestat.com http://www.7secretsearch.com http://www.adsensewatchdog.com me tienen el blog con 1800 visitas pero de puro spam, eso lo puedo detener? o como lo puedo solucionar?

      Muchas gracias por tu tiempo y sobre todo por que el conocimiento.

      Eliminar
    5. Tienes que bloquear a esos equipos y el robots.txt no te sirve para nada ahí, es para los buscadores honrados, cosa que estos evidentemente no son.

      En Blogger puedes bloquear IPs con este código:
      http://georgeorwell67.blogspot.com.es/2013/09/banear-por-ip-en-blogger.html

      Y conocer las IPs actuales de cualquier dominio con esta herramienta: http://www.hcidata.info/host2ip.cgi

      Un saludo.

      Eliminar
    6. Hola jorge, pasando de nuevo por aca, muy buena información me has dado, la puse en practica y siguiendo los pasos e incluso haciendo unas pruebas bloqueando ips de personas conocida y todo de maravilla, pero sigo sin poder detener a estas 3 webs:

      http://www.vampirestat.com

      http://www.13review.com

      http://www.adsensewatchdog.com

      es increible la manera en la que visitan masivamente y es hasta molesto, quisiera saber si tienes alguna otra sugerencia, muchas gracias.

      Eliminar
    7. Tienes que poner los dominios en la herramienta y arriba de todo te pone la IP, tienes que bloquear todas las IPs diferentes que surjan en el tiempo. Si te es confusa la herramienta que te pase usa esta:
      http://www.elhacker.net/geolocalizacion.html?host=www.vampirestat.com

      Mi sugerencia es olvidarse de ellas y ponerse a ganar dinero con los servicios que menciono en mi blog. Un saludo!

      Eliminar
  24. hola de nuevo olle quisiera saver sime puedes ayudar x que mi blog nomas sale la pagina principal en google y las demas no salen Indexadas tengo 50 entradas nomas sale 1 en google lo tengo en google webmaster y con Sitemap y sige asi.

    ResponderEliminar
    Respuestas
    1. Hola. A mi en cinesplus.tk me salen 495 resultados.

      Si vas a responder te agradecería que uses ese botón en lugar del de añadir comentario. Un saludo.

      Eliminar
  25. buenas noches amigos, yo igual me enrede mucho con esta cuestion del archivo robots hace tiempo mi pagina estaba en la primer busqueda y ahora esta como en la 4 linea ahorita que lei tu nota lo puse igual a tu recomendacion pero cuando entro a esta pagina http://www.frobee.com/robots-txt-check y la checa con mi web www.tapanatepec.com.mx me marca una casilla en rojo no se si me explico.
    lo que quisiera es que si me puedes ayudar a que mi sitio sea nuevamente la primera en la busqueda, saludos y seguimos pendientes de tu blog.

    ResponderEliminar
    Respuestas
    1. Hola, disculpa la demora en responder. Es probable que alguna línea del archivo no fuese la adecuada y varias de tus entradas hayan quedado fuera del alcance de los robots haciéndote perder posiciones.

      Por el resto el archivo no debería afectar mucho más a la indexación. Afortunadamente, esas página no son eliminadas de Google sino que permanecen en la caché de este. Esto en teoría debería significar que no deberías perder posicionamiento una vez las páginas estén disponibles, pero supongo que no será así del todo.

      A partir de ahí el archivo robots.txt no puede hacer mucho más por el posicionamiento que evitar el contenido duplicado evitando que se indexen páginas del tipo archivo y categorías e indicar la dirección del sitemap.

      El problema que sale en rojo en varias de estas herramientas para testear el archivo hace referencia a los caracteres comodín. Parece ser que mucho robots no las soportan y hacen caso omiso a esas sentencias. Según la teoría oficial mi ejemplo de archivo está bien redactado pero parece que en Google la parte de bloquear los directorios que contengan la palabra archive y search siguen sin bloquearse. No hay problema. Esta parte se soluciona desde la configuración de Blogger en Preferencias de motores de búsqueda. Próximamente publicaré una entrada sobre esto y la enlazaré desde esta.

      Puedes usar mientras este otro ejemplo y aplicar la configuración del párrafo anterior.

      User-agent: *
      Disallow: /*?

      User-agent: Mediapartners-Google
      Disallow:

      Sitemap: http://tublog.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500

      Un saludo.

      Eliminar
  26. oye si yo lo que quiero es que en los buscadores salga como resultado el titulo de mi entrada que tengo o que debo haceR?

    ResponderEliminar
    Respuestas
    1. Buscarla. Lo que busques intentarán encontrarlo. Si buscas otra cosa pues saldrá otra cosa. No puedes forzarlos a que muestren otra parte de tu blog que no atañe a la búsqueda.

      Eliminar
  27. que tal genial tu blog pero una pregunta como podre hacer para que no indexe las paginas archive.html

    ResponderEliminar
    Respuestas
    1. Disallow: /archive.html

      Además da igual en que nivel y directorio esté el archivo. Un saludo y gracias a ti.

      Eliminar
    2. hola jorge de nuevo ayuda tengo un problema me sale esto en google webmaster cheka las capturas xfa
      1
      http://img835.imageshack.us/img835/3915/kl8t.png
      2

      http://img41.imageshack.us/img41/1030/3yc7.png
      3
      http://i.imgur.com/S3L13CY.png
      ojala y mke puedas ayudar

      Eliminar
    3. Hola. Me pregunto que sale al darle al enlace "Comprobar estado del sitio", ¿La imagen 3?. Podría ser por cualquier cosa. Un saludo.

      Eliminar
    4. hola me manda a esta pagina demi blog
      http://tvonlinecinesplus.blogspot.com/search/label/ver%20canal%20venus%20latino

      aver sime puedes ayudar aver aque se debe eso Gracias.

      Eliminar
    5. Hola. La página está vacía, seguramente se deba a eso. Es una página de categorías, deberías borrarla si no tienes entradas para ella y si te deja marcar el problema como solucionado ya está, sino se reparará la próxima vez que Google pase por tu sitio.

      Si sigues teniendo problemas con las herramientas de Google te recomendaría que preguntases en los foros de Google, aquí sólo estoy yo y allí encontrarás gente más preparada que yo para responderte a estas cuestiones. Este es un blog sobre como hacer dinero con otro blog. Un saludo.

      Eliminar
  28. Muy bueno el articulo. felicitaciones. Modificamos el archivo robot.txt, siguiendo las indicaciones que has propuesto. Hasta ahora todo bien.
    La duda:
    Nuestro blog tiene una redirección www, o sea miblog.blogspot.com redireccionado a www.misitio.com y tambien misitio.com redireccionado 301 a www.misitio.com. y tenemos nuestro feed como sitemap (Sitemap: http://www.misitio.com/feeds/posts/default?orderby=UPDATED
    Herramientas webmaster de google indica que los robots no pueden acceder a nuestro sitio (ya tiene verificacion de propiedad con meta)
    En este caso, como modificamos el archivo robot.txt
    Gracias por tu apoyo

    ResponderEliminar
    Respuestas
    1. Hola, pero tu CMS es Blogger? por lo visto parece que no.

      En todo caso tengo que revisar esta entrada, el archivo robots.txt no es la mejor forma de solucionar el problema del contenido duplicado generado por las páginas de categorías, búsquedas y demás.

      Si estás usando Blogger busca las etiquetas de encabezado de robots personalizadas y márcalas con noindex.

      Cualquier cosa ya sabes en donde encontrarme, un saludo y gracias a ti por preguntar.

      Eliminar
    2. Marco todas las etiquetas como noindex? (Página de inicio, Archivo y páginas de búsqueda y Valor predeterminado para Publicaciones y Páginas) Gracias

      Eliminar
    3. Hola, no, el Valor predeterminado para Publicaciones y Páginas déjalo sin marcar en ninguna opción -si no me equivoco las publicaciones son las entradas, así que hay que tener mucho cuidado de no afectarlas-. El resto efectivamente, márcalas como noindex.

      Las etiquetas aparecen automáticamente pero habrá que esperar a que los robots pasen de nuevo por nuestro sitio para que tengan en cuenta la petición de no indexación.

      Un saludo!

      Eliminar
  29. Si. Nuestro informativo es un blog de blogger redireccionado a un www. Pero podrías ser más explícito
    He tratado de modificar el robot.txt en la sección Rastreadores e indexación, de acuerdo a los parametros que has propuesto, pero al guardar contenido y después de un rato, cuando vuelvo a entrar aparece nuevamente como inhabilitado y no guarda los cambios.
    y nen webmaster tool tampoco y sigue saliendo el mensaje (aunque el sitio se ve normalmente y funciona bien)
    https://dl.dropboxusercontent.com/u/27889966/download/webmaster.png

    Gracias por tu ayuda

    ResponderEliminar
    Respuestas
    1. Pues eso es problema de Blogger, ponte en contacto con el soporte o prueba con otro navegador. Cómo comprenderás ahí ya no te puedo ayudar.

      Recibe un saludo.

      Eliminar
  30. parece que ya se solucionó. ya me toma los cambios. El problema ahora esta en bing.
    (https://ssl.bing.com/webmaster/home/dashboard)
    Cuando cargo el sitemap de blogger me dice "Bloqueado por robots.txt"
    Que le pongo a mi robots.txt para permitirle a bing indexar las paginas
    los sitemaps que subi son estos (tiene entre 500 y 1000)
    atom.xml?redirect=false&start-index=1&max-results=500
    atom.xml?redirect=false&start-index=501&max-results=500

    gracias

    ResponderEliminar
    Respuestas
    1. Usa el botón "Enviar un mapa del sitio" que aparece al lado del mensaje. Hay escribe una de las direciones y pulsa el botón Enviar. Una vez haya acabado haz lo mismo con la otra dirección. En pocos días lo tendrás listo.

      El problema no tuyo, es del archivo, ya que bloquea las direcciones que contengan una interrogación, y casualmente la del sitemap también incluye una. Aún tengo que ver como solucionar esto.

      Un saludo y gracias a ti.

      Eliminar
    2. Acabo de comprobar que te seguirá dando el mismo problema, te dirá que está restringida por robots. Por lo visto es más de fiar u obediente que Google.

      Haz una cosa, que creo que yo también haré ahora; borra la linea que pone Disallow: /*? y ya de paso haz lo de enviar que te dije en el comentario anterior, o sólo espera y será cuestión de tiempo.

      No creo que haya problemas de contenido duplicado por esto, que podría, pero se podría solucionar de otra forma también a través del archivo robots.txt. Un saludote!

      Eliminar
  31. otra cosa. Cuando dices "User-agent: * # Todos los rastreadores se dan por aludidos" a que te refieres exactamente: a que los rastreadores se dan por enterado y son ACEPTADOS o DENEGADOS? Gracias por su ayuda

    ResponderEliminar
    Respuestas
    1. Teniendo en cuenta que este archivo se hace para los robots, se llama como ellos, y no está vacío es de suponer que a alguien o algo está dirigido y no es para que pasen de largo. Es para que todos sin excepción sean aceptados.

      Eliminar
  32. quiero ayuda que pongo en Archivo robots.txt personalizado
    y en Etiquetas de encabezado de robots personalizadas
    porfa ayudemen

    ResponderEliminar
    Respuestas
    1. Para evitar el contenido duplicado marca como noindex: Página de inicio y Archivo y páginas de búsqueda. El archivo robots.txt puedes prescindir de él o usarlo para indicar sólo el sitemap.

      Eliminar
  33. yo puse este archivo robots.txt estará bien, lo saque http://pastebin.com/d8LXu6K9

    User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search

    Sitemap: http://name.blogspot.com/feeds/posts/default?orderby=updated

    ResponderEliminar
    Respuestas
    1. Sí, está perfecto. Sólo tienes que cambiar el dominio del feed y no te dará problemas. Un saludo.

      Eliminar
  34. y para Etiquetas de encabezado de robots personalizadas use esto que estaba en esta pagina http://www.ciudadblogger.info/2013/06/como-habilitar-las-etiquetas.html

    ResponderEliminar
    Respuestas
    1. Pues sí, buen ejemplo. Con eso y el robots tendrás el blog perfectamente bien indexado, sin contenido duplicado. Un saludo.

      Eliminar
  35. Tu blog me parece interesantísimo (aparte, en los tiempos que corren, también se agradece que esté muy bien escrito :) Me voy a hacer "miembro seguidor" de él, y también lo recomendaré en Google+. Un saludo desde Barcelona, hasta pronto,

    Ramón García Durán
    http://naturalezaindiscreta.blogspot.com.es

    ResponderEliminar
    Respuestas
    1. Mil gracias Ramón. El tuyo sí que es un blog único e irrepetible.

      Espero entonces volver a verte por aquí. Lo dicho; mil gracias, ¡y un saludo!

      Eliminar
  36. Hola Jorge, he seguido al pie de la letra todo lo referente a los robots , pero cuando pruebo a consultar el google el nombre de mi blog, iamthisconlodivino, me sale el siguiente resultado:
    "No hay disponible una descripción de este resultado debido al archivo robots.txt de este sitio. Más información"

    si hago la busqueda incluyendo blogspot, si funciona, pero pienso que deveria devolver algo con solo iamthisconlodivino. gracias

    ResponderEliminar
    Respuestas
    1. Hola, tienes el archivo robots.txt ligeramente diferente a como lo tenía yo aquí. De todas formas acabo de actualizarlo y es mejor que lo sustituyas. El mensaje que te aparecía era porque aún constando en el índice de Google esas páginas, no encontraba las metaetiquetas al estar bloqueadas por la línea que incluía la palabra search (las páginas de categorías usan esta palabra). Está bien, pero parece que Google recoge la información de la descripción desde ahí, y la URL de estas categorías desde su propio índice.

      Para evitar el contenido duplicado que genera Blogger es mejor usar las etiquetas de encabezado de robots personalizadas. Ya actualicé la entrada con esta información y modifiqué el ejemplo de archivo robots.txt.

      Disculpa la demora y recibe un saludo!

      Eliminar
    2. Muchas gracias Jorge. seguire tusindicaciones y ya te comento. saludos

      Eliminar
    3. Muchas gracias Jorge, pondre en practica tus inidicaciones y te comento como han ido, saludos

      Eliminar
  37. Estimado muy buena pagina, me has quitado un par de horas leyendo y "jugando" con mi blog jaja.
    Bueno modifique mi robots y agregue los que mencionabas, investigue y me encontre que un sitio ocupa esta linea:
    User-agent: Googlebot
    que sucede si agrego, a las que se pusistes más arriba, esa linea?
    Muchas gracias.

    ResponderEliminar
    Respuestas
    1. Hola, no sucederá nada diferente porque ya está ocurriendo. Cuando usamos un asterisco en la línea de User-agent ya estamos incluyendo a Googlebot, Googlebot-Mobile y todos los rastreadores que atiendan a este archivo.

      Un saludo y gracias a ti por preguntar.

      Eliminar
  38. Si buscas mi blog en Google poniendo "estoescritica" sale como primera opción una url que acaba en "2014_06_01_archive.html" No se como hacer para que esas urls con archive no se indexen y así dejen paso directamente a las entradas y sobre todo a la pagina principal del blog que es "estoescritia.blogspot.com" ¿Que tengo que hacer?

    ResponderEliminar
  39. Quiero Felicitarte por la clara explicación de Robots, para los que estamos iniciando, logramos entender, e incluso las acertadas respuestas que les das a los demás.
    Yo te quiero comentar que preferí no poner el Archivo personalizado, no se qué tanto vaya a influir en el SEO de mi Blog.

    Además, me percaté que mi sitemap termina "sitemap.xml" y tu archivo es atom.xml... la verdad me generó duda en seguir con la personalización del archivo de robots, por eso mejor lo quité.

    No se que me puedes aconsejar.

    Un Saludo!!!

    ResponderEliminar
    Respuestas
    1. Hola Glen, muchas gracias por tus amables palabras.

      Cuando escribí esta entrada todavía no había profundizado en las etiquetas de encabezado personalizadas, entonces usaba este archivo para bloquear las páginas que Blogger genera con contenido duplicado en nuestro sitio, pero es mejor hacerlo con esas etiquetas que te enlazo.

      Entonces las únicas funciones realmente importantes que le quedan al archivo robots.txt son impedir la indexación de páginas que no queremos que se muestren en los resultados de búsqueda. Nnormalmente casi ninguna queremos que no se muestre si queremos tener la máxima difusión de nuestro contenido ya que además Blogger no suele generar páginas con cadenas de búsqueda, excepto las que utiliza para mostrar comentarios, en este caso añade alto tipo: tublog.com/pagina.html?showComment=13593. En este caso sí es útil bloquear las páginas que incluyan un signo de interrogación, ya que es la única forma de hacerle saber al motor de búsqueda que se trata de páginas con contenidos exactamente iguales.

      Otra de las funciones es la de añadir la dirección del sitemap. Esto también podemos hacerlo desde las herramientas para webmasters de los diferentes buscadores, pero haciéndolo desde este archivo nos ahorramos el trabajo de ir de uno en uno (Por ejemplo en Google, Bing y los que pueda haber). En este caso no hay diferencia entre el feed atom o xml si el contenido que muestran es el mismo y que así es.

      También si usas Adsense, este ejemplo de archivo permitirá que los anuncios que se muestran de esta red de publicidad estén bien orientados en cualquier página, incluidas las de archivo y etiquetas, aún habiendo bloqueado la inclusión en el índice de las mismas.

      Espero que te haya servido y no te queden o te genere más dudas. Si no incluyes este archivo no pasa nada, pero con él tu blog quedará un poco mejor indexado, no sólo en Google, sino también en otros buscadores.

      Un saludo muy fuerte y muchas gracias por preguntar!!

      Eliminar
  40. Buenas tardes, en el caso mío que eliminé varias entradas, cómo podría bloquear a los robots? Estuve leyendo https://support.google.com/webmasters/answer/156449 pero no me queda claro cómo hacerlo. Es decir, pongo Disallow: / y toda la dirección que quiero bloquear o solo lo que va después del nombre de mi blog?
    Le agradeceré me oriente, saludos

    ResponderEliminar
    Respuestas
    1. Hola, si lo que quieres es que los robots no accedan a las páginas que borraste no tienes que hacer nada, en cuanto vuelvan y detecten que ya no están las retirarán de los resultados de búsqueda.

      Pero si quieres bloquear el acceso a alguna página más debes usar las direcciones sin incluir el dominio. Por ejemplo, para bloquear el acceso a todas las entradas publicadas en el 2012 pondrías así.

      Disallow: /2012/*

      Cualquier otra cuestión ya sabes en donde encontrarme. Un saludo y gracias a ti.

      Eliminar
  41. Yo encontré otro robots.txt recomendado para blogger. ¿Podrías decirme si es mejor, peor o da igual tener estas líneas?

    Disallow: /search*/ # Bloquea los directorios que empiecen por search
    Disallow: /*search/ # Bloquea los directorios que acaben en search
    Disallow: /*archive/ # Bloquea los directorios que acaben por archive
    Disallow: /?m=0
    Disallow: /?m=1

    ResponderEliminar
    Respuestas
    1. Hola, no está mal pero usando las etiquetas de robots personalizadas la primera y tercera líneas ya no son necesarias.

      El que yo he puesto usa la segunda igual que este pero añado la que bloquea los directorios que incluyan un signo de interrogación lo que incluye a las dos últimas de este y además todos los enlaces que lleven a una página apuntando a los comentarios.

      Sería mejor que usaras el mío y activaras las etiquetas de robots personalizadas. Un saludo y gracias por preguntar.

      Eliminar
    2. ¡Muchas gracias!

      Eliminar
  42. He puesto el tuyo!!!, espero sea eficiente ;) un saludo y enhorabuena por tu excelente blog.

    ResponderEliminar
    Respuestas
    1. No tendrás problemas y gracias por tu comentario.

      Eliminar
    2. hola muy interesante tu articulo..
      acabo de modificar mi robot.txt

      asi deberia de quedar???
      --------------------------------------------------
      # Blogger Sitemap generated on 2014.08.17
      User-agent: *
      Disallow: /search
      Allow: /
      # Archivo robots.txt personalizado.

      Disallow: /*? # Bloquea las URL que incluyan un signo de interrogación
      Disallow: /*archive/ # Bloquea los directorios que acaben por archive

      User-agent: Mediapartners-Google # Sólo para el robot de Adsense
      Disallow: #

      Sitemap: http://www.tdatv.blogspot.com.ar/atom.xml?redirect=false&start-index=1&max-results=500
      ------------------------------------------------------------------
      asi es como lo guarde.
      Ahora deberia entrar herr para webmaster y cambiar mi sitemap?
      tengo /sitemap.xml por este atom.xml?redirect=false&start-index=1&max-results=500?

      Eliminar
    3. Hola. Usa este mejor:

      User-agent: *
      Disallow: /search
      Allow: /

      Disallow: /*? # Bloquea las URL que incluyan un signo de interrogación
      Disallow: /*archive/ # Bloquea los directorios que acaben por archive

      User-agent: Mediapartners-Google # Sólo para el robot de Adsense
      Disallow:

      Sitemap: http://www.tdatv.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500


      No es necesario que vayas a Herramientas para webmasters de Google pero si tienes prisa porque el sitemap aparezca completo puedes hacerlo.

      Un saludo.

      Eliminar
    4. Hola,

      Gracias por tu articulo, tengo una duda, he enviado mi sitemap ahora que modificaré mi archivo robot también debería incluir el sitemap como lo mencionas en tu ejemplo

      Eliminar
    5. Hola. Sí, es mejor, sino los motores de búsqueda a los que no se lo hayas enviado no sabrán cuál es.

      Un saludo y gracias a ti.

      Eliminar
  43. Vaya, me he equivocado y te he echo un pequeño comentario en otra pagina.
    Lo quería pegar en esta, pero ya habia cerrado la otra.
    Una pregunta, en las etiquetas de encabezado de robots personalizadas, lo tengo inhabilitado, está correcto asi o hay que poner algun codigo.

    ResponderEliminar
    Respuestas
    1. Hola, no hace falta copiar ningún código, hay una opción para activarlas en Blogger y él mismo inserta el código por nosotros. No tienes más que marcar la opción noindex en la sección Archivo y páginas de búsqueda, en el cual se incluyen las páginas de etiquetas y pasará a desaparecer este contenido duplicado.

      Un saludo!

      Eliminar
  44. He actualizado el contenido del archivo robots.txt.

    No puede haber lineas en blando entre los User-agent y los Disallow.

    Un saludo a todos.

    ResponderEliminar
  45. Información muy útil y valiosa. Gracias por compartirla con el resto de los usuarios de la red.

    ResponderEliminar
    Respuestas
    1. Muchas gracias a ti y éxitos con tu portal. Un saludo.

      Eliminar
  46. Ya se puede modificar el archivo robots.txt en blogger. Veo que no lo has cambiado en absoluto. ¿Deberiamos modificarlo o esta bien como esta?

    ----------------------

    User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search
    Allow: /

    Sitemap: http://exprimiblog.blogspot.com/sitemap.xml

    ----------------------------

    Saludos
    Salva

    ResponderEliminar
    Respuestas
    1. Si no tenemos más de 500 entradas, no tenemos Adsense y usamos las etiquetas de encabezado de robots personalizadas casi no es necesario usar un archivo robots.txt personalizado. El que incluyen los blogs de Blogger es suficiente.

      Sólo quedaría por solucionar las páginas que incluye un signo de interrogación (Disallow: /*?), como por ejemplo las que enlazan a comentarios, pero no es un problema para nada grave.

      Así que seguramente esté bien como está. Yo ya necesitaría una línea más para añadir otra dirección de sitemap, pero como las otras ya las tengo enviadas a Google, para ese motor no necesitaría enviar las nuevas expresamente.

      Un saludo!

      Eliminar
  47. uff, una que no sabe nada de nada de estas cosas.

    Siempre había pensado que repitiendo en etiquetas de cada entrada los mismos términos eso haría que me encontraran antes. Ahora me quedo confundida, he estado perjudicando a mi blog??

    agradecería cualquier comentario que pudiera mejorar el que me encontraran cuando busquen contenido similar a las cosas que publico.


    muchisimas gracias!!

    ResponderEliminar
    Respuestas
    1. Si estás empezando es normal no hacer la mitad de las cosas bien, no te preocupes, con el tiempo todo se aprende y esto es muy útil.

      Cuando busques referencias, deberías buscarlas de calidad. Ese consejo de repetir palabras para intentar mejorar el tráfico es totalmente contraproducente y es el típico ejemplo que se usa en cualquier manual como una mala práctica, es una de las cosas que no hacer en SEO, prácticamente el de la sobre-optimización.


      Para cualquier duda aquí me tienes. Un saludo y muchas gracias a ti.

      Eliminar
  48. Hola, gracias por publicar esto, hace unos días empecé con mi blog y no tenía idea de esto, así que ya copié el texto pero pongo en google algo relacionado con mi blog y sigue no apareciendo, qué hago¿? Ayuda!

    ResponderEliminar
    Respuestas
    1. Hola, muchas gracias a ti.

      Como ya habrás visto el archivo robots.txt sirve para restringir el acceso de los robots a páginas de tu blog, además de para señalar el sitemap. Si lo que quieres es aparecer en Google tendrás que enviar tu sitio a él.

      Si tienes una cuenta de Google te recomiendo las herramientas para webmasters de Google desde la que podrás enviar tu sitemap completo y conocer que páginas se ven indexando y lo errores que puedan ocurrir.

      Un saludo!

      Eliminar
  49. muchas gracias por la informacion tan inportante de archivo robots txt saludos desde http://somosdvdriplatino.blogspot.com y http://kepeliculas.com.es

    ResponderEliminar
  50. Atención a los usuarios de este archivo robots.txt personalizado

    Dado que la plantilla para dispositivos móviles se encuentra en una dirección diferente (es la misma pero con un "?m=1" añadido al final de la misma), será necesario hacer una modificación, espero que temporal.

    Esto es importante ahora porque a partir del día 21 de abril Google tomará como un factor de posicionamiento la existencia, y probablemente el buen funcionamiento, de una plantilla para móviles.

    Bastará con eliminar (o convertir en comentario como en este ejemplo, con un doble #) la siguiente línea:

    ## Disallow: /*? # Bloquea las URL que incluyan un signo de interrogación

    Es necesario que el robot de Google tenga acceso a ella para que tenga constancia de que tal plantilla exista, sino, aunque para ti sea algo muy obvio, al robot de Google le estarás diciendo que ahí no mire nada, por lo que no sabrá.

    Tenéis más info aquí: exprimiblog.blogspot.com/2015/04/plantilla-moviles-factor-posicionamiento.html

    Un saludo a todos.

    ResponderEliminar
    Respuestas
    1. Gracias por esta aclaración. Vengo de google buscando acerca de esto y te encuentro a ti, justo el mismo blog que en su momento utilicé cuando quise saber como poner el archivo txt. RESUMEN: este artículo sigue siendo oro.

      Muchas gracias.

      Eliminar
  51. Este comentario ha sido eliminado por un administrador del blog.

    ResponderEliminar
  52. Hola. lo que quisiera lograr es que cuando use una palabra en específico con "X"buscador" encuentre"la página por lo menos en las 3 primeras paginas.
    El blog en si tiene el nombre o nickname que quiero usar para que se encuentre

    ResponderEliminar
    Respuestas
    1. Para eso lo que tienes que hacer es conseguir muchos enlaces o enlaces de calidad, que tengan esa palabra en el texto ancla, y que apunten hacia la página que quieres que se posicione.

      Este archivo solo no te servirá para eso. Un saludo.

      Eliminar
  53. Hola,estoy buscando información para entender/configurar el archivo robots.txt y tu articulo ha sido el mejor y mas claro.Llevo tiempo actualizando mi blog,reduciendo imagenes,poniendo palabras clave...cuando empecé no tenía ni idea de como aparecían los blog en el buscador...ahora lo veo más claro,pero enredando instale el archivo y en en Disallow: salia la barra "/" si mal no he entendido creo que ese sería el problema de porque mis fotos,página no aparece apenas en las búsquedas.Te agradecería tu ayuda para ver si estoy en lo cierto.He cambiado a poner # tal como aparece en tu entrada pero me quedan dudas y de nuevo te pido por favor si me puedes ayudar.Un saludo.

    ResponderEliminar
    Respuestas
    1. Hola.

      Creo que la línea a la que te refieres tiene un asterisco y una interrogación. Si estás usando Blogger creo que no afectaría a las imágenes y además está anulado convertido a comentario con el cuadradillo.

      Además no sé si tienes problemas con la página en general o solo con las fotos. Te agradecería una gramática más elaborada.

      ¿Comprobaste que las fotos aparecen en google? Si aparecen pues funciona, no habría ningún problema.

      Si realmente estuvieras bloqueando algo no aparecería, en principio, de ninguna manera en Google.

      Un saludo.

      Eliminar
  54. Hola Jorge, me gustaria me dijeras si esto esta bien: se trata de como tengo configurado mi blog de cocina: Tengo adsense y mi blog esta monetizado. Lo que quiero es mas visitas a mi blog.

    Te cuento que desde 2014 estoy viendo este foro y tratando de configurar mi blog con tus recomendaciones. Hace unas 4 semanas hice una configuracion y la deje un dia, al otro dia la modifique, cuando vi en las estadisticas del blog habian una cantidad record de visitas de 1,889 en un solo dia, cuando mi blo solo 20 0 15 diariamente.

    Asi esta en mi blog:

    User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /
    Allow: /

    Sitemap: http://www.chefmikkyguerrero.com/atom.xml?redirect=false&start-index=1&max-results=500

    Me dices y gracias Jorge. chefmikky@gmail.com



    ResponderEliminar
    Respuestas
    1. Hola Mikky.

      ¡Ostras! ¿que hiciste concretamente para pasar de 20 a 2000?

      El tema del robot de Adsense lo estás usando bien, estupendo.

      Pero en las siguientes líneas tienes que cambiar algo con urgencia. Si no quieres bloquear ninguna página. Has de dejarlo como el de Adsense. Así:

      User-agent: *
      Disallow:

      Si usas Disallow: / estás indicando todo lo contrario.

      Otra cosa es que el límite de entradas que se muestran en los feeds pasó recientemente de 500 a 150. Hay que actualizar eso porque según veo tienes unas 10 entradas que se quedan fuera.

      No pasa nada porque están en Google ya y aunque no hubiese sitemap seguirían ahí. Solo hay que tener ojo con no impedir el paso a nada.

      ¡Pero cambia lo otro rápido!¡Un saludo

      Eliminar
  55. Tanto tiempo usando Blogger y no conocía ninguna de estas funcionalidades, gracias por el tutorial :D

    ResponderEliminar
    Respuestas
    1. De nada. Muchas gracias a ti. Te sigo en Google+ por tu perfil anormal como yo. ¡Un saludo!

      Eliminar
  56. Hola doc , por favor me puedes decir si es la forma correcta de usar el codigo

    User-agent: *

    Disallow: /*archive/

    User-agent: Mediapartners-Google
    Disallow:
    Sitemap: http://www.letmisee.com/sitemap.xml

    ResponderEliminar
    Respuestas
    1. Hola. Hay un fallo que puede ser grave, en la segunda línea. Entre el User-agent y el Disallow no puede haber un línea en blanco. Puede que funcione pero no debería estar así.

      El sitemap también lo tienes mal. Repasa el artículo.

      Un saludo.

      Eliminar
  57. No es del todo correcto ya esto o esta actualizado, la forma correcta es esta:

    User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search
    Allow: /

    Sitemap: http://**VuestroBlog**.blogspot.com/sitemap.xml

    ResponderEliminar
    Respuestas
    1. Hola, Luis

      ¿Lo dices porque hay que poner el robot de Adsense antes, no?

      Voy a corregirlo porque tiene lógica. Espero que me lo puedas confirmar.

      Muchísimas gracias por el aviso y un fuerte saludo.

      Eliminar
  58. Hubo una actualización importante en esta entrada y es muy recomendable que la apliquéis en vuestros blogs.

    Aprovecho para saludaros; Un fuerte saludo y muchas gracias.

    ResponderEliminar
  59. No lo tenemos en el nuestro y eso que nos han hablado bastante cosas de él, ahora al leer tu artículo parece que va muy bien para indexar ciertas cosas, gracias por la ayuda

    ResponderEliminar
    Respuestas
    1. Sí, es una parte muy importante, no tanto para los blogs, pero sigue siendo igual de útil.

      ¡Un fuerte saludo y muchas gracias por el comentario!

      Eliminar
  60. hola maestro! tengo serias dudas, uso adsense con blogger, blogger me dice usar disallow search ,, esto alcanza realmente para que google no se confunda con el contenido duplicado ? siendo un blog y siendo tan inteligente los ingenieros de google, no pueden ver que no hay contenido duplicado ,que sólo es como esta estructurado un blog ? y otro tema, .. el robot no me deja escribir la versión atom.xml o la version atom.xml con el máximo de entradas, yo la escribo pero me termina quedando escrito en el robot la versión tradicional de sitemap.xml... hay que esperar un tiempo determinado o no te permite el robot escribir esto ?
    uso siteliner.com y me dice tengo 54% duplicado, porque no me aparecía los títulos de los post, y solo quedaba el titulo general del blog, entonces lo tomaba como el mismo titulo todos los posts. ahora lo arregle y sigue apareciendo 54% duplicado, alguna sugerencia u otra herramienta? muchísimas gracias por tu buena disposición, y trabajo !!

    ResponderEliminar
    Respuestas
    1. No le hagas caso al Siteliner porque se pasa por el forro este archivo robots.txt.

      Si ves los resultados de Siteliner empieza por las etiquetas search que retiramos en este ejemplo.

      Ahora no recuerdo herramientas para esto, pero si retiras las páginas que duplican el contenido internamente y no copiaste nada de tus propias entradas, no tendrás -prácticamente nada de- este tipo de contenido duplicado.

      Te contesto al resto en el siguiente comentario.

      Eliminar
  61. hola Maestro, el robot actual, teniendo adsense, alcanza con poner disallow search ? con esto me aseguro no me confunda con contenido duplicado ?? ,, y en el robot, quisiera sacar la version que dice sitemap.xml que registra sólo 26 post para poner atom.xml y max150posts,, y que ya lo he puesto en googlewebmaster sin problemas, pero no me deja escribirlo en el robot, se debe a algo o a mi ignorancia total ? o sea lo escribo, pero voy a la url y sigue apareciendo sitemap.xml...si sigue leyendo el robot el sitemap.xml no podre indexar el resto, alguna idea para aclararme esto ? muchas gracias por tu buena disposición y tiempo !!

    ResponderEliminar
    Respuestas
    1. Hola, estás confundida, pero en parte por mi culpa.

      Ya no es necesario añadir varias lineas para que el sitemap esté completo, independientemente del número de entradas.

      El ejemplo lleva ya tiempo actualizado pero la entrada tiene partes que ya no se corresponder con la actualidad. Están puestas igualmente bajo el título 'Esto ya está obsoleto y no es necesario añadirlo', pero miraré de retirarlo o al menos tacharlo.

      Sitemap: http://**tublog**.blogspot.com/sitemap.xml

      Tal como está en el ejemplo no tendrás problema alguno. Puedes comprobarlo entrando en esa URL y buscando la entrada más antigua.

      Supongo que te lo cambia porque tal vez el atom es un formato de feed que creo que está escrito en el mismo lenguaje pero no son exactamente lo mismo.

      Un fuerte saludo y muchas gracias por contactar.

      Eliminar
    2. Estoy confundido yo.

      También se puede usar un feed, como un atom, como sitemap. Si no te deja Blogger, pues no te preocupes, así funcionará mejor ya que si usas un feed tendrás un límite y tendrás que incluir varias direcciones diferentes para poder enviarlas y hacer un sitemap completo.

      Eliminar
  62. es la primera vez que uso este tipo de comments, no avisa si esta a la espera de moderacion, si llego a ti, sino llego, un caos ! jajaj, espero te haya llegado mi comentario anterior

    ResponderEliminar
    Respuestas
    1. Me llegaron todos, creo que no viste el aviso de moderación de comentarios porque es bastante pequeño.

      Eliminar
  63. Hola, introduje el código en mi blog, pero me surge una duda, porque ahora tengo un dominio propio: http://www.cajondeletras.red ¿habrá algún problema con esto? Antes mi blog era https://rociotame.blogspot.com
    y en el código escribí mi dominio.

    Gracias
    Saludos

    ResponderEliminar
    Respuestas
    1. Hola, no hay ningún inconveniente, cambiaste el dominio en los sitemaps correctamente y el resto son rutas que no se modifican por cambiar de dominio.

      Si quieres comprobar que está todo bien puedes ir a Search Console y allí, en rastreo, hay un probador de robots.txt.

      https://www.google.com/webmasters/tools/

      Un fuerte saludo, Rocío, y muchas gracias por pasarte por aquí.

      Eliminar
    2. Gracias a ti por contestar, Jorge.
      Saludo afectuoso :)

      Eliminar
    3. Otra cosa ¿tienes aquí algún artículo que me indique cómo armar un sitemap?

      Gracias de nuevo y saludos

      Eliminar
    4. Hola.

      Aquí te lo explican todo:

      http://www.robotstxt.org/

      Un saludo y gracias a ti.

      Eliminar
  64. Otra pregunta, lo que sucede es que leo las explicaciones y no entiendo porque no sé nada de HTML ¿Cómo puedo configurar las etiquetas de robot de cabecera personalizadas.

    Gracias por tu atención
    Un saludo afectuoso

    ResponderEliminar
    Respuestas
    1. Está enlazado en la misma entrada:

      http://exprimiblog.blogspot.com/2014/02/etiquetas-de-encabezado-personalizadas-robots-blogger.html

      Un saludo.

      Eliminar
  65. Muchas gracias Jorge. Felicidades por este maravilloso blog y por todos tus conocimientos.
    Un abrazo

    ResponderEliminar
    Respuestas
    1. Muchas gracias a ti, Rocio.

      ¡Recibe un fuerte saludo!

      Eliminar
  66. Hola gracias por el post, Queria saber si los codigos van exactamente como los pusiste? porque veo que dentro de los codigos escribiste algunas cosas. es todos completo o por partes c/u que hay que pegar?

    ResponderEliminar
    Respuestas
    1. Hola, va todo junto pero puedes retirar las partes que no te interesen.

      Un fuerte saludo y gracias a ti por contactar.

      Eliminar
  67. Buenas tardes, muy interesante este tema tratare de usarlo para mi blog gracias.

    ResponderEliminar
    Respuestas
    1. Hola, muy buenas.

      Pues sí, no tengas reparos en aplicarlo, está pensado para todos los blogs y además ahora no hay que hacer nada para tener actualizado el sitemap en él.

      Un fuerte saludo y muchas gracias por comentar.

      Eliminar
  68. HOLA GORGE MUY BUENO TU BLOG SALUDOS ES DE MUCHA UTILIDAD FELICIDADES DESDE VENEZUELA UN GRAN ABRAZO... ME GUSTARIA SABER SI ESTOY UTILIZANDO BIEN MI robots.txt personalizado


    User-agent: Mediapartners-Google

    Disallow:

    User-agent: *

    # Disallow: /*?

    Disallow: /*archive/

    Sitemap: http://sucreonlineradio.blogspot.com/sitemap-pages.xml

    Sitemap: http://sucreonlineradio.blogspot.com/sitemap.xml

    ResponderEliminar
  69. gracias muy bueno tus conocimientos y ayudas a muchos a solucionar sus problemas...

    ResponderEliminar
  70. hola como puedo hacer para tener el ese codigo para mi blog gracias

    ResponderEliminar

Tu comentario tiene valor, dedícale unos minutos y repásalo. Si tiene faltas de gramaticales o de ortografía lo borraré. Respondo a todos así que si tienes dudas no repares en preguntar.

Si esperas respuesta acuérdate de marcar el botón de 'Avisarme'.

Y RECUERDA: Para mantener las conversaciones legibles usa correctamente el botón COMENTAR o RESPONDER cuando proceda. Muchas gracias.

Más de 2000 suscriptores reciben las entradas en su correo

Vía FeedBurner. Introduce tu dirección de correo electrónico y confirma el mensaje que te llegue.