Como bien sabemos, las “arañas” de ciertos buscadores electrónicos como Google, siempre buscarán en el directorio raíz de un sitio Web el fichero “robots.txt”, básicamente para conocer qué archivos deben o no incluir en su base de datos.

Estas son tres preguntas que usualmente me hacen sobre el tema:

¿Qué pasa si deseamos excluir algunos contenidos del sitio para el buscador?

Si deseamos excluir (o incluir) parte de nuestras carpetas (imágenes u otras) o de contenidos ante los «ojos» de los buscadores, se ha recomendado crear un fichero bajo el nombre de «robots.txt».

El mismo, está formado por uno o varios registros, cada uno de los cuales deberá estar hecho con dos campos: una línea User-Agent y una o más líneas Disallow.

Si deseas aprender cómo hacerlo, te dejo esta herramienta así como una guía práctica para crearlo con Google Webmaster Tools

¿Perjudica esto el trabajo de posicionamiento SEO?

En buena teoría no. De hecho se ha recomendado como “importante” para la indexación adecuada en los buscadores -lo cual es algo indispensable cuando trabajamos en una estrategia de posicionamiento en Internet.

¿Pero, es necesario utilizarlo siempre?

Personalmente muy pocas veces lo hago… mi costumbre es aplicarlo solo cuando realmente NO deseo que visite algo dentro del sitio en cuestión (es decir: para excluir archivos).

Para indicarle que incluya archivos o carpetas, nunca lo utilizo. Esto, ya que los buscadores han evolucionado hoy en día y no considero tan indispensable decirle que necesito que pase a “visitar” del sitio… (Para esto prefiero utilizar la herramienta sitemaps, aunque algunos no la recomienden del todo).

Según tu propia experiencia: ¿Qué opinas sobre el uso o NO de dicho archivo?

10 Responses

  1. Personalmente yo casi nunca utilizo este “robots.txt” algunas raras veces pero con el propósito de excluir archivos.

  2. Robots.txt es para exclusion de informacion mas no para inclusion. El problema con robots commands es que los bad bots tienden a ignorarlos, e incluso MSN, Yahoo y Google algunas veces lo hace. De todos ellos el peor es MSN:

    A bad robot hit /bot-trap/index.php 2008-08-03 (Sun) 21:39:01 address is 65.55.209.207, hostname is msnbot-65-55-209-207.search.msn.com, agent is msnbot/1.1 (+http://search.msn.com/msnbot.htm)

    Ademas robots.txt puede hacer un cloaking para ocultarlo y/o hacerlo selectivo en base a User-Agent.

    Si quieres blockquear paginas, etc, etc, hay formas mas efectivas.

  3. @Wilmer: estamos igual entonces 🙂

    @Spanish SEO: en un inicio se dijo que podriamos utilizar el archivo como inclusión mediante el uso del comodín “*” en la línea del «User-agent» dejando en blanco el «Disallow»…

    Pero igual, creo que se hizo más popular por la función de exclusión que otra cosa… y que existen algunas formas para hacer el trabajo de manera más «efectiva» digamos…

  4. yo tengo el archivos robots.txt para algunas carpetas que no quiero que indexe. Tambien tengo las imagenes. ¿Recomendais que Google indexe todas las imagenes de mi web?Saludos 🙂

  5. @Skate: con esto de la búsqueda universal de Google, vale la pena también tener optimizadas las imágenes y así aparecer en búsquedas relacionadas… pero eso depende solamente de tí 😉

  6. Excelente página,

    tengo que tunear el robots.txt y veo que lo mejor es preguntar antes de meter la pata:

    Instale un script del que quiero bloquear unas url’s que genera:
    mipunto.com/?cbg=yniraytghhrhhs;
    Como hago, asi?
    Disallow: /?cbg=*
    o
    Disallow: /?cbg
    o
    Disallow: /?*

    Otra pregunta:
    para evitar que indexe paginas duplicadas x ejemplo:
    mipunto.com/cat/cat1/page/2/
    seria, disallow: /*/*/page/*

    esa es la menera de utilizar los comodines?.

    Desde ya muchas gracias.

Comments are closed.