El archivo robots.txt de cara al SEO (en pocas palabras)

Como bien sabemos, las “arañas” de ciertos buscadores electrónicos como Google, siempre buscarán en el directorio raíz de un sitio Web el fichero “robots.txt”, básicamente para conocer qué archivos deben o no incluir en su base de datos.

Estas son tres preguntas que usualmente me hacen sobre el tema:

¿Qué pasa si deseamos excluir algunos contenidos del sitio para el buscador?

Si deseamos excluir (o incluir) parte de nuestras carpetas (imágenes u otras) o de contenidos ante los «ojos» de los buscadores, se ha recomendado crear un fichero bajo el nombre de «robots.txt».

El mismo, está formado por uno o varios registros, cada uno de los cuales deberá estar hecho con dos campos: una línea User-Agent y una o más líneas Disallow.

Si deseas aprender cómo hacerlo, te dejo esta herramienta así como una guía práctica para crearlo con Google Webmaster Tools…

¿Perjudica esto el trabajo de posicionamiento SEO?

En buena teoría no. De hecho se ha recomendado como “importante” para la indexación adecuada en los buscadores -lo cual es algo indispensable cuando trabajamos en una estrategia de posicionamiento en Internet.

¿Pero, es necesario utilizarlo siempre?

Personalmente muy pocas veces lo hago… mi costumbre es aplicarlo solo cuando realmente NO deseo que visite algo dentro del sitio en cuestión (es decir: para excluir archivos).

Para indicarle que incluya archivos o carpetas, nunca lo utilizo. Esto, ya que los buscadores han evolucionado hoy en día y no considero tan indispensable decirle que necesito que pase a “visitar” del sitio… (Para esto prefiero utilizar la herramienta sitemaps, aunque algunos no la recomienden del todo).

Según tu propia experiencia: ¿Qué opinas sobre el uso o NO de dicho archivo?

Relacionado

10 Responses

Wilmer Miguel Aquino Fernandez dice:

1 agosto, 2008 a las 1:30 pm

Personalmente yo casi nunca utilizo este “robots.txt” algunas raras veces pero con el propósito de excluir archivos.
Pingback: Blog Oficial de Mercadeo en Línea » Sobre el Archivo robots.txt de cara con el SEO
Pingback: SearchCap: la semana en search 28 julio - 3 agosto | Search Engine Land en Español
Spanish SEO dice:

4 agosto, 2008 a las 5:11 pm

Robots.txt es para exclusion de informacion mas no para inclusion. El problema con robots commands es que los bad bots tienden a ignorarlos, e incluso MSN, Yahoo y Google algunas veces lo hace. De todos ellos el peor es MSN:

A bad robot hit /bot-trap/index.php 2008-08-03 (Sun) 21:39:01 address is 65.55.209.207, hostname is msnbot-65-55-209-207.search.msn.com, agent is msnbot/1.1 (+http://search.msn.com/msnbot.htm)

Ademas robots.txt puede hacer un cloaking para ocultarlo y/o hacerlo selectivo en base a User-Agent.

Si quieres blockquear paginas, etc, etc, hay formas mas efectivas.
Charlie dice:

5 agosto, 2008 a las 10:44 am

@Wilmer: estamos igual entonces 🙂

@Spanish SEO: en un inicio se dijo que podriamos utilizar el archivo como inclusión mediante el uso del comodín “*” en la línea del «User-agent» dejando en blanco el «Disallow»…

Pero igual, creo que se hizo más popular por la función de exclusión que otra cosa… y que existen algunas formas para hacer el trabajo de manera más «efectiva» digamos…
Skate dice:

10 octubre, 2008 a las 2:38 am

yo tengo el archivos robots.txt para algunas carpetas que no quiero que indexe. Tambien tengo las imagenes. ¿Recomendais que Google indexe todas las imagenes de mi web?Saludos 🙂
Charlie dice:

10 octubre, 2008 a las 2:48 pm

@Skate: con esto de la búsqueda universal de Google, vale la pena también tener optimizadas las imágenes y así aparecer en búsquedas relacionadas… pero eso depende solamente de tí 😉
zapatillas nike dice:

25 noviembre, 2008 a las 5:29 pm

la verdad es que también va bien cuando redireccionas alguna página, para que el buscador desindexe algunas páginas que sino lo podría coger como contenido duplicado
Tanguitor dice:

7 marzo, 2010 a las 10:16 am

Excelente página,

tengo que tunear el robots.txt y veo que lo mejor es preguntar antes de meter la pata:

Instale un script del que quiero bloquear unas url’s que genera:
mipunto.com/?cbg=yniraytghhrhhs;
Como hago, asi?
Disallow: /?cbg=*
o
Disallow: /?cbg
o
Disallow: /?*

Otra pregunta:
para evitar que indexe paginas duplicadas x ejemplo:
mipunto.com/cat/cat1/page/2/
seria, disallow: /*/*/page/*

esa es la menera de utilizar los comodines?.

Desde ya muchas gracias.
Nando dice:

13 octubre, 2010 a las 7:20 am

Merci por la info!!!

Comments are closed.