Que es un robot en internet? un robot es un programa que se dedica a rastrear nuestras webs y guardar el contenido de las mismas en bases de datos además de seguir los enlaces que tengamos hacia otras webs.
Lo primero que hace un robot cuando llega a nuestra página web es buscar en la raíz de nuestra web si tenemos un archivo llamado robots.txt en caso de encontrarlo lee las directrices que se encuentren en el, caso contrario comienza a rastrear toda la web, por este motivo es de suma importancia construir correctamente el archivo robots.txt y colocar en el las páginas que queremos que sean rastreadas y las que no, las páginas que no querramos que sean rastreadas no serán indexadas por los buscadores.
Configurar el archivo robots.txt
Cómo puedes ver se trata de un simple archivo de texto, este archivo debe ser colocado en la raíz de nuestro sitio web y con las siguientes instrucciones podrás definir como deseas que se comporten los robots que visitan tu web:
Ejemplo 1:
User-agent: * # * quiere decir: para todos los robots
Disallow: / # evita la indexacion de todas las páginas en el sitio web
Ejemplo2:
User-agent: BadBot #evitamos que el robot BadBot indexe las páginas de nuestra web
Disallow: /
Ejemplo3:
User-agent: * # para todos los robots
Disallow: /privado/test.html #evitamos la indexación del archivo test.html dentro de la carpeta privado
Disallow: /images # evitamos la indexacion de los archivos dentro de la carpeta images
Como puedes ver # se utiliza para comentar una línea en el archivo robots.txt
Además podemos decirle a los robots a que hora deseamos que nos visiten, para ello agregamos la línea:
Visit-time: 0600-0700 #obligamos a los robots a rastrear las paginas solo de 6 am a 7 am (las horas se colocan en formato Greenwitch )
un archivo completo podría tener el siguiente formato:
User-agent: *
Disallow: /privado/test.html
Disallow: /images
Visit-time: 0600-0700
Importante: No deben existir líneas en blanco en nuestro archivo, pues los robots revisarían el archivo hasta llegar a la primera línea en blanco.
Donde colocar el archivo?
R.- Cómo dijimos antes, debe ser colocado en la raíz de tu sitio web, es decir, debe ser accesible desde www.tudominio.com/robots.txt (desde luego que debes reemplazar tudominio.com por tu propio dominio.)
Esperamos que este artículo sea de tu ayuda, si tienes dudas comunícate con nosotros, estaremos felices en poder ayudarte!
Este es el código del index de mi página, y no se donde colocar el robot de busqueda, ya que hace mucho tiempo tengo la página y suele tener muy pocas visitas.
Me pueden ayudar? Gracias
//codigo suprimido.
Mary, el archivo robots.txt se coloca en la raíz de tu sitio web, es solamente un archivo que ayuda a robots de los buscadores a saber como rastrear las páginas de tu sitio web.
muchas gracias por la informacion de configuracion de los robots.saludos.
Hola Siloam, que bueno que te sirvió la información, cualquier duda avisanos…
saludos!