miércoles, 22 de julio de 2009




Un "web crawler" o "araña web" es  un programa que inspecciona las páginas del WWW de forma automática y programada.

 

Muchos sitios de Internet como Google utilizan este tipo de software para recorrer las páginas en la Web, descargarlas y posteriormente procesarlas. Es gracias a este tipo de software que la información que hay dispersa por Internet queda guardada y clasificada en un punto determinado.

 

Pero las arañas web no sólo son utilizadas por buscadores, también existen otros programas conocidos como spambot. Estos, al igual que las "arañas…" inspeccionan paginas web de manera automática, pero su finalidad es recolectar direcciones de e-mail para después bombardearlas con publicidad.

 

Las arañas web pueden realizar peticiones a los sitios web mucho mas rápido que cualquier persona, por esto impactan el rendimiento de un servidor. Si mas de una "araña" hace peticiones a un mismo servidor de manera continua, es posible que el servidor se colapse y no pueda responder con la misma eficacia.

 

Una solución parcial a este problema es el "protocolo de exclusión de robots", también conocido como protocolo "robots.txt". Se trata de un estándar por el cual los administradores de los sitios web indican a las "arañas" a qué partes de la web pueden acceder.

 

Si bien la mayoría de las "arañas" respetan los contenidos del archivo "robots.txt", algunas  no lo hacen, por lo que surge la necesidad de desarrollar métodos alternos para bloquear a las "arañas". El "spider traps", es un mecanismo implementado dentro del servidor que hace que la "araña web" entre en un loop infinito, malgastando así los recursos de esa "araña" y haciéndola menos productiva.

 

Claro está que la manera más llamativa de evitar que una "araña" sea "atrapada" es conocida como "covert crawling", que consiste en programar "arañas" que imitan el comportamiento (mas bien los hábitos de navegación) de los humanos.

 

Esto parece una tarea difícil. Las personas no navegan por todos los enlaces de una web, así que de alguna manera hay que crear un algoritmo que se encargue de decidir por qué enlaces se va a navegar.

 

Al hilo del "covert crawling" tenemos el trabajo desarrollado por Billy Hoffman, el cual programó una araña que adoptaba diferentes "personalidades" por cada hilo de ejecución.

 

Cosas de la cibernética y sus males.

 

zonavirus.com


Tags: aranas web, spam, virus

Publicado por OswaldoLilly @ 0:31
Comentarios (0)  | Enviar
Comentarios