Comme leur nom l'indique, les web crawlers passent leur temps à explorer l'internet (textuellement "faire du crawl sur le web"). Ils parcourent tous les documents qu'ils trouvent en suivant les liens hypertexte.
On pourrait aussi parler de "spiders" (araignées, en anglais) qui parcourent continuellement la toile (le World WideWeb).
En "lisant" les pages web, les spiders repèrent les liens hypertextes et sautent ensuite vers les pages liées. Qu'ils lisent en repérant les liens hypertextes, et ainsi de suite...
Ouaaah, trop fort! Vous voulez dire que les robots sont parmi nous? Et que ceux-là passent toutes leurs journées à surfer sur le web?
Toutes leurs journées et toutes leurs nuits aussi. Mais ce ne sont que de simples ordinateurs munis de programmes qui leur permettent de récupérer tout ce qu'ils trouvent sur le web.
Les pages "lues" par les spiders sont envoyées vers une autre série
d'ordinateurs: les serveurs d'indexation. Leur rôle est de tenir à jour
un index des informations lues par les spiders.
Cet index se présente comme l'index d'un livre: à chaque mot, on fait correspondre la page où ce mot se trouve. Mais en beaucoup plus gros. Il constitue une gigantesque banque de données dans laquelle il sera possible de chercher très rapidement des informations.
Quand tu as répondu aux questions et bien compris les réponses, passe à la page suivante.Vers la page suivante