La recherche sur l'Internet

Fonctionnement des moteurs de recherche: synthèse

Les web crawlers ou spidersspider

Comme leur nom l'indique, les web crawlers passent leur temps à explorer l'internet (textuellement "faire du crawl sur le web"). Ils parcourent tous les documents qu'ils trouvent en suivant les liens hypertextes.

On pourrait aussi parler de "spiders" (araignées, en anglais) qui parcourent continuellement la toile (le World WideWeb).

Ils lisent tous les mots qui figurent sur ces pages et envoient le fruit de leurs lectures vers les serveurs d'index. ILS NE COMPRENNENT RIEN AUX MOTS QU'ILS LISENT.

En "lisant" les pages web, les spiders repèrent les liens hypertextes et sautent ensuite vers les pages liées. Qu'ils lisent en repérant les liens hypertextes, et ainsi de suite...

Remarques:

  • Les pages qui sont fréquemment modifiées -les pages des journaux quotidiens, par exemple- sont parcourues plus régulièrement que d'autres.
  • Les pages qui ne sont liées à aucune autre page ne sont jamais visitées (pourquoi?)

Ouaaah, trop fort! Vous voulez dire que les robots sont parmi nous? Et que ceux-là passent toutes leurs journées à surfer sur le web?

Toutes leurs journées et toutes leurs nuits aussi. Mais ce ne sont que de simples ordinateurs munis de programmes qui leur permettent de récupérer tout ce qu'ils trouvent sur le web.

Les serveurs d'index

index Les pages "lues" par les spiders sont envoyées vers une autre série d'ordinateurs: les serveurs d'index. Leur rôle est de tenir à jour un index des informations lues par les spiders.

Cet index se présente comme l'index d'un livre: à chaque mot, on fait correspondre la page où ce mot se trouve. Mais en beaucoup plus gros. Il constitue une gigantesque banque de données dans laquelle il sera possible de chercher très rapidement des informations.

Synthèse

Dans le vocabulaire de l'Internet, un spider est
Une araignée qui parcourt le web

Non.
"Araignée" se traduit bien par "spider", en anglais. Mais aucune araignée n'est sur Internet.

Un robot

Exact
Il s'agit d'un robot -un ordinateur, en fait- qui parcourt continuellement la toile mondiale.

Un serveur d'indexation

Réponse fausse.
Tu sembles confondre les rôles des serveurs. Relis ce qui est marqué plus haut

Un moteur de recherche

Mauvaise réponse.
Les sociétés qui proposent des moteurs de recherche disposent d'ordinateurs appelés "spiders". Pour que faire?

Pourquoi a-t-on donné le nom de "spiders" (araignées) à ces organes des moteurs de recherche?
Parce que ce sont des araignées domestiquées et dressées pour faire le travail

Tu as sans doute trop regardé Spiderman... Réponse fausse.

Parce que ce sont des ordinateurs munis de 8 pattes, comme les araignées

Réponse fausse: on n'a pas encore vu d'ordinateurs munis de pattes et qui se déplacent

Parce que ces ordinateurs parcourent le web et que le web est organisé comme une toile d'araignée

Réponse exacte.
Le "web" est organisé comme une toile d'araignée dont les nœuds sont reliés.
Toile d'araignée = "spider's web" en anglais.

Parce que ces ordinateurs sont tellement peu utilisés que certains farceurs disent que l'on y trouve des toiles d'araignées

Réponse fausse. Ces ordinateurs travaillent 24h/24.

L'index d'un livre est
La table des matières avec les titres des chapitres

Non.
La table des matières ne doit pas être confondue avec l'index. Ils sont complémentaires.

Une liste des principaux mots utilisés avec les numéros de page où ils peuvent être trouvés

Exact
L'index d'un livre se trouve généralement à la fin du livre.

Un marque-page, un signet

Réponse fausse.
Il n'y a pas de rapport entre un index et un signet.

Dans le premier paragraphe ci-dessus, on lit "les spiders repèrent les liens hypertextes". Qu'est-ce qu'un lien hypertexte?
Un texte ou une image cliquable qui renvoie vers une autre page ou un autre site

Correct.
Les liens hypertextes sont la base du web. On parle encore d'hyperliens.

Un résumé du contenu d'une page web.

Ce n'est pas correct

Un lien direct vers un moteur de recherche

Réponse fausse.
Un lien vers un moteur de recherche est un lien hypertexte, mais tous les liens hypertextes ne donnent pas accès à un moteur de recherche.

Monsieur Dupont, spécialiste de la physique des particules, vient de mettre en ligne un site web extrêmement intéressant sur ses dernières recherches.
Immédiatement, il se rend sur les principaux moteurs de recherche pour vérifier que son site est répertorié. Mais aucune trace de son travail. Pourquoi?
Parce que ce travail n'est pas du tout intéressant.

On n'en sait rien.
Peut-être a-t-il publié une théorie aussi révolutionnaire que celle d'Einstein. Ce n'est pas la bonne réponse.
Et même des théories sans intérêt, ou fausses, pourraient être référencées par les moteurs de recherche.

Parce que les moteurs de recherche n'ont pas encore eu la possibilité de visiter son site.

Exact.
Il faus souvent plusieurs jours pour que les moteurs de recherche visitent un nouveau site. Et encore, il faut, au moins, une condition supplémentaire. Laquelle?

Parce qu'un site personnel n'est jamais référencé par les moteurs de recherche.

Réponse fausse.
Tous les sites peuvent figurer dans la banque de données des moteurs de recherche.

Trois mois plus tard, monsieur Dupont n'a pas quitté son écran et ne voit toujours pas son site apparaître sur les moteurs de recherche. Quelle pourrait être la cause du problème?
Parce que ce travail n'est pas du tout intéressant et les moteurs de recherche l'ont rejeté.

On n'en sait rien; et les moteurs de recherche non plus.
Ils ne sont pas capables de juger si une théorie est intéressante ou complètement fausse.
Ce n'est pas leur problème.

Parce que les moteurs de recherche n'ont pas encore eu le temps de visiter son site.

Réponse fausse
À partir du moment où un moteur de recherche dispose d'un lien vers le site, il pourra le visiter.
Cela peut prendre quelques jours, tout au plus.

Parce qu'il n'existe aucun lien hypertexte vers son site, nulle part sur le web.

Réponse sans doute correcte.
Si le site n'est pas connu et que personne n'a encore jugé bon de faire un lien quelque part, les moteurs de recherche ne peuvent pas trouver le site et l'indexer.

Parce qu'aucun spécialiste de la physique nucléaire employé par un moteur de recherche n'a encore pu vérifier ce qui figure dans le site de Mr Dupont

C'est incorrect. Aucun spécialiste de physique nucléaire n'est employé par les moteurs de recherche. Ce que Mr Dupont écrit n'est vérifié par personne.

Finalement, "Eureka", les moteurs de recherche référencent le site web de monsieur Dupont.
Cela prouve que:
Son travail était vraiment intéressant: un grand progrès pour la science.

On n'en sait rien.
Les moteurs de recherche ne jugent pas de la qualité d'un travail scientifique.

Les moteurs de recherche ont trouvé un lien, quelque part, vers son site.

Exact.
Sans lien hypertexte vers son site web, il aurait toujours pu attendre encore des mois sans résultat.

La patience est toujours récompensée.

Réponse fausse.
Ici, la patience ne suffit pas. Il faut au moins une autre condition.

Quand tu as répondu aux questions et bien compris les réponses, passe à la page suivante.Vers la page suivante Page suivante


Dernière modification 18/08/2016 Test dans /info ...