Robot d'indexation

Un robot d'indexation est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources, pour permettre à un moteur de recherche de les indexer.



Catégories :

Moteur de recherche - Logiciel pour Internet - HTTP - Standard du Web

Recherche sur Google Images :


Source image : wikifr.wordpress.com
Cette image est un résultat de recherche de Google Image. Elle est peut-être réduite par rapport à l'originale et/ou protégée par des droits d'auteur.

Page(s) en rapport avec ce sujet :

  • Le spider ou robot d'indexation est un logiciel parcourant le web de liens en liens afin d'indexer les sites visités et mettre à jour les bases de données... (source : centralweb)
  • Robot d'indexation. Un robot d'indexation est un programme dédié au traitement des documents Web en vue de leur intégration dans un meoteur de recherche.... (source : hemi-communication)
  • Ce qui est spécifique à Twenga est par conséquent déjà son robot indexation.... 15 serveurs Web, 15 de recherche et le reste pour le crawl, c'est-à-dire l'indexation.... Le robot d'indexation est votre principale consommation de ressources ?... (source : journaldunet)

Un robot d'indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages web, images, vidéos, documents Word, PDF ou, etc. ), pour permettre à un moteur de recherche de les indexer.

Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des pourriels.

Principes d'indexation

Pour indexer de nouvelles ressources, un robot procède en suivant récursivement les hyperliens trouvés à partir d'une page pivot. Par la suite, il est avantageux de mémoriser l'URL de chaque ressource récupérée et d'adapter la fréquence des visites à la fréquence observée de mise à jour de la ressource. Cependant, de nombreuses ressources échappent à cette exploration récursive, car seuls des hyperliens créés à la demande, par conséquent introuvables par un robot, permettent d'y accéder. Cet ensemble de ressources inexploré est quelquefois nommé web profond.

Un fichier d'exclusion (robots. txt) positionné dans la racine d'un site web sert à donner aux robots une liste de ressources à ignorer. Cette convention sert à diminuer la charge du serveur web et d'éviter des ressources sans intérêt. Par contre, certains robots ne se préoccupent pas de ce fichier.

Deux caractéristiques du Web compliquent le travail du robot d'indexation : le grand volume de données et la bande passante. Un particulièrement grand nombre de pages sont ajoutées, modifiées et supprimées chaque jour. Si la capacité de stockage d'information, comme la vitesse des processeurs, a augmenté rapidement, la bande passante n'a pas bénéficié de la même progression. Le problème est par conséquent de traiter un volume toujours croissant d'information avec un débit limité. Le robot a par conséquent besoin de donner des priorités à ses téléchargements.

Le comportement d'un robot d'indexation résulte de la combinaison des principes suivants :

Les robots du Web 3.0

Le Web 3.0 définit des technologies avancées et de nouveaux principes de recherche sur Internet qui devront s'appuyer en partie sur les normes du Web sémantique. Les robots du Web 3.0 exploiteront des méthodes d'indexation impliquant des associations homme-machine plus intelligentes que celles qui sont pratiquées actuellement.

Robots libres
  • HTTrack est un logiciel aspirateur de site internet qui crée des miroirs des sites web pour une utilisation hors ligne. Il est distribué sous la licence GPL.
  • Jæksoft WebSearch est un robot d'indexation de site Internet. Publié sous licence GPL, il s'appuie sur Lucene pour l'indexation.
  • Nutch est un robot de collecte rédigé en Java et publié sous Licence Apache. Il est parfois utilisé avec le projet Lucene de la fondation Apache.

Robots propriétaires

  • KB Crawl de BEA-Conseil
  • OmniExplorer_Bot de OmniExplorer
  • TwengaBot de Twenga
  • ExaBot de Exalead

Liens externes

Recherche sur Amazone (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Robot_d%27indexation.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 11/03/2009.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu