Heritrix
Heritrix est un robot d'indexation conçu et utilisé par Internet Archive pour l'archivage du web. C'est un logiciel libre, programmé en langage Java.
Catégories :
Logiciel libre pour Internet - HTTP - Standard du Web
Recherche sur Google Images :
Source image : wikifr.wordpress.com Cette image est un résultat de recherche de Google Image. Elle est peut-être réduite par rapport à l'originale et/ou protégée par des droits d'auteur. |
Page(s) en rapport avec ce sujet :
- Heritrix est un robot de collecte à grande échelle développé... Heritrix génère directement des fichiers dans le format Arc adopté par l'IIPC.... (source : ifla)
| Heritrix | |
|---|---|
| Dernière version | |
| Environnement | Linux/Windows |
| Type | Robot d'indexation |
| Licence | GNU LGPL |
| Site web | Heritrix |
Heritrix est un robot d'indexation conçu et utilisé par Internet Archive pour l'archivage du web. C'est un logiciel libre, programmé en langage Java. Son interface principale est accessible depuis un navigateur web, mais un outil en interpréteur de commandes peut aussi être optionnellement utilisé pour lancer l'indexation.
Heritrix a été développé conjointement par Internet Archive et les Bibliothèques Nationales Nordiques en 2003. Sa première sortie officielle a eu lieu en janvier 2004, et il a depuis été continuellement perfectionné par les membres d'Internet Archive et par des tiers intéressés.
Projets utilisant Heritrix
Un nombre important d'organisations et de bibliothèques nationales utilisent Heritrix, parmi lesquels :
- La Bibliothèque universitaire nationale d'Islande
- Netarkivet. dk au Danemark
- La Bibliothèque nationale de Nouvelle-Zélande
- Bibliothèque et Archives Canada
- La Bibliothèque nationale de France
Fichier Arc
Par défaut, Heritrix stocke les ressources qu'il collecte dans un fichier Arc, format qu'Internet Archive utilise depuis 1996 pour stocker ses archives. Heritrix peut aussi être configuré pour stocker les fichiers dans un format de répertoire identique au robot d'indexation Wget, qui appelle le répertoire et le fichier de chaque ressource selon son URL.
Dans le format Arc, de multiples ressources archivées sont stockées dans un seul fichier, afin d'éviter d'avoir à gérer la plupart de petits fichiers. Un fichier consiste en une séquence d'enregistrements d'URL, chacun étant accompagné d'un en-tête contenant des métadonnées à propos de la manière dont la ressource a été demandée, de l'en-tête HTTP, et du code de la réponse. La taille d'un fichier Arc est comprise entre 100 et 600 mégaoctets.
Exemple :
filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76 1 1 InternetArchive URL IP-address Archive-date Content-type Archive-length http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187 HTTP/1.1 200 OK Date: Thu, 22 Jun 2006 19:01:15 GMT Server: Apache Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT Content-Length: 30 Content-Type: text/html <html> Hello World!!! </html>
Outils pour le traitement de fichiers Arc
Heritrix inclut un outil en ligne de commande intitulé arcreader qui permet d'extraire le contenu d'un fichier Arc.
La commande suivante liste l'ensemble des URL et métadonnées stockées dans le fichier Arc de l'exemple précédent :
arcreader IA-2006062.arc
La commande suivante en extrait le fichier hello. html, en prenant en compte le début de l'enregistrement à l'offset 140 :
arcreader -o 140 -f dump IA-2006062.arc
Autres outils :
Outils en ligne de commande
Heritrix est apporté avec plusieurs outils en ligne de commande :
- htmlextractor - montre le lien que Heritrix doit extraire pour un URL donné
- hoppath. pl - recrée le chemin des liens pour une URL spécifiée depuis une indexation complétée
- manifest_bundle. pl - met en paquets l'ensemble des ressources référencées par le fichier manifeste du robot dans un fichier tar incompressé ou compressé
- cmdline-jmxclient - permet le contrôle en ligne de commande d'Heritrix
- arcreader - extrait du contenu d'un fichier Arc [↑]
- Michæl Stack, IWAW 2005. "Update on Heritrix developpment". (PDF)
- Kristinn Sigurdsson, National and University Library of Iceland, IWAW 2005. "Incremental crawling with Heritrix". (PDF)
- Gordon Mohr, Internet Archive. IWAW 2004. "Heritrix : an open source web Archiving Crawler". (PPT)
Liens externes
Recherche sur Amazone (livres) : |
La version présentée ici à été extraite depuis cette source le 11/03/2009.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.

Accueil
Recherche
Début page
Contact
Imprimer
Accessibilité