Faire une copie hors ligne d'un site avec Wget sous Windows et Linux
Faire une copie miroir hors ligne d'un site avec Wget sous Windows et Linux
Parfois, vous avez besoin d'obtenir une copie explorable d'un site Web afin de pouvoir y accéder hors ligne, de la mettre sur une clé USB ou même de la télécharger sur votre smartphone et de la lire lorsque vous voyagez ou voyagez. Bien qu'il soit facile dans les navigateurs et les systèmes d'exploitation modernes d'enregistrer une page Web au format PDF, il peut être ennuyeux de traiter chaque page. Voici wget.
Publicité
Wget est un gestionnaire de téléchargement open source. Il s'agit d'une application console développée principalement pour Linux, mais portée avec succès sur d'autres systèmes d'exploitation, notamment Windows et MacOS.
Si vous n'êtes pas familier avec wget, vous devriez certainement l'essayer. C'est très puissant. Il permet de récupérer des fichiers à partir de sites Web en utilisant HTTP, HTTPS et FTP, les protocoles Internet que nous utilisons de nos jours. Son comportement est contrôlé par des arguments de ligne de commande.
Wget prend en charge une variété d'options pour récupérer des fichiers sur des connexions lentes ou instables, y compris des tentatives, continuer là où il s'est arrêté, et plus encore. Il prend en charge le fichier "robots.txt", il peut donc fonctionner comme un robot d'indexation Web. Il ne peut récupérer que les fichiers modifiés, prend en charge les caractères génériques, les limites de type de fichier et les extensions régulières.
Wget prend en charge la récupération récursive de sites Web HTML et de serveurs FTP, vous permettant de créer un miroir de site Web. Voici comment cela peut être fait.
Avant de continuer, vous devez obtenir l'application wget.
Obtenez Wget sur Windows
J'utilise généralement des binaires de ces sources :
- éternellement ennuyé
- SourceForge
Les deux font leur travail.
Obtenez Wget sur Linux
Utilisez le gestionnaire de packages de votre distribution. Quelques exemples (exécuter eux en tant que root):
Debian/Ubuntu/Mint :
apt installer wget
CentOS/Redhat
miam installer wget
Arch Linux
pacman -Sy wget
Vide Linux
xbps-install -S wget
Pour faire une copie hors ligne d'un site avec Wget,
- Ouvert invite de commande / Terminal.
- Sous Windows, saisissez le chemin d'accès complet au fichier wget.exe.
- Sous Linux, tapez simplement wget.
- Maintenant, tapez les arguments suivants pour obtenir la commande suivante:
wget --mirror --convert-links --adjust-extension --page-requisites --no-parent https://site-to-download.com
- Remplace le
https://site-to-download.com
partie avec l'URL du site réel dont vous souhaitez faire un miroir.
Vous avez terminé!
Voici les commutateurs que nous utilisons :
-
--miroir
- applique un certain nombre d'options pour rendre le téléchargement récursif. -
--pas de parent
– N'explorez pas le répertoire parent afin d'obtenir une partie du site uniquement. -
--convertir-liens
- fait en sorte que tous les liens fonctionnent correctement avec la copie hors ligne. -
--page-requis
- téléchargez les fichiers JS et CSS pour conserver le style de page d'origine lors de la navigation sur un miroir local. -
--ajuster-extension
- ajoute les extensions appropriées (par exemple html, css, js) aux fichiers s'ils ont été récupérés sans eux.
C'est ça.