ทำสำเนาออฟไลน์ของไซต์ด้วย Wget บน Windows และ Linux
ทำสำเนามิเรอร์ออฟไลน์ของไซต์ด้วย Wget บน Windows และ Linux
บางครั้งคุณจำเป็นต้องได้รับสำเนาของเว็บไซต์ที่สามารถเรียกดูได้ เพื่อให้คุณสามารถเข้าถึงได้แบบออฟไลน์ เสียบ USB หรือแม้แต่อัปโหลดไปยังสมาร์ทโฟนของคุณและอ่านเมื่อบินหรือเดินทาง แม้ว่าในเบราว์เซอร์สมัยใหม่และระบบปฏิบัติการจะบันทึกหน้าเว็บเป็น PDF ได้ง่าย แต่การประมวลผลทุกหน้าก็อาจเป็นเรื่องที่น่ารำคาญ มาแล้วจ้า.
โฆษณา
Wget เป็นตัวจัดการการดาวน์โหลดโอเพ่นซอร์ส เป็นแอปคอนโซลที่พัฒนาขึ้นสำหรับ Linux เป็นหลัก แต่พอร์ตบนระบบปฏิบัติการอื่นได้สำเร็จ รวมทั้ง Windows และ MacOS
หากคุณไม่คุ้นเคยกับ wget คุณควรลองดู มันมีพลังมาก อนุญาตให้ดึงไฟล์จากเว็บไซต์โดยใช้ HTTP, HTTPS และ FTP ซึ่งเป็นโปรโตคอลอินเทอร์เน็ตที่เราใช้อยู่ในปัจจุบัน พฤติกรรมของมันถูกควบคุมโดยอาร์กิวเมนต์บรรทัดคำสั่ง
Wget รองรับตัวเลือกที่หลากหลายในการดึงไฟล์ในการเชื่อมต่อที่ช้าหรือไม่เสถียร รวมถึงการลองใหม่ ดำเนินการต่อจากที่ค้างไว้ และอื่นๆ รองรับไฟล์ "robots.txt" จึงสามารถทำงานเหมือนโปรแกรมรวบรวมข้อมูลเว็บ สามารถดึงไฟล์ที่แก้ไขได้เท่านั้น รองรับไวด์การ์ด ขีดจำกัดประเภทไฟล์ และนามสกุลปกติ
Wget รองรับการเรียกซ้ำของเว็บไซต์ HTML และเซิร์ฟเวอร์ FTP ซึ่งช่วยให้คุณสามารถสร้างมิเรอร์เว็บไซต์ได้ นี่คือวิธีที่สามารถทำได้
ก่อนดำเนินการต่อ คุณต้องรับแอพ wget
รับ Wget บน Windows
ฉันมักจะใช้ไบนารีจากแหล่งเหล่านี้:
- เบื่อหน่าย
- SourceForge
ทั้งสองทำงานของพวกเขา
รับ Wget บน Linux
ใช้ตัวจัดการแพ็คเกจของ distro ตัวอย่างบางส่วน (run พวกเขาเป็นรูต):
เดเบียน/อูบุนตู/มิ้นท์:
apt ติดตั้ง wget
CentOS/Redhat
yum ติดตั้ง wget
Arch Linux
pacman -Sy wget
โมฆะ Linux
xbps-ติดตั้ง -S wget
ในการทำสำเนาออฟไลน์ของไซต์ด้วย Wget
- เปิด พร้อมรับคำสั่ง / เทอร์มินัล.
- บน Windows ให้พิมพ์พาธแบบเต็มไปยังไฟล์ wget.exe
- บน Linux ให้พิมพ์ wget
- ตอนนี้ พิมพ์อาร์กิวเมนต์ต่อไปนี้เพื่อรับคำสั่งต่อไปนี้:
wget --mirror --convert-links --adjust-extension --page-requisites --no-parent https://site-to-download.com
- แทนที่
https://site-to-download.com
ส่วนที่มี URL ของไซต์จริงที่คุณต้องการสร้างมิเรอร์
คุณทำเสร็จแล้ว!
นี่คือสวิตช์ที่เราใช้:
-
--กระจก
- ใช้ตัวเลือกมากมายเพื่อทำให้การดาวน์โหลดซ้ำ -
--no-parent
– อย่ารวบรวมข้อมูลไดเร็กทอรีหลักเพื่อรับบางส่วนของไซต์เท่านั้น -
--แปลงลิงค์
- ทำให้ลิงก์ทั้งหมดทำงานอย่างถูกต้องกับสำเนาออฟไลน์ -
--page-requisites
- ดาวน์โหลดไฟล์ JS และ CSS เพื่อคงรูปแบบหน้าเดิมไว้เมื่อเรียกดูมิเรอร์ในเครื่อง -
--ปรับ-นามสกุล
- เพิ่มนามสกุลที่เหมาะสม (เช่น html, css, js) ให้กับไฟล์หากไฟล์ถูกดึงออกมาโดยไม่มี
แค่นั้นแหละ.