Helpex - Trao đổi & giúp đỡ Đăng nhập
15

Tôi cần một tập lệnh có thể tạo một trang web và trả về danh sách tất cả các trang được thu thập thông tin ở định dạng văn bản thuần túy hoặc tương tự; mà tôi sẽ gửi đến các công cụ tìm kiếm dưới dạng sơ đồ trang web. Tôi có thể sử dụng WGET để tạo sơ đồ trang của một trang web không? Hoặc có tập lệnh PHP nào có thể làm được điều tương tự không?

15 hữu ích 0 bình luận 18k xem chia sẻ
41
wget --spider --recursive --no-verbose --output-file=wgetlog.txt http://somewebsite.com
sed -n "s@.\+ URL:\([^ ]\+\) .\+@\1@p" wgetlog.txt | sed "s@&@\&@" > sedlog.txt

Điều này tạo ra một tệp có tên sedlog.txtchứa tất cả các liên kết được tìm thấy trên trang web được chỉ định. Bạn có thể sử dụng PHP hoặc tập lệnh shell để chuyển đổi sơ đồ trang tệp văn bản thành sơ đồ trang XML. Chỉnh sửa các tham số của lệnh wget (chấp nhận / từ chối / bao gồm / loại trừ) để chỉ lấy các liên kết bạn cần.

41 hữu ích 4 bình luận chia sẻ
2

Bạn có thể sử dụng tập lệnh perl này để thực hiện thủ thuật: http://code.google.com/p/perlsitemapgenerator/

2 hữu ích 1 bình luận chia sẻ
loading
Không tìm thấy câu trả lời bạn tìm kiếm? Duyệt qua các câu hỏi được gắn thẻ php wget web-crawler bots , hoặc hỏi câu hỏi của bạn.

Có thể bạn quan tâm

loading