Nhờ hỗ trợ về phần tử trang tiếp theo

  • Nguyễn Quang
    Thành viên
    5 years trước #6246

    Chào mọi người,

    Mình đang thử setup chiến dịch nhưng đến đoạn phần tử trang tiếp theo thì gặp dạng page 1, 2,…dấu mũi tên nó chuyển luôn về đầu cuối trang hoặc đầu trang chứ không next qua trang kế như bình thường nên chẳng biết làm sao. Nhờ mọi người chỉ giúp?

    Nó tựa tựa như trang này: “toplist.vn”

    Cảm ơn mọi người!

    KDN Auto Leech
    Quản lý
    5 years trước #6253

    Vấn đề này thì bạn phải chế biến HTML của web mục tiêu 1 chút.

    Tìm và thay thế trong HTML nguyên bản:

    Tìm kiếm (regex): <li(.+?)active(.+?)<\/li>
    Thay thế: </ul><ul class=”nextpage”>

    Sau đó bạn có thể dùng phần tử: ul.nextpage li a

    phule2000
    Thành viên
    4 years, 10 months trước #8258

    hi, mình crawl dc tất cả các truyện trong trang này nhưng bị dính vào link này ko crawl dc, có thể nhờ ad hướng dẫn cách bỏ qua link child post để tiếp tục crawl các link khác ko https://bo***vel.com/novel/the-99th-divorce/chapter-172-173

    KDN Auto Leech
    Quản lý
    4 years, 10 months trước #8289

    hi, mình crawl dc tất cả các truyện trong trang này nhưng bị dính vào link này ko crawl dc, có thể nhờ ad hướng dẫn cách bỏ qua link child post để tiếp tục crawl các link khác ko https://bo***vel.com/novel/the-99th-divorce/chapter-172-173

    Không crawl được là do trong HTML của trang có chứa URL không hợp lệ bạn nhé. Bạn xóa URL này đi là được.

    Tệp đính kèm:
    Bạn phải đăng nhập để xem các tệp đính kèm.
    phule2000
    Thành viên
    4 years, 10 months trước #8292

    làm thế nào để xóa bỏ link child post để tiếp tục crawl chapter tiep theo vậy ạ? mình chỉ biết cách xỏa bỏ url của post

    phule2000
    Thành viên
    4 years, 10 months trước #8311

    Thank ad, mình đã xử lý được 😀

Đang xem bài viết thứ 1 (trong tổng số 6 bài viết)

You must be logged in to reply to this topic.