Nhờ hỗ trợ về phần tử trang tiếp theo

  • Ảnh đại diệnNguyễn Quang
    Thành viên
    # 3 tháng, 2 tuần trước

    Chào mọi người,

    Mình đang thử setup chiến dịch nhưng đến đoạn phần tử trang tiếp theo thì gặp dạng page 1, 2,…dấu mũi tên nó chuyển luôn về đầu cuối trang hoặc đầu trang chứ không next qua trang kế như bình thường nên chẳng biết làm sao. Nhờ mọi người chỉ giúp?

    Nó tựa tựa như trang này: "toplist.vn"

    Cảm ơn mọi người!

    KDN Auto LeechKDN Auto Leech
    Quản lý
    # 3 tháng, 2 tuần trước

    Vấn đề này thì bạn phải chế biến HTML của web mục tiêu 1 chút.

    Tìm và thay thế trong HTML nguyên bản:

    Tìm kiếm (regex): <li(.+?)active(.+?)<\/li>
    Thay thế: </ul><ul class="nextpage">

    Sau đó bạn có thể dùng phần tử: ul.nextpage li a

    Ảnh đại diệnphule2000
    Thành viên
    # 1 tháng, 2 tuần trước

    hi, mình crawl dc tất cả các truyện trong trang này nhưng bị dính vào link này ko crawl dc, có thể nhờ ad hướng dẫn cách bỏ qua link child post để tiếp tục crawl các link khác ko https://bo***vel.com/novel/the-99th-divorce/chapter-172-173

    • Phản hồi này đã được điều chỉnh 1 tháng, 2 tuần trước bởi Ảnh đại diện phule2000.
    KDN Auto LeechKDN Auto Leech
    Quản lý
    # 1 tháng, 2 tuần trước

    hi, mình crawl dc tất cả các truyện trong trang này nhưng bị dính vào link này ko crawl dc, có thể nhờ ad hướng dẫn cách bỏ qua link child post để tiếp tục crawl các link khác ko https://bo***vel.com/novel/the-99th-divorce/chapter-172-173%5B/quote%5D

    Không crawl được là do trong HTML của trang có chứa URL không hợp lệ bạn nhé. Bạn xóa URL này đi là được.

    Tệp đính kèm:
    Bạn phải đăng nhập để xem các tệp đính kèm.
    Ảnh đại diệnphule2000
    Thành viên
    # 1 tháng, 2 tuần trước

    làm thế nào để xóa bỏ link child post để tiếp tục crawl chapter tiep theo vậy ạ? mình chỉ biết cách xỏa bỏ url của post

    Ảnh đại diệnphule2000
    Thành viên
    # 1 tháng, 2 tuần trước

    Thank ad, mình đã xử lý được 😀

Đang xem bài viết thứ 1 (trong tổng số 6 bài viết)

Bạn phải đăng nhập để phản hồi chủ đề này.