• Trang chủ
  • Phần mềm
  • Demo
  • Bảng giá
  • Dịch vụ
    • Cấu hình chiến dịch
    • Hỗ trợ chuyên nghiệp
  • Add-ons
  • Tài liệu
  • Kiến thức
  • Tài khoản
    • Đăng nhập
    • Đăng ký
  • Trang chủ
  • Phần mềm
  • Demo
  • Bảng giá
  • Dịch vụ
    • Cấu hình chiến dịch
    • Hỗ trợ chuyên nghiệp
  • Add-ons
  • Tài liệu
  • Kiến thức
  • Tài khoản
    • Đăng nhập
    • Đăng ký
Trang chủ/Kiến thức/Sử dụng hiệu quả/Giải thích phần Thu thập của TAB Thu thập trong Cài đặt chung
Tìm kiếm phổ biến:leech tin tức, leech truyện, leech sản phẩm

Giải thích phần Thu thập của TAB Thu thập trong Cài đặt chung

417 lượt xem 3 20/09/2018 Updated on 17/10/2018

Thời gian thu thập URL

Đây là thiết lập khoảng thời gian thu thập URL. Hãy hiểu như này, nếu bạn đặt là 1 phút thì con BOT sẽ bò vào chuyên mục và cứ 1 phút nó sẽ tìm và lưu các URL bài viết mới vào CSDL.

 

Thời gian thu thập dữ liệu

Chính là khoảng thời gian để xử lý và lưu các bài viết. Hãy tưởng tượng, nếu đặt 1 phút thì con BOT sẽ duyệt các URL bài viết mà nó đã lưu vào CSDL trước đó và bắt đầu xử lý để đăng lên thành 1 bài viết hoàn chỉnh.

 

Số lần chạy thu thập URL

Trong khoảng thời gian thu thập URL mà bạn đặt ở trên thì bạn muốn có bao nhiêu tiến trình thu thập URL được chạy?

Nếu bạn đặt thời gian thu thập URL là 1 phút và số lần chạy thu thập URL là 3 thì cứ 1 phút sẽ có 3 tiến trình thu thập URL được chạy.

Vậy nếu chuyên mục được phân trang với 10 bài viết mỗi trang thì cứ 1 phút chạy 3 tiến trình thu thập => con BOT sẽ lưu về thêm 30 URL bài viết của 3 trang trong chuyên mục.

 

Số lần chạy thu thập dữ liệu

Tương tự, nếu bạn đặt thời gian thu thập dữ liệu là 1 phút và số lần chạy thu thập dữ liệu là 3 thì cứ 1 phút sẽ có 3 bài viết được xử lý và đăng lên.

 

Số trang tối đa muốn thu thập cho mỗi chuyên mục

Thu thập dữ liệu tối đa bao nhiêu trang cho mỗi chuyên mục? Đặt 0 để thu thập tất cả các trang trong chuyên mục.

 

Số trang tối đa để kiểm tra và tìm URL mới

Kiểm tra bao nhiêu trang trước khi quay trở lại kiểm tra trang đầu tiên của chuyên mục nếu không tìm thấy các URL mới? Mặc định: 0 sẽ kiểm tra tất cả các trang cho đến trang cuối cùng.

Ví dụ: nếu bạn điền 3 và không có URL mới nào được tìm thấy trong 3 trang khác nhau của một chuyên mục, Ví dụ: trang 1, 2, và 3, sau đó trình thu thập sẽ đi đến trang đầu tiên để tìm các URL mới, mà không phải cố gắng tìm kiếm ở trang thứ 4 và các trang sau trang thứ 4.

 

Cách sử dụng hiệu quả

Bây giờ đến lúc mình giải thích nhé. Bạn cần phải tưởng tượng ra cách mà tool nó sẽ làm việc. Hãy tưởng tượng như này (gọi đây là ví dụ 1).

Giả sử trong chuyên mục phân trang với 10 bài mỗi trang.

Thời gian thu thập URL và Thời gian thu thập dữ liệu đều là: 1 phút

Số lần chạy thu thập URL: 1

Số lần chạy thu thập dữ liệu: 5

Vậy thì:

Phút thứ 1: sẽ có 10 URL được lưu vào CSDL. (0/10)

Phút thứ 2: sẽ có 5 bài được đăng và thêm 10 URL vào CSDL. (5/20)

Phút thứ 3: sẽ có 5 bài được đăng và thêm 10 URL vào CSDL. (10/30)

Phút thứ 4: sẽ có 5 bài được đăng và thêm 10 URL vào CSDL. (15/40)

Cứ thế, cứ thế số URL đang chờ sẽ nhiều hơn gấp nhiều lần số bài viết được đăng. Điều này là không cần thiết vì chúng ta nên thiết lập để thêm URL tới đâu sẽ đăng bài tới đó hoặc chí ít là số bài được đăng sẽ "đuổi" kịp số URL đang chờ. Điều này cũng có nghĩa là bạn sẽ tiết kiệm được RAM và CPU vào các tiến trình thu thập URL không cần thiết.

Vậy nên trong trường hợp này hãy tăng khoảng thời gian thu thập URL lên, ví dụ 2 phút thu thập URL 1 lần, để:

Nếu như mình vẫn lấy giả sử ở trên thì (gọi đây là ví dụ 2):

Phút thứ 1: sẽ có 10 URL được lưu vào CSDL. (0/10)

Phút thứ 2: sẽ có 5 bài được đăng và không thêm URL nào vào CSDL. (5/10)

Phút thứ 3: sẽ có 5 bài được đăng và thêm 10 URL vào CSDL. (10/20)

Phút thứ 4: sẽ có 5 bài được đăng và không thêm URL nào vào CSDL. (15/20)

Bạn thấy ý nghĩa gì chứ?

Đó là:

Ở ví dụ 1:

Phút thứ 1: Tiến trình thu thập URL được chạy.

Phút thứ 2: Tiến trình thu thập URL và tiến trình thu thập dữ liệu đều được chạy.

Phút thứ 3: Tiến trình thu thập URL và tiến trình thu thập dữ liệu đều được chạy.

Phút thứ 4: Tiến trình thu thập URL và tiến trình thu thập dữ liệu đều được chạy.

Ở ví dụ 2:

Phút thứ 1: Tiến trình thu thập URL được chạy.

Phút thứ 2: Chỉ tiến trình thu thập dữ liệu được chạy.

Phút thứ 3: Tiến trình thu thập URL và tiến trình thu thập dữ liệu đều được chạy.

Phút thứ 4: Chỉ tiến trình thu thập dữ liệu được chạy.

Như vậy là bạn đã tiết kiệm được khá nhiều RAM và CPU rồi nhé, nếu như bạn chạy nhiều chiến dịch thì sẽ tiết kiệm đáng kể đó. Tránh tình trạng bị quá tải. Hãy sử dụng hợp lý nhé.

Bạn cũng phải cân nhắc thời gian xử lý 1 bài viết để đặt thời gian thu thập và số lần thu thập theo thời gian đó một cách hợp lý nhất.

Giả sử bạn đặt 1 phút đăng 5 bài, nhưng 5 bài đó quá nặng do chứa nhiều hình ảnh hoặc do server của mục tiêu load chậm, v.v… dẫn tới trong 1 phút con BOT không thể xử lý được hết 5 bài (5 tiến trình) và sang phút thứ 2 sẽ lại thêm 5 tiến trình nữa được chạy. Vậy là sẽ chồng chéo tiến trình lên nhau dẫn tới nghẽn tiến trình và tool sẽ không chạy nữa.

Trong trường hợp như vậy, hãy sử dụng tính năng Mở khóa URL trong Công cụ để mở khóa các URL đang bị treo.

Tuy nhiên hãy thật khôn ngoan trong việc thiết lập các thông số để hạn chế tối đa việc nghẽn và lỗi thu thập.

Để hỗ trợ tính toán khoảng thời gian và đưa ra được các thông số cấu hình hợp lý thì bạn hãy sử dụng Thử nghiệm, tại trang Thử nghiệm bạn sẽ thấy Bộ nhớ sử dụng và thời gian cần để xử lý 1 tiến trình. Chúc bạn thành công! 😉

Bạn có thích nội dung này?

3 Có  Không
Kiến thức liên quan
  • Hướng dẫn import mã chiến dịch tự động lấy sản phẩm WooCommerce
  • Hiểu về Yandex Translator trong KDN Auto Leech
  • Hướng dẫn sửa lỗi lưu tệp đính kèm khi chạy plugin trên localhost
  • Hướng dẫn lấy Yandex Translator API
  • Hướng dẫn chạy KDN Auto Leech trên Localhost
  • Sử dụng tính năng Ngừng thu thập hợp lý

Sử dụng hiệu quả

  • Giải thích phần Thu thập của TAB Thu thập trong Cài đặt chung
  • Hướng dẫn import mã chiến dịch tự động lấy sản phẩm WooCommerce
  • Hiểu về Yandex Translator trong KDN Auto Leech
  • Hướng dẫn sửa lỗi lưu tệp đính kèm khi chạy plugin trên localhost
  • Hướng dẫn lấy Yandex Translator API
  • Hướng dẫn chạy KDN Auto Leech trên Localhost
Tất cả: 16  

Kiến thức mới

  • Hướng dẫn import mã chiến dịch tự động lấy sản phẩm WooCommerce
  • Advanced DB Cleaner – Tối ưu website wordpress và dọn dẹp database
  • Tổng hợp các trường dữ liệu leech truyện với theme Madara
  • Vượt qua cơ chế anti-bot của CloudFlare – bypass cloudflare JS challenge
  • Callback chuyển đổi chữ hoa thành chữ thường và in hoa chữ cái đầu tiên

Chủ đề mới

  • Hỗ trợ cài đặt chiến dịch lấy tin từ kênh batdongsan.com.vn
  • Lỗi lặp ảnh trong bài viết.
  • Hỗ trợ cài đặt chiến dịch lấy video từ kênh youtube
  • Lazy load
  • Leech truyện không còn sử dụng được hả mọi người!

  Sử dụng hiệu quả tính năng Tìm và thay thế HTML

Cách sử dụng tính năng Cookie  

Về chúng tôi

KDN Auto Leech là một phần mềm mở rộng được cài đặt và hoạt động trên website sử dụng mã nguồn mở WordPress. Với phần mềm này bạn hoàn toàn có thể tự động lấy nội dung từ bất cứ trang web nào trong bất kỳ lĩnh vực nào về website của bạn.

Thông tin

  • Giới thiệu
  • Liên hệ
  • Chính sách bảo mật
  • Điều khoản sử dụng
  • Hướng dẫn thanh toán

Danh mục

  • Add-ons
  • Bảng giá
  • Tài liệu sử dụng
  • Kiến thức mở rộng
  • Chương trình Affiliate

Tìm hiểu thêm

  • Blog tản mạn
  • Diễn đàn thảo luận
  • Câu hỏi thường gặp
  • Fanpage chính thức
  • Kênh Youtube chính thức
  • Phiên bản: 2.3.6
  • © 2020 - KDN Auto Leech

Tìm kiếm phổ biến:leech tin tức, leech truyện, leech sản phẩm