Plugin này sẽ thu thập dữ liệu URL hạt giống mà bạn cung cấp cho nó (thu thập dữ liệu có nghĩa là nó sẽ tìm kiếm tất cả các liên kết mà trang web chứa) và sẽ truy cập và trích xuất nội dung từ mỗi URL được thu thập dữ liệu. Quá trình thu thập dữ liệu có thể tùy chỉnh: bạn có thể đặt độ sâu thu thập dữ liệu, tốc độ thu thập dữ liệu, số lượng bài viết được thu thập dữ liệu tối đa, chỉ thu thập dữ liệu các liên kết có lớp hoặc mã cụ thể và nhiều tùy chỉnh khác.
Cập nhật Crawlomatic v2.0
Trong bản cập nhật v2.0, một shortcode live scraper mới đã được thêm vào plugin: [crawlomatic-scraper]. Tính năng mới này làm cho plugin này trở thành một trình trích xuất dữ liệu web dễ thực hiện cho WordPress. Do đó, nó có thể được sử dụng để hiển thị dữ liệu thời gian thực từ bất kỳ trang web nào trực tiếp vào bài đăng, trang hoặc thanh bên của bạn. Nó cũng tạm thời lưu trữ nội dung cóp nhặt được, vì vậy trang web của bạn sẽ không sử dụng quá nhiều tài nguyên. Bạn có thể sử dụng plugin này để bao gồm báo giá chứng khoán theo thời gian thực, tỷ số cricket hoặc bóng đá hoặc bất kỳ nội dung chung nào khác từ các miền công cộng!
Các tính năng mới có trong bản cập nhật này:
- Đầu ra cạo có thể được hiển thị thông qua thẻ mẫu tùy chỉnh, shortcode trong trang, bài đăng và thanh bên (thông qua tiện ích văn bản).
- Bộ nhớ đệm có thể định cấu hình của dữ liệu được thu thập. Thời gian chờ bộ nhớ cache có thể được xác định bằng phút cho mỗi dữ liệu được thu thập.
- Useragent có thể định cấu hình cho scraper của bạn có thể được đặt cho mỗi lần cạo.
- Các cài đặt mặc định có thể định cấu hình như bật, tác nhân người dùng, hết thời gian chờ, bộ nhớ đệm, xử lý lỗi.
- Nhiều cách để truy vấn nội dung – CSS Selector, XPath hoặc Regex, Auto Detection.
- Một loạt các đối số để phân tích cú pháp nội dung.
- Tùy chọn để chuyển các đối số bài đăng đến một URL cần cạo.
- Chuyển đổi động nội dung được cạo sang mã hóa ký tự được chỉ định để cạo dữ liệu từ một trang web bằng cách sử dụng bộ ký tự khác nhau.
- Tạo các trang được thu thập nhanh chóng bằng cách sử dụng tính năng tạo URL động để cạo hoặc đăng các đối số dựa trên các đối số get hoặc post của trang của bạn.
- Hàm callback để phân tích cú pháp nâng cao của dữ liệu được cạo.
Kiểm tra tài liệu chính thức của bản cập nhật v2, duyệt qua các ví dụ và kiểm tra Câu hỏi thường gặp để tạo một trình quét web được tối ưu hóa hoàn hảo.
Thông tin thêm về plugin
Bạn có thể cạo nội dung từ hầu hết mọi trang web mà bạn mở trong trình duyệt của mình. Nếu nội dung được tải bằng JavaScript, plugin có thể được kết hợp với PhantomJS để cạo cả nội dung do JavaScript tạo.
Ngoài ra, bạn có thể tự động tạo số lượng thu thập dữ liệu và cạo trang web tùy chỉnh không giới hạn.
Các tính năng plugin khác:
- Bản cập nhật v2.5.5: Tự động cập nhật các bài đăng/trang/sản phẩm cóp nhặt nếu trang web nguồn thay đổi + hủy xuất bản (đặt làm bản nháp) bài đăng/trang/sản phẩm nếu URL cóp nhặt không còn khả dụng trên trang web nguồn (các tính năng tùy chọn, có thể được bật/tắt)
- Bản cập nhật v2.5.1: Cạo các biến thể sản phẩm WooCommerce từ các cửa hàng WooCommerce / Shopify khác
- Bản cập nhật v2.5.0: Thu thập kết quả của công cụ tìm kiếm cho các tìm kiếm từ khóa tùy chỉnh của bạn, từ Google hoặc từ Bing. Kiểm tra video hướng dẫn về tính năng mới này.
- Phiên bản 2.4.1 Cập nhật: Scrape thư viện hình ảnh sản phẩm cho các sản phẩm WooCommerce (đối với các loại bài đăng không phải sản phẩm, tệp đính kèm bài đăng sẽ được tạo từ các hình ảnh được cạo)
- v2.3.5 Cập nhật: Thực thi mã JavaScript của riêng bạn trên HTML được cạo và cạo kết quả – tính năng này chỉ khả dụng khi các trình duyệt không đầu được sử dụng để cạo (Puppeteer / Tor / PhantomJS) hoặc HeadlessBrowserAPI
- Phiên bản 2.2.1 Cập nhật: Thu thập dữ liệu nguồn cấp dữ liệu RSS cho các liên kết và cạo các bài viết được liệt kê trong đó
- Phiên bản 2.2.0 Cập nhật: Sử dụng HeadlessBrowserAPI để quét Nội dung HTML được tạo bằng JavaScript từ bất kỳ trang web nào trên internet mà không cần cài đặt bất kỳ thứ gì (ngoài plugin này) trên máy chủ của bạn – video hướng dẫn
- Bản cập nhật v2.1.0: Cạo các trang web .onion từ Dark Web bằng Tor Browser và Puppeteer! – Video hướng dẫn
- Bản cập nhật v2.0.0: Mã ngắn Live Scraper được thêm vào để kiểm soát thu thập dữ liệu và sức mạnh cạo nhiều hơn: [crawlomatic-scraper]
- Bản cập nhật v1.7.1: Hỗ trợ thu thập dữ liệu sơ đồ trang web – video hướng dẫn
- Bản cập nhật v1.6.5: Hỗ trợ chọn nội dung trực quan được thêm vào – video hướng dẫn
- Bản cập nhật v1.6.0: Đã thêm khả năng tạo ảnh chụp màn hình của các trang được thu thập thông tin và sử dụng chúng trong nội dung của bài đăng được tạo – video hướng dẫn
- Bản cập nhật v1.5.2: Khả năng rút ngắn các liên kết gửi đi (nguồn bài đăng) (và kiếm tiền từ chúng), sử dụng dịch vụ rút ngắn liên kết Shorte.st – ví dụ về liên kết rút gọn
- Cập nhật v1.4.8: Đã thêm hỗ trợ thực thi JavaScript cho các trang được thu thập dữ liệu – yêu cầu cài đặt PhantomJS trên máy chủ – Làm thế nào để cài đặt PhantomJs? – video hướng dẫn
- Bản cập nhật v1.4.4: Đã thêm khả năng đặt nhiều proxy để thu thập dữ liệu trang. Plugin sẽ chọn ngẫu nhiên một plugin ở mỗi lần truy cập trang
- Bản cập nhật v1.4.0: Đã thêm khả năng phân trang thu thập dữ liệu (quá trình thu thập dữ liệu cho các bài viết sẽ tiếp tục trên trang tiếp theo của trang hạt giống).
- Bản cập nhật v1.4.0: Đã thêm khả năng nhập giá sản phẩm cho các sản phẩm được thu thập thông tin (tương thích với WooCommerce) + sửa đổi tự động giá dropshipping – video hướng dẫn
- Bản cập nhật v1.4.0: Thêm khả năng tăng giá sản phẩm nhập khẩu bằng một số cố định hoặc nhân nó với một số được xác định trước (giá trị tuyệt vời cho dropshipping!)
- Bản cập nhật v1.2.8: Đã thêm hỗ trợ nhập bài đăng được phân trang (vào một bài đăng được thu thập dữ liệu) Kiểm tra: VIDEO.
- Cập nhật v1.2.4: Đã thêm khả năng đặt proxy để thu thập dữ liệu trang
- Bản cập nhật v1.2.3: Đã thêm tùy chọn thu thập dữ liệu trang từ bộ nhớ cache của Google khi thu thập dữ liệu trực tiếp không thành công (bị chặn)
- Hỗ trợ Google Dịch – chọn ngôn ngữ mà bạn muốn đăng bài viết của mình
- Hỗ trợ Text Spinner – tự động sửa đổi văn bản đã tạo, thay đổi từ bằng từ đồng nghĩa của chúng – được tích hợp sẵn, The Best Spinner, SpinRewriter, WordAI, TurkceSpin và những người khác – giá trị SEO tuyệt vời!
- Trạng thái bài đăng được tạo có thể tùy chỉnh (Đã đăng, Bản nháp, Đang chờ xử lý, Riêng tư, Thùng rác)
- shortcode để liệt kê tất cả các bài đăng được tạo bởi plugin này: [crawlomatic-list-posts type => ‘any’, order => ‘ASC’, ‘orderby’ => ‘date’, ‘posts’ => 50, ‘category’ => ”, ‘ruleid’ => ”]
- Thu thập dữ liệu và cạo có thể được đặt để tôn trọng các tệp robots.txt của trang web và rô bốt, tiêu đề HTML của các trang cóp nhặt
- Tự động tạo danh mục bài viết hoặc thẻ từ các mặt hàng trên Marketplace
- Thêm danh mục bài đăng hoặc thẻ vào mục theo cách thủ công
- Chọn nếu bạn muốn cập nhật bài viết nếu nó đã được đăng
- Gửi cookie tùy chỉnh với yêu cầu đến trang web được thu thập thông tin (xác thực)
- Tạo bài đăng hoặc Trang hoặc bất kỳ loại bài đăng tùy chỉnh nào
- nhúng video từ YouTube, Vimeo, Flickr, IGN, Ustream.tv và DailyMotion bằng cách sử dụng thu thập dữ liệu và cạo trang web
- Xác định các ràng buộc xuất bản: Không xuất bản các bài đăng không có hình ảnh, bài đăng có tiêu đề / nội dung ngắn / dài
- Tự động tạo hình ảnh nổi bật cho bài đăng
- Bật / tắt nhận xét, pingback hoặc trackback cho bài đăng đã tạo
- Tùy chỉnh tiêu đề và nội dung bài đăng (với nhiều loại mã ngắn bài đăng có liên quan đi kèm)
- ‘Công cụ thay thế từ khóa’ – Mục đích là xác định các từ khóa được thay thế tự động bằng các liên kết liên kết của bạn, bất cứ nơi nào chúng xuất hiện trong nội dung trang web của bạn. Ví dụ: bạn có thể xác định từ khóa ‘codecanyon’ và thay thế nó bằng liên kết đến http://www.codecanyon.net/?ref=user_name bất cứ nơi nào nó xuất hiện trong nội dung trang web của bạn.
- ‘Công cụ tạo câu ngẫu nhiên’ (các câu có liên quan – khi bạn định nghĩa chúng)
- tùy chọn để tự động xóa các bài đăng đã tạo sau một khoảng thời gian
- Ghi nhật ký hoạt động plugin chi tiết
- Chạy quy tắc theo lịch trình
- Hỗ trợ trường tùy chỉnh cho các bài đăng được tạo
- Hỗ trợ phân loại tùy chỉnh cho các bài đăng được tạo
- Nhập biến được thu thập dữ liệu không giới hạn (các phần được nhập không giới hạn của các trang được thu thập dữ liệu)
- Tùy chọn sao chép hoặc không sao chép hình ảnh cục bộ
- khả năng phân tích cú pháp dữ liệu JSON bằng Regex
- Tùy chọn để thêm thẻ meta canonical vào các bài đăng được tạo
- Giới hạn bài đăng có độ dài tiêu đề tối đa/tối thiểu
- Giới hạn bài đăng có độ dài nội dung tối đa/tối thiểu
- Chỉ thêm bài đăng nếu các từ khóa bắt buộc được xác định trước được tìm thấy trong tiêu đề / nội dung
- Chỉ thêm bài đăng nếu không tìm thấy từ khóa bị cấm được xác định trước trong tiêu đề / nội dung
- Lưu và khôi phục danh sách quy tắc plugin từ tệp
Đánh giá
Xóa bộ lọcChưa có đánh giá nào.