congphuc / news_crawler

News crawler là một công cụ giúp bạn có thể crawl dữ liệu của một trang tin tức.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

news_crawler

News crawler là một công cụ giúp bạn có crawl dữ liệu các website tin tức

Tác giả:

Chức năng

  • Crawl theo website được tích hợp
  • Crawl theo chủ đề
  • Crawl tất cả chủ đề
  • Có thể giới hạn số trang

Trang web được tích hợp vào để crawl

Chủ đề

  • Giáo dục
  • Y tế
  • Khoa học
  • Công nghệ
  • Giải trí
  • Thể thao
  • Sức khoẻ
  • Đời sống
  • Du lịch
Web/Chủ đề Giáo dục Y tế Khoa học Công nghệ Giải trí hể thao Sức khoẻ Đời sống Du lịch
VNEXPRESS OK OK OK OK OK OK OK OK OK
BÁO MỚI OK OK OK OK OK OK OK OK OK

Hướng đẫn

Cài đặt scrapy trước khi chạy

pip install Scrapy

Sau khi cài đặt xong bạn cần kiểm tra bằng lệnh sau

scrapy --version

Clone repository này về nhé, tiếp theo rõ và chạy command line scrapy list để hiện thị danh sách website để crawl

git clone https://github.com/nploi/news_crawler.git
cd news_crawler
scrapy list

Output sẽ là

baomoi
vnexpress

Chọn vnexpress hoặc baomoi nhé :))

scrapy crawl vnexpress -a category=the-thao -a limit=2

Chúc mừng bạn đã chạy thành công, hy vọng là vậy =]], vào thư mục vnexpress/Thể thao/ và xem thành quả của mình nào :v

Bạn cũng có thể chạy lệnh như sao để xuất tất cả dữ liệu vào một file .json

scrapy crawl vnexpress -a category=the-thao -a limit=2 -o vnexpress.json

Giải thích các tham số:

  • category: Chủ đề để crawl, có thể bỏ trống. Các chủ đề
    • giao-duc
    • suc-khoe
    • khoa-hoc
    • giai-tri
    • the-thao
    • doi-song
    • du-lich
  • limit: Giới hạn số trang để crawl, tốt nhất là nên có tham số này để k phải đợi lâu, có thể bỏ trống.

About

News crawler là một công cụ giúp bạn có thể crawl dữ liệu của một trang tin tức.

License:MIT License


Languages

Language:Python 100.0%