news_crawler

News crawler là một công cụ giúp bạn có crawl dữ liệu các website tin tức

Tác giả:

Web/Chủ đề	Giáo dục	Y tế	Khoa học	Công nghệ	Giải trí	hể thao	Sức khoẻ	Đời sống	Du lịch
VNEXPRESS	OK	OK	OK	OK	OK	OK	OK	OK	OK
BÁO MỚI	OK	OK	OK	OK	OK	OK	OK	OK	OK

Cài đặt scrapy trước khi chạy

pip install Scrapy

Sau khi cài đặt xong bạn cần kiểm tra bằng lệnh sau

scrapy --version

Clone repository này về nhé, tiếp theo rõ và chạy command line scrapy list để hiện thị danh sách website để crawl

git clone https://github.com/nploi/news_crawler.git
cd news_crawler
scrapy list

Output sẽ là

baomoi
vnexpress

Chọn vnexpress hoặc baomoi nhé :))

scrapy crawl vnexpress -a category=the-thao -a limit=2

Chúc mừng bạn đã chạy thành công, hy vọng là vậy =]], vào thư mục vnexpress/Thể thao/ và xem thành quả của mình nào :v

Bạn cũng có thể chạy lệnh như sao để xuất tất cả dữ liệu vào một file .json

scrapy crawl vnexpress -a category=the-thao -a limit=2 -o vnexpress.json

Giải thích các tham số:

category: Chủ đề để crawl, có thể bỏ trống. Các chủ đề
- giao-duc
- suc-khoe
- khoa-hoc
- giai-tri
- the-thao
- doi-song
- du-lich
limit: Giới hạn số trang để crawl, tốt nhất là nên có tham số này để k phải đợi lâu, có thể bỏ trống.

News crawler là một công cụ giúp bạn có thể crawl dữ liệu của một trang tin tức.

MIT License

Language:Python 100.0%