Store news and news summary with MongoDB and Redis
Trello: https://trello.com/b/yiKSwU9w/data-engineering
docs
: Cho word and slidesrc
: source codeconfig
: config file.yaml
notebook
: Là các file chứa example code
https://cloud.mongodb.com/v2/65ca3ed0e555e205e6522116#/clusters/detail/Cluster0
Username: nhatanhhuynh1@gmail.com Password: HNA@nyu1204
Reference:
-
Cài docker
docker run -d --name redis-stack -p 6379:6379 -p 8001:8001 redis/redis-stack:latest docker exec -it redis-stack redis-cli ping --> Ra Pong là ok
-
Nhớ Run docker Redis mỗi khi cần dùng redis database
- Hệ thống crawl báo từ 2 nguồn Zing news và CafeF suwr dungj Beautiful Soup và Langchain
- Báo được lưu ở MongoDB với 5 thành phần: title, page_content, publish_date, authors, link
- Những Top news sẽ được tổng hợp nhờ model Falcon summary. Qua model summary, redis sẽ lưu thêm 1 trường dữ liệu là summary_text
- Top news sẽ hiển thị trên UI. Khi người dùng click vào, ta sẽ lấy báo từ redis, hoặc MongoDB