YahooNewsをスクレイピングするスクリプトです
- Python(3.4 > )
- BeautifulSoup
- regex
- boto
Yahoo JapanのRSSを参考にリアルタイムで変化し続ける、ニュース記事を追いかけます また、AWSのS3とともに連携できる機能もあり、S3に格納することで、ディスクがオーバーフローするリスクを低減します
- Yahooのニュースが影響を及ぼすと仮定できるKPIの予想(株、市場行動、etc)
- 時勢の変化の観測
- ニュース記事の機械学習的・統計的解析
ローカルに保存する場合
$ python3 yahooNewsParserFromRSS.py -c
S3に保存する場合
$ python3 yahooNewsParserFromRSS.py -c -s3
このようなディレクトリ構成になっている。
図1. ファイルシステム構成図
どうぞ