Cookie(复数形态 Cookies)指某些网站为了辨别用户身份而储存在用户本地终端(Client)上的数据(通常经过加密),定义于
RFC2109
(已废弃),最新取代的规范是RFC2965
##说明
- 安装sqlite3(加入默认安装环境木有这个)
wget http://www.sqlite.org/2013/sqlite-autoconf-3071700.tar.gz
tar zxvf sqlite-autoconf-3071700.tar.gz
cd sqlite-autoconf-3071700 && ./configure --disable-tcl --prefix=/usr/local/sqlite3/
make && make install
- 使用脚本
extract_cookies.sh $HOME/.mozilla/firefox/*/cookies.sqlite > /tmp/cookies.txt
wget --load-cookies=/tmp/cookies.txt http://mysite.com
orcurl --cookie /tmp/cookies.txt http://mysite.com
##idea(step by step)
- 使用浏览器(firefox,chrome)生成的cookie文件,通过php/python脚本来模拟登陆weibo,抓取相关的数据,或者抓取自己订阅的blog文章(rss-xml),
- 然后对抓取的微博/文章分词,提取特征,分类等。(这个还在摸索ing,不知是否可以将分好类的文章,自动生成一些tags,这样user可以使用这些来选择喜好的tags来阅读)
- 最后通过user订阅的tags进行推荐文章(赞)/weibo(舆情监控)。(木头绪,摸索ing)
####参考:
- http://baike.baidu.com/view/835.htm
- http://en.wikipedia.org/wiki/HTTP_cookie
- 快速构建实时抓取集群
- 如何计算两个文档的相似度全文文档
- 百万用户时尚分享网站feed系统扩展实践
##关于作者
- 邮件/g+(weege007#gmail.com, 把#换成@)
- QQ: 19165635*
- weibo: @weedge
- twitter: @weege_007
-
$weedge = array( nickName : "时间飘过~", site : "http://weedge.me" );