国科大信息检索大作业项目-新闻及评论搜索:定向采集不少于4个中文社会新闻网站或频道,实现这些网站新闻信息及评论信息的自动爬取、抽取、索引和检索。
(1) 新闻网页数目不少于10万页。每个新闻网页及其评论能在1天内更新。 (2) 支持关键词检索及通配符检索。检索时间平均不超过2秒。 (3) 能按相关度、时间、热度(需要自己定义)等属性对检索结果进行排序。能对评论的贬褒进行分析。 (4) 具备查询自动补齐、相关搜索推荐、snippet生成、结果预览(鼠标移到相关结果,能预览)等功能。 (5) 每条检索结果下面可以对相似新闻进行查找。 (6) 首页中列举当前最热的社会新闻。
项目简要部署手册:
-
准备环境Python3 安装好python3 安装好virtualenv包:pip install virtualenv
-
解压工程文件: 进入到IREngine文件夹下 虚拟一个python环境:virtualenv python3 等待完成后激活虚拟环境:./python3/Scripts/active
-
运行项目: 安装依赖包后再进行索引及推荐构建: pip install -r ./requirements.txt cd ./code python setup python recommendation_module.py cd ../web python main.py
不出问题打开 http://127.0.0.1:5000/ 即可搜索,工程详细说明见文件 信息检索报告.pdf 其中 NewScrapy文件夹为爬虫模块,另两位同学做的,参考一下~
PS:一直在忙,也没时间整理。。。工程是参考网上国科大一位学长的做的,改了不少自己的东西。前端使用 Flask 做的,用 nginx 搭建展示,不过现在应该访问不了了,就不放访问url了。。。 做的比较水,大家不要嘲笑~