-

国科大信息检索大作业项目-新闻及评论搜索：定向采集不少于4个中文社会新闻网站或频道，实现这些网站新闻信息及评论信息的自动爬取、抽取、索引和检索。

(1) 新闻网页数目不少于10万页。每个新闻网页及其评论能在1天内更新。 (2) 支持关键词检索及通配符检索。检索时间平均不超过2秒。 (3) 能按相关度、时间、热度(需要自己定义)等属性对检索结果进行排序。能对评论的贬褒进行分析。 (4) 具备查询自动补齐、相关搜索推荐、snippet生成、结果预览(鼠标移到相关结果，能预览)等功能。 (5) 每条检索结果下面可以对相似新闻进行查找。 (6) 首页中列举当前最热的社会新闻。

项目简要部署手册：

准备环境Python3 安装好python3 安装好virtualenv包：pip install virtualenv
解压工程文件：进入到IREngine文件夹下虚拟一个python环境：virtualenv python3 等待完成后激活虚拟环境：./python3/Scripts/active
运行项目：安装依赖包后再进行索引及推荐构建： pip install -r ./requirements.txt cd ./code python setup python recommendation_module.py cd ../web python main.py

不出问题打开 http://127.0.0.1:5000/ 即可搜索，工程详细说明见文件信息检索报告.pdf 其中 NewScrapy文件夹为爬虫模块，另两位同学做的，参考一下～

PS：一直在忙，也没时间整理。。。工程是参考网上国科大一位学长的做的，改了不少自己的东西。前端使用 Flask 做的，用 nginx 搭建展示，不过现在应该访问不了了，就不放访问url了。。。做的比较水，大家不要嘲笑～

About

国科大信息检索大作业项目-新闻及评论搜索：定向采集不少于4个中文社会新闻网站或频道，实现这些网站新闻信息及评论信息的自动爬取、抽取、索引和检索。

Languages

Language:Python 54.8%Language:HTML 28.1%Language:CSS 16.6%Language:JavaScript 0.5%