ty33123 / IREngine

UCAS 信息检索导论大作业--新闻检索系统

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

信息检索大作业

大作业内容

目标:定向采集不少于4个中文社会新闻网站或频道,实现这些网站新闻信息的自动爬取、抽取、索引和检索。

  • 具体要求:
  • 新闻网页数目不少于5万页,新闻信息能在一天之内更新。
  • 支持关键词检索及通配符检索。
  • 能按相关度、时间、热度(需要自己定义)等属性对检索结果进行排序。
  • 具备查询自动补齐、相关搜索推荐、snippet生成等功能。
  • 每条检索结果下面可以对相似新闻进行查找。
  • 首页中列举当前最热的社会新闻。
  • 参考实现:百度主页的推荐页面(热点新闻)+百度资讯搜索。 相关技术:文本处理、特征提取、索引、排序和打分、评价。

实验流程

  • 文档模型 : BM25模型

文件说明

运行IREngine.py启动应用。首次运行请先依次运行IREngine\IREngine\spider 下的1_init_indexes.py,2_init_term_index.py,3_gen2gram.py文件将生成的索引文件复制到IREngine\index_file目录即可。

  • 依赖支持:
  • flask
  • jieba
  • apscheduler
  • pickle

-

About

UCAS 信息检索导论大作业--新闻检索系统


Languages

Language:JavaScript 79.6%Language:HTML 10.9%Language:CSS 6.9%Language:Python 1.0%Language:Java 0.6%Language:PHP 0.5%Language:C# 0.3%Language:ASP.NET 0.1%