ruhuozhiyang / information-retrieve-work

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

information_retrieve_work

1.介绍

课程《信息检索导论》的大作业。

2.作业内容及具体要求等

作业内容

定向采集不少于4个中文新闻网站或频道,实现这些网站新闻信息的自动爬取、抽取、索引和检索。

具体要求

  • 新闻网页数目不少于5万页,新闻信息能在一天之内更新。
  • 支持关键词检索及通配符检索。
  • 能按相关度、时间、热度(需要自己定义)等属性对检索结果进行排序。
  • 具备查询自动补齐、相关搜索推荐、snippet生成等功能。
  • 每条检索结果下面可以对相似新闻进行查找。
  • 首页中列举当前最热的社会新闻。

参考实现

百度主页的推荐页面(热点新闻)+ 百度资讯搜索

相关技术

文本处理、特征提取、索引、排序和打分、评价等

3.实现

整个项目采用前后端分离的开发方式,前后端数据通信采用基于Promise的HTTP工具库axios。架构设计如下图所示。

  • 前端采用Vue.js轻量级JS框架,结合Ant-Design-Vue2.2.8组件库进行开发,NPM进行包管理。
  • 后端使用SpringBoot进行Web服务开发,Gradle7.2 管理。
  • 使用成熟的全文搜索引擎工具Lucene7.7.3,进行索引的构建和内容检索等。
  • 爬虫在Python3.9的基础上,使用框架工具Scrapy,结合第三方工具库开发。

About


Languages

Language:Java 53.3%Language:Vue 37.9%Language:JavaScript 7.5%Language:HTML 1.2%