ruhuozhiyang / information-retrieve-work

spring-boot vuejs lucene

information_retrieve_work

1.介绍

课程《信息检索导论》的大作业。

2.作业内容及具体要求等

作业内容

定向采集不少于4个中文新闻网站或频道，实现这些网站新闻信息的自动爬取、抽取、索引和检索。

具体要求

新闻网页数目不少于5万页，新闻信息能在一天之内更新。
支持关键词检索及通配符检索。
能按相关度、时间、热度(需要自己定义)等属性对检索结果进行排序。
具备查询自动补齐、相关搜索推荐、snippet生成等功能。
每条检索结果下面可以对相似新闻进行查找。
首页中列举当前最热的社会新闻。

参考实现

百度主页的推荐页面（热点新闻）+ 百度资讯搜索

相关技术

文本处理、特征提取、索引、排序和打分、评价等

3.实现

整个项目采用前后端分离的开发方式，前后端数据通信采用基于Promise的HTTP工具库axios。架构设计如下图所示。

前端采用Vue.js轻量级JS框架，结合Ant-Design-Vue2.2.8组件库进行开发，NPM进行包管理。
后端使用SpringBoot进行Web服务开发，Gradle7.2 管理。
使用成熟的全文搜索引擎工具Lucene7.7.3，进行索引的构建和内容检索等。
爬虫在Python3.9的基础上，使用框架工具Scrapy，结合第三方工具库开发。

About

spring-boot vuejs lucene

Languages

Language:Java 53.3%Language:Vue 37.9%Language:JavaScript 7.5%Language:HTML 1.2%