xiaoqixian / Mini-Search-Engine

迷你搜索引擎项目,后台程序在Linux环境下用C/C++开发,前台页面在windows环境下用PHP实现。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Mini-Search-Engine

迷你搜索引擎项目,后台程序在Linux环境下用C/C++开发,前台页面在windows环境下用PHP实现。

关键技术

###1.网络爬虫爬网页 从配置文件中读取初始url 将初始url存入一个用于广度遍历的队列中 开始广度优先遍历队列 对每个出队的url提取需要的信息(怎么解析HTML) 对从网页中爬取到的每一个url判断是否重复,若不重复则入列。(怎么url去重) ###2.初始化系统 从配置文件中读系统信息,例如服务器ip、端口号、页面文件位置、停用词文件位置等。 ###3.建索引 在网页库中每找到一个查询词同时得到偏移量,存入索引文件中。 ###4.网页去重并存于内存中 用top10和特征码LCS两种方法实现,在内存中的结果集:<query, <docid,offset> > ###5.网页文本聚类 K-means算法 ###6.提供查询服务

About

迷你搜索引擎项目,后台程序在Linux环境下用C/C++开发,前台页面在windows环境下用PHP实现。


Languages

Language:C++ 98.9%Language:C 1.1%