chrislinan / cx-extractor

基于行块分布函数的通用网页正文抽取,C#版本

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

cx_extractor

基于行块分布函数的通用网页正文抽取 由于本人做网络爬虫的时候使用过这个方法的java版本,现在自己把java版本的改成了C#版本,希望对大家有用。基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关。原版本的作者为哈工大的陈鑫,代码放在google code上。https://code.google.com/p/cx-extractor/

About

基于行块分布函数的通用网页正文抽取,C#版本


Languages

Language:C# 100.0%