hylong / cx-extractor

Automatically exported from code.google.com/p/cx-extractor

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

建议:

1. 如果要提取娱乐类的网页,尤其是在图片把正文分割的比较支离破碎时,
   建议用Java版代码。Java版实现时对多个正文片段进行合并,可以很好
   的处理这一问题。但缺点是正文结尾可能会有少许噪声。


2. Perl和PHP的实现版本,一遍扫描只求最大行块,不进行拼接。如果出
   现特别支离破碎的正文时,可能会有丢失。但优点是边缘的噪声去除的
   很好。




有任何问题,欢迎随时联系我:)
****************************************
陈  鑫
Email: cx3180@gmail.com
Blog:  http://hi.baidu.com/爱心同盟_陈鑫
****************************************

About

Automatically exported from code.google.com/p/cx-extractor


Languages

Language:HTML 76.9%Language:Perl 10.1%Language:Java 5.1%Language:C++ 4.3%Language:PHP 2.0%Language:C# 1.5%Language:Batchfile 0.1%