polyrabbit / hacker-news-digest

:newspaper: Let ChatGPT Summarize Hacker News for You

Home Page:http://hackernews.betacat.io/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

抽取这些可以考虑些公开的API啊

D-L opened this issue · comments

比如 diffbot 这样的

多谢提醒!我之前确实没有注意到有类似diffbot这样优秀的服务存在,他应该是我所见过的此类服务中准确度最高的一个了,以后我也会推荐给别人的。

其实在做这个事情之前我有找过一些开源的实现,比如instapaper和python-goose,不过发现他们正文提取的效果奇差,尤其是对中文网页(中文很多网页非常的不规范),而且我需要的不仅仅是正文,还有正文的摘要,那些工具会提取出很多类似By XXX on 2014.XX.XX viewed XXX的元信息,而这些信息很难仅用字面意义上的正则把他们匹配掉,需要结合网页的上下文才行,所以我就自己实现了一个,目前看来效果还可以。

不过,即使刚开始时我知道了diffbot,我估计我还是不会用它,因为经过刚刚的测试,它的准确度虽然高,但有些网站还是提取不出来,比如说我这个项目的github首页,而github这种网站对于Hacker News来说还是挺重要的,在我自己的算法里,我可以通过调整参数定制算法来把这种情况覆盖进去,而调用别人的api就没有这么方便了;第二点呢,就是他的价格有点贵了,我做这个项目本来就没想什么回报,更不想每个月再投入299美元进去了。

好吧,现在收费了啊。
以前的申请的免费账号每月1万次免费调用。