ShinChven / ShareMoments

魔法分享的公告板

Home Page:https://play.google.com/store/apps/details?id=net.atlassc.shinchven.sharemoments

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

抓取标识

yueduz opened this issue · comments

我的网站是ajax网站,魔法分享不能抓取到图片。如果有特别的抓取标识,我能为魔法分享反回特别的内容

连OpenGraph都是ajax的

动态加载的,用了es6.

https://blog.ayahuo.com/content/我的年度最佳桌面系统ArchLinux+Gnome3
看这是一个有图片网页,但是抓不到图片和正确的内容。

那能不能在get时添加一个参数让服务器知道是谁在请求,比如http://g.cn?mffx=true

@yueduz 我之前在抓取苹果电影预告片的时候,发现他们会在页面的路径上再拼上一个data.json来提供数据,要不咱也定义一个协议,在你的页面地址再拼接一个路径作为接口给我获取数据。
只要你在html里面申明,我就默认去拼接,然后get数据。

如果你是用wget命令来获取很容易设置标识 wget --user-agent="moxilla.............." http://g.cn

如果不行我还是用模版引擎的方案吧,我现在都是为搜索引擎反回纯html,不带js

我在Android里面没使用wget,是直接get的dom。

http://www.sioe.cn/xinqing/UserAgent.php

这个页面,我系统是7.1 用魔法分享时抓取的是5.1,手机品牌也变了。

要是能模仿搜索引擎爬虫的标识,对多数ajax网站应该都有用。

稍后我出了方案通知你怎么兼容。ajax的是有点麻烦。

我在Android里面使用http请求直接get URL,本身不是浏览器行为,为了防止被某些网站屏蔽,手动设置了一个固定的user-agent。它与你的手机无关,任何手机都会检测出是5.1。

你在user-agent多加一个魔法分享的标识并不会有什么影响啊

重构了一次解析器,可能忘记加了,我晚点看看,下个版本加上来。

@yueduz 已提交新版本至Google play beta channel,等待审核中。