ucaime / WechatSogou

基于搜狗微信搜索的微信公众号爬虫接口

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

基于搜狗微信搜索的微信公众号爬虫接口

项目简介

基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫

基于Python3

如果有问题,请提issue

关于我,欢迎关注 微博:Chyroc


项目使用

参见test.py

引用

from wechatsogou import *
wechats = WechatSogouApi()

搜索公众号 - search_gzh_info

name = '南京航空航天大学'
wechat_infos = wechats.search_gzh_info(name)

返回结果是列表,每一项均是公众号具体信息字典,具体如下

字段 含义
name 公众号名称
wechatid 公众号ID
jieshao 介绍
renzhen 认证信息,为空表示未认证
qrcode 二维码图片地址
img 头像地址
url 最近文章地址

获取公众号

对于一个已知wechatid的公众号

wechat_id = 'nanhangqinggong'
wechat_info = wechats.get_gzh_info(wechat_id)

返回结果与上述search_gzh_info返回结果一致

搜索微信文章

keywords = '傅里叶变换'
wechat_articles = wechats.search_article_info(keywords)

返回结果是列表,每一项均是文章信息字典,具体如下

字段 含义
name 文章标题
url 文章链接
img 文章封面图片缩略图,可转为高清大图
zhaiyao 文章摘要
time 文章推送时间,10位时间戳
gzhname 公众号名称
gzhqrcodes 公众号二维码
gzhurl 公众号最近文章地址

获取最近文章 详情页 字典 - get_gzh_recent_info

wechat_id = 'nanhangqinggong'
wechat_info = wechats.get_gzh_info(wechat_id)
data = wechats.get_gzh_recent_info(wechat_info['url'])

字段 含义
gzh_info 公众号信息字典
articles 最近文章列表,每一项均是字典

其中gzh_info的具体如下

字段 含义
name 公众号名称
wechatid 公众号id
jieshao 介绍
renzhen 认证,为空表示未认证
qrcode 二维码
img 头像图片
url 最近文章地址

articles的每一项具体如下

字段 含义
main 是否是一次推送中第一篇文章,1则是
title 文章标题
digest 摘要
content
fileid
content_url 文章地址
source_url 原文地址
cover 封面图片
author 作者
copyright_stat 文章内容版权性

通过微信号获取上一步数据 - get_gzh_article_by_wechatid_dict

wechat_id = 'nanhangqinggong'
articles_by_wechatid = wechats.get_gzh_article_by_wechatid_dict(wechat_id)

返回结果与上一步一样

处理文章 - get_gzh_article_info

一般需要处理,因为需要在这一步获取固定的而不是临时的文章链接

wechat_id = 'nanhangqinggong'
wechat_info = wechats.get_gzh_info(wechat_id)
articles = wechats.get_gzh_article_by_url_dict(wechat_info['url'])
article_info = wechats.get_gzh_article_info(articles[0])

返回字典,具体如下

字段 含义
yuan 文章固定地址
related 相似文章信息字典
comment 评论信息字典
content 文章内容

comment是评论以及阅读量,字典

字段 含义
base_resp 返回码,字典,包含下面两项
base_resp->ret 返回码
base_resp->errmsg 返回错误信息
read_num 阅读量
like_num 点赞数
elected_comment_total_cnt 评论数
comment 具体评论数据,每一项均是一个列表,设为comment_comment

comment_comment是一项评论

字段 含义
content 评论内容
like_num 点赞数
nick_name 评论者昵称
logo_url 评论者头像
reply 回复
其余字典未说明,请打印自行查看

content是文章内容,字典,一下三项均含imgbr标签

字段 含义
content_html 原始文章内容,包括html标签及样式
content_rich 包含图片(包括图片应展示的样式)的文章内容
content_text 包含图片(<img src="..." />格式)的文章内容

获取首页推荐文章公众号最近文章地址 - get_recent_article_url_by_index_single

articles_single = wechats.get_recent_article_url_by_index_single()

返回的是列表,每一项是不同公众号的的最近文章页

获取首页推荐文章公众号最近文章地址 所有分类 - get_recent_article_url_by_index_all

articles_all = wechats.get_recent_article_url_by_index_all()

返回的是列表,每一项是不同公众号的的最近文章页


TODO

  • 相似文章的公众号获取
  • 主页热门公众号获取
  • 文章详情页信息
  • 验证码识别
  • 接入爬虫框架
  • 兼容py2

About

基于搜狗微信搜索的微信公众号爬虫接口


Languages

Language:Python 100.0%