xtuyaowu

followers

following

stars

xtuyaowu's repositories

LengyueSpiderEngine

冷月爬虫框架提高爬虫统一管理拓展性能支持插件

Language:HTMLApache-2.09 30

amazon-wcs

亚马逊自助采集服务器，可根据提供的各类采集链接自动采集商品详细信息。支持美、英、日、法、意、西、德、印、加站点。

Language:Python2 30

Anti-Anti-Spider

越来越多的网站具有反爬虫特性，有的用图片隐藏关键数据，有的使用反人类的验证码，建立反反爬虫的代码仓库，通过与不同特性的网站做斗争（无恶意）提高技术。（欢迎提交难以采集的网站）（因工作原因，项目暂停）

Language:HTML000

chameleon

web项目快速构建平台，由Java开发实现，无需编写代码，根据页面及组件等配置既能快速构建一个web项目

Language:Java000

china_public_data_json

部分**公开数据json格式库,包含(国民经济行业分类数据，**省市数据，**211高校数据等)

Apache-2.0000

crawlGithubInfo

1.采集Github网站的用户数据，并保存到Mysql

Language:Python000

crypto-arbitrager

crypto asset arbitrage opportunity watcher, market maker, hedge and arbitrage

Language:Python000

dictionary

爬取各个招聘网站的公司信息

Language:Java000

Docs

000

dx-crawl

Dx网站全站采集(https://www.dx.com/)

Language:Python000

E-commerce-crawlers

:rocket:电商网站爬虫合集，淘宝京东亚马逊等

Language:Python000

emotionrecognition

表情识别

Language:Python000

FinancialManager

资产管理系统

Language:JavaScript000

gsxt_crawler

Language:Python000

jdmobiel

京东手机版

Language:JavaScript000

jiaoyisuo3.0

交易所项目。

Language:HTML000

jingdong

京东手机端

Language:HTML000

jtyd_spider

Language:Python000

kun

淘宝爬虫，海量爬取，批量爬取淘宝数据，spider，阿里数据爬取，Aliexpress

Language:Python000

Linkedin_capture

采集领英用户信息

Language:Python000

LTP_Python_Interface

根据自己搭的 LTP 服务器，实现：分词、词性标注、命名实体识别、依存句法分析、语义角色标、命名实体的抽取：人名，地名，机构名、三元组的抽取：主谓宾，动宾关系，介宾关系，（实体1，关系，实体2）

Language:Python000

mails

群发邮件（功能：1.邮件正文包含退订按钮，2.用户退订后移出白名单，3.记录成功向用户发送邮件的次数，4.记录用户最近一次发送是否成功，5.Flask提供退订功能的接口...）

Language:Python000

map-canvas

基于baidu、google、arcgis、高德地图、canvas数据可视化

Language:JavaScript000

NER

基于tensorflow深度学习的中文的命名实体识别

Language:Python000

PDFLayoutTextStripper

Converts a pdf file into a text file while keeping the layout of the original pdf. Useful to extract the content from a table in a pdf file for instance. This is a subclass of PDFTextStripper class (from the Apache PDFBox library).

Language:Java000

qichacha

工商企业数据获取

Language:JavaScript000

THUCTC

An Efficient Chinese Text Classifier

Language:JavaMIT000

TiebaTool

百度贴吧爬虫及常用管理接口的整理和管理工具的实现

Language:PythonMIT000

tumblr-crawl

Language:Python000

weibospider

:zap: 新浪微博爬虫(分布式)，部署简单，接口丰富，文档详细，视频支持，可灵活定制满足自己的需求。抓取内容（PC端）包括微博用户资料、特定关键词微博、用户主页所有微博、评论信息和转发信息。欢迎watch跟进，star支持

Language:PythonMIT000