xtuyaowu's repositories

LengyueSpiderEngine

冷月爬虫框架 提高爬虫统一管理 拓展性能 支持插件

Language:HTMLLicense:Apache-2.0Stargazers:9Issues:3Issues:0

amazon-wcs

亚马逊自助采集服务器,可根据提供的各类采集链接自动采集商品详细信息。支持美、英、日、法、意、西、德、印、加站点。

Language:PythonStargazers:2Issues:3Issues:0

Anti-Anti-Spider

越来越多的网站具有反爬虫特性,有的用图片隐藏关键数据,有的使用反人类的验证码,建立反反爬虫的代码仓库,通过与不同特性的网站做斗争(无恶意)提高技术。(欢迎提交难以采集的网站)(因工作原因,项目暂停)

Language:HTMLStargazers:0Issues:0Issues:0

chameleon

web项目快速构建平台,由Java开发实现,无需编写代码,根据页面及组件等配置既能快速构建一个web项目

Language:JavaStargazers:0Issues:0Issues:0

china_public_data_json

部分**公开数据json格式库,包含(国民经济行业分类数据,**省市数据,**211高校数据等)

License:Apache-2.0Stargazers:0Issues:0Issues:0

crawlGithubInfo

1.采集Github网站的用户数据,并保存到Mysql

Language:PythonStargazers:0Issues:0Issues:0

crypto-arbitrager

crypto asset arbitrage opportunity watcher, market maker, hedge and arbitrage

Language:PythonStargazers:0Issues:0Issues:0

dictionary

爬取各个招聘网站的公司信息

Language:JavaStargazers:0Issues:0Issues:0
Stargazers:0Issues:0Issues:0

dx-crawl

Dx网站全站采集(https://www.dx.com/)

Language:PythonStargazers:0Issues:0Issues:0

E-commerce-crawlers

:rocket:电商网站爬虫合集,淘宝京东亚马逊等

Language:PythonStargazers:0Issues:0Issues:0

emotionrecognition

表情识别

Language:PythonStargazers:0Issues:0Issues:0

FinancialManager

资产管理系统

Language:JavaScriptStargazers:0Issues:0Issues:0
Language:PythonStargazers:0Issues:0Issues:0

jdmobiel

京东手机版

Language:JavaScriptStargazers:0Issues:0Issues:0

jiaoyisuo3.0

交易所项目。

Language:HTMLStargazers:0Issues:0Issues:0

jingdong

京东手机端

Language:HTMLStargazers:0Issues:0Issues:0
Language:PythonStargazers:0Issues:0Issues:0

kun

淘宝爬虫,海量爬取,批量爬取淘宝数据,spider,阿里数据爬取,Aliexpress

Language:PythonStargazers:0Issues:0Issues:0

Linkedin_capture

采集领英用户信息

Language:PythonStargazers:0Issues:0Issues:0

LTP_Python_Interface

根据自己搭的 LTP 服务器,实现:分词、词性标注、命名实体识别、依存句法分析、语义角色标、命名实体的抽取:人名,地名,机构名、三元组的抽取:主谓宾,动宾关系,介宾关系,(实体1,关系,实体2)

Language:PythonStargazers:0Issues:0Issues:0

mails

群发邮件(功能:1.邮件正文包含退订按钮,2.用户退订后移出白名单,3.记录成功向用户发送邮件的次数,4.记录用户最近一次发送是否成功,5.Flask提供退订功能的接口...)

Language:PythonStargazers:0Issues:0Issues:0

map-canvas

基于baidu、google、arcgis、高德地图、canvas数据可视化

Language:JavaScriptStargazers:0Issues:0Issues:0

NER

基于tensorflow深度学习的中文的命名实体识别

Language:PythonStargazers:0Issues:0Issues:0

PDFLayoutTextStripper

Converts a pdf file into a text file while keeping the layout of the original pdf. Useful to extract the content from a table in a pdf file for instance. This is a subclass of PDFTextStripper class (from the Apache PDFBox library).

Language:JavaStargazers:0Issues:0Issues:0

qichacha

工商企业数据获取

Language:JavaScriptStargazers:0Issues:0Issues:0

THUCTC

An Efficient Chinese Text Classifier

Language:JavaLicense:MITStargazers:0Issues:0Issues:0

TiebaTool

百度贴吧爬虫及常用管理接口的整理和管理工具的实现

Language:PythonLicense:MITStargazers:0Issues:0Issues:0
Language:PythonStargazers:0Issues:0Issues:0

weibospider

:zap: 新浪微博爬虫(分布式),部署简单,接口丰富,文档详细,视频支持,可灵活定制满足自己的需求。抓取内容(PC端)包括微博用户资料、特定关键词微博、用户主页所有微博、评论信息和转发信息。欢迎watch跟进,star支持

Language:PythonLicense:MITStargazers:0Issues:0Issues:0