Brandon's repositories
bosszhipin_spider
基于BOSS直聘“数据分析师”职位信息的爬虫实现、数据分析、数据可视化及机器学习预测与结果分析。
Ele-Spider
饿了么商家信息爬虫
BaiduRankingSearch
SEO工具:【百度收录排名查询工具】查询指定域名/指定标题 在【百度】批量关键词下前50位的收录排名情况。(可部署在服务器上)
data-science-salary-forecast
基于BOSS直聘上海地区岗位信息,利用爬虫对数据进行爬取和存储后,对其进行自然语言分析。提取“职位描述”中的软件技能,并建模预测分析。调参后的最终模型薪资预测误差约±4.3k。
ziroom_ml_analysis
基于自如租房上海房源的聚类分析与数据可视化。
LA-Metro-Bike-Share-Analysis
基于Kaggle数据集“洛杉矶共享单车数据”进行的数据探索与分析。
nike_spider
爬取耐克**官网所有商品信息,包括商品名称,商品类别,当地价格,员工价格。将结果存入MongoDB。
spider-music163
网易云音乐个人用户主页小爬虫。抓取用户首页下“最近一周” ”所有时间“的听歌排行榜中的歌曲及歌词;抓取用户创建的所有歌单以及用户收藏的歌单;进一步抓取用户歌单下的所有歌曲信息。
zhihu_comments
爬取知乎特定问题回答下的所有评论,包括:昵称,内容,赞同数。存入MongoDB中。以"如何看待温州乐清 20 岁女生乘坐滴滴顺风车遇害 ?是否反应出客服系统存在问题?"问题下的回答评论作为例子。
wechat-assistant
微信操控的电脑小助手(实时拍照+人脸识别,远程关机,远程打开应用程序)
facial-recognition
win10下基于opencv库和face_recognition库的摄像头实时人脸识别小应用
uk-college-charts
模拟登录知乎,爬取关注的所有英国大学话题下的精选回答下的评论,用SnowNLP极性分析,pyecharts绘制图表
job-description-NLP-analysis
基于BOSS直聘“数据分析师|商业分析师”职位信息内职位描述的自然语言处理与分析。
zhihu_top_answers
模拟登录后,爬取所关注的所有话题以及话题下的所有精选回答,包括回答下的所有评论。
github-discovery
cookie模拟登陆GitHub,爬取基于你感兴趣的话题和人推荐的repositories(Discover repositories)
spider_zhilian
智联招聘爬虫
uk-Ecommerce
基于Kaggle上“UK E-commerce”数据集进行的数据分析。
zhihu_user
通过一个种子用户,获取种子用户的关注者,再获取种子用户关注者的关注者,进而爬取所有知乎用户。目前爬取了3万多条用户信息(昵称,回答数,粉丝数,性别),利用pandas去重得1万多条数据,筛选粉丝数大于1000的用户得到7000多条。后续数据分析工作暂待更新。
ziroom-spider
自如租房爬虫(针对了自如页面价格的爬虫策略),分别爬取上海各个区的所有住房信息。存储到MongoDB。并进行数据分析
bakery-transactions-analysis
基于Kaggle上“Transactions from a bakery”数据集进行的数据探索、数据分析及数据可视化。
biogeme
Biogeme is an open source freeware designed for the maximum likelihood estimation of parametric models in general, with a special emphasis on discrete choice models.
brandonchow1997.github.io
test resume,个人简历
HuatuoGPT-II
HuatuoGPT2, One-stage Training for Medical Adaption of LLMs. (An Open Medical GPT)
LLaMA-Factory
Unify Efficient Fine-Tuning of 100+ LLMs
R-for-DataScience-LearningNotes
《R4DS》learning notes
spider_tools
爬虫用的一些小组件
wuxi_house_price
爬取安居客上无锡地区所有新房源,存入MongoDB;从MongoDB中读取数据到csv中,利用pandas清洗和筛选数据,对结果进行分析(均值)。
zhihu_selenium
selenium驱动chrome自动输入账号密码登录,进入话题页面,爬取关注的话题,再进入感兴趣的话题中的精华贴,爬取信息。