NanmiCoder / MediaCrawler

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

整数智能《高级爬虫工程师》招聘

ABAKA-AI opened this issue · comments

【你需要参与】
● 负责设计和开发网络爬虫系统,进行多平台的信息抓取和分析
● 根据网页特性设计独特的爬虫策略和防屏蔽规则,不断优化提升数据抓取的效率和质量
● 完成并管理数据的清洗、结构化、入库、统计分析等全流程
● 能够独当一面的完成数据聚合项目解决方案的制定,并完成方案的沉淀,以便后续复用
● 具有分布式爬取和运维经验,能够保证项目的正常运行,实时解决出现的问题,确保项目的平稳、高质量运行

【我们对你的要求】
● 责任心较强,做事细致耐心(此项有一票否决权)
● 良好的沟通能力和团队领导力,能有效组织和引导团队完成任务
● 根据需求制定爬取方案并执行,并有良好的代码习惯及汇报习惯,抽象能力强
● 精通至少一个爬虫框架(如Scrapy)或有相关实现,熟悉多线程,分布式爬虫的设计和实现,能处理大规模数据获取和处理的技术挑战
● 熟练掌握基于正则表达式、XPath、CSS等网页信息抽取技术
● 熟悉了解HTML、CSS、JavaScript,熟练掌握JS逆向、断点调试、HOOK等技能
● 熟悉常见的反爬机制,验证码识别
● 掌握熟练至少一种SQL语言,了解数据库优化策略,设计过千万级的表结构为加分项
● 熟悉Linux及Docker、K8S,有K8S集群使用经验为加分项
● 熟悉应用Selenium+PhantomJS实施动态HTML抓取
● 熟悉应用IP池、Headers认证和Cookie等,提高爬取效率和质量
● 熟练使用HTTP代理工具Charles、Fiddler等,掌握移动端爬取
● 线性代数 / 高等数学 / 概率论基础好,熟悉numpy / pandas,能够通过公式描述现象
● 热爱编程,喜欢折腾各类工具,热衷于探寻技术背后的原理

【我们在做什么】
● 分布式爬虫框架搭建
● 数据中心级基础设施建设
● 多个LLM领域的PB级数据集构建

【关于我们】
● 工作地点:杭州市萧山区浙江大学计算机创新技术研究院(地铁2 / 6号线钱江世纪城站)
● 工作时间:双休,工作日9:30-18:30(午休12:00-13:30),有团建、双休、法定节假日
● 入职试用期缴纳五险一金
● 年终奖与期权激励
● 法定年假
● 不定期团建
● 整数智能信息技术(杭州)有限责任公司(www.molardata.com),起源自浙江大学计算机创新技术研究院,致力于成为AI行业的数据领航员。整数智能也是**人工智能产业发展联盟、ASAM协会、浙江省人工智能产业技术联盟成员。

【薪资】
16k-20k/月,视具体能力水平可突破此范围

【联系我们】
cyj0103@molardata.com

你可真是个小机灵鬼

that sounds great! 那听起来可太有趣了

不给力啊老铁,我才来,发现什么都没有了!
Oh shit, there is nothing here!

can you delete this issue?

我盯了这个项目几天了,发现什么都没有呀

commented

刚在Github精选上看到这个项目,竟然没了。

我盯了这个项目几天了,发现什么都没有呀

可以从以前forked过的人clone源代码

其实我第一时间就想到了去找fork,所以我用项目名称去搜了一下,点了前几个,都不是fork项目,所以就更失望了。
I thought I could find a fork repo, but I was wrong, there are hundreds of projects named the same name of this one, but none of them is from this repo, God damn it~

前排有偿出售源码~狗头

https://github.com/lewis-007/MediaCrawler 这个看着像是源码

@everydoc

I've already checked this one and star it, but still not sure this is the same one, thanks anyway!

vanichocola/MediaCrawler最新源码

vanichocola/MediaCrawler最新源码

你咋这么优秀呢,fork我的仓库,然后自己commit,修改收款二维码吗,属实6,咱们能好好的做点事好么?

vanichocola/MediaCrawler最新源码

你咋这么优秀呢,fork我的仓库,然后自己commit,修改收款二维码吗,属实6,咱们能好好的做点事好么?

上面还有个更嚣张的,直接明着喊出售源码🤣原来还能这么玩,真的涨见识了

vanichocola/MediaCrawler最新源码

什么表子和丫子混合拉出的史,糊不上墙糊这来了