整数智能《高级爬虫工程师》招聘
ABAKA-AI opened this issue · comments
【你需要参与】
● 负责设计和开发网络爬虫系统,进行多平台的信息抓取和分析
● 根据网页特性设计独特的爬虫策略和防屏蔽规则,不断优化提升数据抓取的效率和质量
● 完成并管理数据的清洗、结构化、入库、统计分析等全流程
● 能够独当一面的完成数据聚合项目解决方案的制定,并完成方案的沉淀,以便后续复用
● 具有分布式爬取和运维经验,能够保证项目的正常运行,实时解决出现的问题,确保项目的平稳、高质量运行
【我们对你的要求】
● 责任心较强,做事细致耐心(此项有一票否决权)
● 良好的沟通能力和团队领导力,能有效组织和引导团队完成任务
● 根据需求制定爬取方案并执行,并有良好的代码习惯及汇报习惯,抽象能力强
● 精通至少一个爬虫框架(如Scrapy)或有相关实现,熟悉多线程,分布式爬虫的设计和实现,能处理大规模数据获取和处理的技术挑战
● 熟练掌握基于正则表达式、XPath、CSS等网页信息抽取技术
● 熟悉了解HTML、CSS、JavaScript,熟练掌握JS逆向、断点调试、HOOK等技能
● 熟悉常见的反爬机制,验证码识别
● 掌握熟练至少一种SQL语言,了解数据库优化策略,设计过千万级的表结构为加分项
● 熟悉Linux及Docker、K8S,有K8S集群使用经验为加分项
● 熟悉应用Selenium+PhantomJS实施动态HTML抓取
● 熟悉应用IP池、Headers认证和Cookie等,提高爬取效率和质量
● 熟练使用HTTP代理工具Charles、Fiddler等,掌握移动端爬取
● 线性代数 / 高等数学 / 概率论基础好,熟悉numpy / pandas,能够通过公式描述现象
● 热爱编程,喜欢折腾各类工具,热衷于探寻技术背后的原理
【我们在做什么】
● 分布式爬虫框架搭建
● 数据中心级基础设施建设
● 多个LLM领域的PB级数据集构建
【关于我们】
● 工作地点:杭州市萧山区浙江大学计算机创新技术研究院(地铁2 / 6号线钱江世纪城站)
● 工作时间:双休,工作日9:30-18:30(午休12:00-13:30),有团建、双休、法定节假日
● 入职试用期缴纳五险一金
● 年终奖与期权激励
● 法定年假
● 不定期团建
● 整数智能信息技术(杭州)有限责任公司(www.molardata.com),起源自浙江大学计算机创新技术研究院,致力于成为AI行业的数据领航员。整数智能也是**人工智能产业发展联盟、ASAM协会、浙江省人工智能产业技术联盟成员。
【薪资】
16k-20k/月,视具体能力水平可突破此范围
【联系我们】
cyj0103@molardata.com
你可真是个小机灵鬼
that sounds great! 那听起来可太有趣了
不给力啊老铁,我才来,发现什么都没有了!
Oh shit, there is nothing here!
haha
can you delete this issue?
我盯了这个项目几天了,发现什么都没有呀
刚在Github精选上看到这个项目,竟然没了。
我盯了这个项目几天了,发现什么都没有呀
可以从以前forked过的人clone源代码
其实我第一时间就想到了去找fork,所以我用项目名称去搜了一下,点了前几个,都不是fork项目,所以就更失望了。
I thought I could find a fork repo, but I was wrong, there are hundreds of projects named the same name of this one, but none of them is from this repo, God damn it~
前排有偿出售源码~狗头
I've already checked this one and star it, but still not sure this is the same one, thanks anyway!
vanichocola/MediaCrawler最新源码
vanichocola/MediaCrawler最新源码
你咋这么优秀呢,fork我的仓库,然后自己commit,修改收款二维码吗,属实6,咱们能好好的做点事好么?
vanichocola/MediaCrawler最新源码
你咋这么优秀呢,fork我的仓库,然后自己commit,修改收款二维码吗,属实6,咱们能好好的做点事好么?
上面还有个更嚣张的,直接明着喊出售源码🤣原来还能这么玩,真的涨见识了
vanichocola/MediaCrawler最新源码
什么表子和丫子混合拉出的史,糊不上墙糊这来了