HeartyHaven / Python_Crawler_Practice

结合B站教程的python爬虫实践代码

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

爬虫基础实践

BY:HEARTYHEAVEN 2023.6

介绍


参考了 Python爬虫教程】花12800买的Python爬虫全套教程2022完整版现分享给大家!(学完可就业)这个教程,包含了个人的代码实践。爬虫是很有用而且很简单的一个技能,参与项目不可避免地需要数据,利用爬虫可以极大地节省人力成本;业余生活中,在看见自己喜欢的资源时也能随时收集到本地。

能力要求


从多次尝试学习的效果来看,学习爬虫难度比较小的时间段是在大二左右(本人是计算机专业)。需要提前有所了解的最好有:

  • 大概了解或者尝试过浏览器的F12,尝试分析过里面的抓包程序。
  • 知道上网搜东西需要一个叫做url的东西,知道这个东西是由几个部分构成的,所以有机会自己用程序构建一系列的url。
  • 熟悉python语言,掌握基础知识包括字符串的处理,列表,字典等。
  • 比较熟悉搭建python环境,下载包和调库。
  • 知道什么是正则表达式,是用来干什么的。这个课程中也会讲,而且很简单,只是在完全不知道的情况下会觉得名字和形式看起来很抽象很难,有点怕学不会。实际上就仅仅是(regular expression)中文翻译的不如英文通俗。

这些内容往往本科期间或多或少在大二之前会有一定的了解,提前学当然也很好,只不过可能概念上不清楚的地方还需要做一点功课。

学习规划


空闲时间多的同学可以每天学习三个小时,基本相当于课程的一个模块。五天可以学完且学得很深入。

空闲时间比较少可以每天学习一个小时到一个半小时,一个模块分两到三天学完,总共大约半个月即可达到应付大部分任务的水平。

学习建议


一定要上手实践!只听理论课可能一个小时不到就能完成学习任务,但是容易导致:

  • 非常容易忘记,尤其是两天学习的东西连贯时,很容易倒回去重听,这样效率是很低的。
  • 没法知道自己到底掌握了多少。代码复现也是需要经验和水平的。
  • 看不到其他问题:实践的时候会出现视频中没有的问题,自己解决对能力提升很有帮助。

实践的话,因为课程中经常分模块写程序,建议熟悉的同学使用vscode的jupyter notebook,优点是本地运行,同样能实现模块化。除此之外也可以使用pycharm,爬虫不太限制版本,所以不用太新。


代码目前还在更新中。

About

结合B站教程的python爬虫实践代码


Languages

Language:Jupyter Notebook 61.5%Language:HTML 37.0%Language:Python 1.5%