ZGilbert/pansousou

盘搜搜项目是小东之前为了讲爬虫基础的一个实战完结项目，之前由于各种原因不能开源出来，现在把数据前后端全部公开出来，仅供学习参考，技术交流！

0x00 项目简介：

本项目如题所叙述，简而言之，就是一个搜集网盘数据，并提供在线搜索资源的一个项目，方便了那些苦于资源难寻，其他网站都是广告的朋友，本项目提供简单的关键词搜索，简洁的页面一目了然，同时对于web应用安全有做充分得过滤，保障在线服务的安全稳定。

0x01 环境需求：

1.PHP version > 5.4

2.MYSQL Database

3.python version 3.x

0x02 使用说明：

在本地搭建PHP环境，比如使用XAMPP、PHPStudy即可快速搭建，导入下方的lanzou.sql（附件下载）到Mysql数据库，配置好前端中的api.php中的api地址为自己的即可。

前端搜索需要配置后数据库连接，在data/dblink.php中填写好数据库连接信息

同理可搭建到在线服务上~

0x03 爬虫数据抓取：

这里就直接粘贴爬虫源码，注释也很清楚了，需要注意的是：

之前做爬虫项目爬了蓝走网盘160w+的网盘资源，某些原因只能公开部分数据（大约36w+）给大家了。

蓝奏网盘在我做网盘爬虫这个项目的时候，恰好关闭了接口，增加了反爬虫机制，以至于大多数的什么网盘扫描器不能使用，包括本爬虫，开源只是为了给大家一个参考，若有独到见解，还望指导一二。

# 抓取蓝奏网盘资源+链接
# 作者： DYBOY 小东
# 时间：2017-09-15
#verion：1.1
#description：抓取蓝奏网盘的数据并存入数据库，便于数据的查找，后续将开发WEB端，进行网盘资源的搜索！

import requests
import pymysql
import re
import sys

from bs4 import BeautifulSoup
#以上作为基本引用

#连接数据库
try:
    db = pymysql.connect(host = '127.0.0.1',port = 3306,user = 'root',passwd = '',db = 'pan',charset='utf8')
    print('连接数据库成功')
except Exception as e:
    print(e);
cursor = db.cursor()

#基础索引全局变量
id_num = 0
main_url = 'https://pan.lanzou.com/'

#循环获取数据
#for num in range(670000,849604):
for num in range(20630,849604):
    url = main_url + '1' + str(num)
    header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}  
    #尝试获取网页数据
    try:
        res = requests.get(url,headers = header,timeout = 5)
    except Exception as e:
        print('获取网页出错，跳过获取下一个...')
    res.encoding = 'utf-8'#编码转换

    if res.status_code == 200:
        soup = BeautifulSoup(res.text,'html.parser')
        title = soup.select('title')[0].text[:-8]
        if len(title)>0:
            url_now = url
            id_num = id_num + 1
            #正则匹配文件大小
            guize = r'<span class="p7">文件大小：</span>(.*?)<br>'
            try:
                filesize = re.findall(guize,res.text)[0]
            except Exception as e:
                filesize = '未知大小'
                print(e)
                print('erro2')

            #构造sql语句
            sql = "insert into lanzou4(name,link,size) values('%s','%s','%s');" %(title,url_now,filesize)
            #尝试写入数据库
            try:
                cursor.execute(sql)
                db.commit()
            except Exception as e:
                print(e)
            num = num + 1
    #print(id_num)
    if(num%5000 == 0):
        print('已经抓取5000条数据')

print('ok!!!共抓取' + str(id_num) + '个资源')

0x04 开源说明：

ZGilbert / pansousou

0x00 项目简介：

0x01 环境需求：

0x02 使用说明：

0x03 爬虫数据抓取：

0x04 开源说明：

0x05 预览地址：

0x06 开源地址：

0x07 附件：

About

Languages