jlshix / mooncell

mooncell 英灵图鉴数据抓取

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

MoonCell 英灵图鉴数据抓取

概述

抓取 mooncell 的英灵图鉴数据.

数据来源于三种页面:

  • 首页: 所有英灵的基础数据
  • 详情页: 某英灵的成长曲线数据
  • 查看源代码页: 某英灵的详细数据

所有英灵的基础数据是通过匹配英灵图鉴首页 html 源代码中内嵌 js 的一个超长字符串变量 raw_str 得到的. 实际上是一个一行的 csv 文本, 对其进行解析即可.

英灵的成长曲线数据在详情页的 html 源码中匹配, 解析为 json 即可.

英灵的详细数据在详情页匹配太过艰难, 所以在查看源代码页, 通过解析编辑器中的源代码获取 其详细数据. 目前的解析规则还有待完善.

数据与存储

对于每一个英灵, 包含以下属性: - 首页获取的所有列名作为属性名 - 成长曲线 growth_curve - 个人资料 个人资料 - 基础数值 基础数值 - 宝具 宝具 - 持有技能 持有技能 - 职阶技能 职阶技能

存储: - 使用 mongodb 存储数据, 数据库名为 mooncell, 只有一个 collection 叫 servants - 首页的基础数据存储在 data/servants.csv - 完整数据存储在 data/servants.json, 由 mongoexport -d mooncell -c servants -o data/servants.json 生成 - 单条示例数据 data/阿尔托莉雅·潘德拉贡.json 供查看基本数据结构.

参见

  • 数据来源: https://fgo.wiki/w/%E8%8B%B1%E7%81%B5%E5%9B%BE%E9%89%B4

changelog

2020-03-25

初版完成, 可获取所有英灵的基础信息和详细数据, wiki 源代码解析规则有待完善, 部分英灵的个人资料解析错误, 原因是嵌套没解析好, 有待完善.

About

mooncell 英灵图鉴数据抓取


Languages

Language:Python 100.0%