wangwc18 / mygoFlaskProject

记录mygo在b站下架前的样子

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

有没有办法获得更早期的弹幕

otakustay opened this issue · comments

后期弹幕和刚开播时弹幕的感觉不一样,想要从头追番的体验还得最早的那批弹幕,有啥办法拿到么

我的锅,应该是不行了,当时弹幕没有抓全,现在再去请求接口也抓不了了。。。。(谁能去贿赂一下b站的数仓让他select一下?)

看上去 https://www.bilitool.top/ 似乎有下载历史弹幕的能力。我不确定现在抓不到是因为下架后所有弹幕接口已经失效了,还是其它原因。作者是否知道原视频的cid可以分享一下,也许可以再挣扎下😹

mygo第二集地址是: https://www.bilibili.com/video/BV1xV41137an
尝试b站接口获取一下cid( https://api.bilibili.com/x/player/pagelist?bvid=BV1xV41137an&jsonp=jsonp )发现已经不行了
尝试用ibilibili找一下cid( https://www.ibilibili.com/video/BV1xV41137an
可以获取到第二集的cid是1229759077
我试了bilitool一下是不行,直觉上这个网站应该不会存数据,只是单纯一个在线转换工具,b站的接口应该都堵死了?
不过以上都是我猜的(我不是搞前端或者后端的所以不是很熟),你要是有能力可以帮我再试试,下面是所有下架的BV号,可以都扔进ibilibili里获取一下cid(oid在get_data/get_comment.py里有)在别的地方再看看。。。。。
第2集:https://www.bilibili.com/video/BV1xV41137an
第3集:https://www.bilibili.com/video/BV1nV41137kJ
第4集:https://www.bilibili.com/video/BV14V4y1v7pb
第5集:https://www.bilibili.com/video/BV1ah4y1k7jm
第6集:https://www.bilibili.com/video/BV1eh4y1k78d
第7集:https://www.bilibili.com/video/BV1dj411z7FW
第8集:https://www.bilibili.com/video/BV1k94y1r7o1
第9集:https://www.bilibili.com/video/BV1M8411d7Dj
第10集:https://www.bilibili.com/video/BV1Wm4y1H7Vt
第11集:https://www.bilibili.com/video/BV11F411C79G
第12集:https://www.bilibili.com/video/BV1Vm4y1M7mX
第13集:https://www.bilibili.com/video/BV1iz4y1j7xY

我试了一下应该有办法获取,能获取到的话我就共享到这边。只是现在有一个问题,我不知道这些视频的发布日期(ibilibili上也看不到),所以不知道应该从哪天开始拉弹幕了……如果能知道发布日期,并知道8.19下架的,那我应该可以写脚本拉一份每天的弹幕出来

CleanShot 2023-12-17 at 12 49 44@2x

我已经从app.py中找到了所有视频上架时间,我来搞一下弹幕~

好的,那就辛苦你了,我看了一之前bilitool说不行是因为下载的那几天正好没弹幕。。。。不过感觉好像这么搞出来弹幕是不是少了。。。。,关于时间的问题,mygo前几集8月11号上线后在8月19号下了,之后9月份的某一天又都重新上了,全部下架的时间是10月1号23点01分。

bilitool可以按天抓,我现在的方案是从第1天开始依次往后,抓满3000条以后停下来。JSON的数据我是抓到了,现在再写个脚本转成XML,然后在电脑上确认一下时间轴之类的是正确的,不出什么大问题的话晚上应该就能够整理完了

考虑到拿早期的弹幕主要是为了不被看过后续集数的观众影响(不过前8集没什么区别,是一次性放出来的),所以我的策略是拿前5天或3000条以内,以下是我爬下来的数量:

剧集 弹幕截止 总条数
01 2023-08-14 3282
02 2023-08-15 2382
03 2023-08-15 2066
04 2023-08-15 2179
05 2023-08-15 1877
06 2023-08-15 1436
07 2023-08-15 2982
08 2023-08-15 2817
09 2023-08-14 3403
10 2023-08-20 3000
11 2023-08-27 3000
12 2023-09-03 3000
13 2023-09-14 3000

在这个包中,json文件夹是最原始数据,xml是转为bilibili的弹幕XML格式的数据(但里面的chatid和本项目的不一样,不确定原因是什么)

danmaku.zip

另外,网上其实有一份全量的数据的,CSV格式,我没去搞格式转换:https://www.bilibili.com/read/cv26903973/

可以可以,我明天想想怎么实现历史弹幕的功能,更新一下

  • 我昨天试了试b站的历史弹幕接口好像还没封,非常的amazing啊,过两天再试试看能有啥新发现不
  • 太感谢你啦,之前就有人跟我说弹幕太少了。。。。我已经把你发的弹幕文件放进去了,现在可以切换弹幕源了,你可以git一下最新的master分支,之后把原来的内容覆盖掉试试效果
  • 这个issue应该算解决了?我就先关了,欢迎继续提其他issue,或者b站私信~