gxtrobot / bustag

a tag and recommend system for old bus driver 给老司机用的一个番号推荐系统

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

最近javbus的图片网址变了,导致图片都显示不出来

reichou1989 opened this issue · comments

如题,图片地址都变成自己的ip开头,应该是抓取错误,有大佬能更新一下吗

+1

估计没什么希望了

+1 这情况好久了,大佬求修复

研究了一下代码,自己搞定了。作者应该是不更新了。

研究了一下代码,自己搞定了。作者应该是不更新了。

兄弟在哪改的啊,瞅了半天还没找到。。。

有几个文件需要修改
1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下:
cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']
2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下:
<img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />

我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下:
/app/src/bustag/bustag/spider/parser.py
/app/src/bustag/bustag/app/views/index.tpl
/app/src/bustag/bustag/app/views/tagit.tpl

有几个文件需要修改
1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下:
cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']
2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下:
<img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />

我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下:
/app/src/bustag/bustag/spider/parser.py
/app/src/bustag/bustag/app/views/index.tpl
/app/src/bustag/bustag/app/views/tagit.tpl

早知道用docker或者源码运行了,省事用的打包的win版parser.py改不了了

有几个文件需要修改
1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下:
cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']
2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下:
<img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />
我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下:
/app/src/bustag/bustag/spider/parser.py
/app/src/bustag/bustag/app/views/index.tpl
/app/src/bustag/bustag/app/views/tagit.tpl

早知道用docker或者源码运行了,省事用的打包的win版parser.py改不了了

推荐用docker,我自己在群晖上运行的。数据库(bus.db)肯定要重新生成了,因为图片地址是存入数据库的。推倒重来无可避免。

推荐用docker,我自己在群晖上运行的。数据库(bus.db)肯定要重新生成了,因为图片地址是存入数据库的。推倒重来无可避免。

我页面打标和没打标的只有2000多条,数据库里已经1W6了,这重来的量有点大 (⊙﹏⊙)

我页面打标和没打标的只有2000多条,数据库里已经1W6了,这重来的量有点大 (⊙﹏⊙)

找个数据库管理软件,批量处理一下吧。

找个数据库管理软件,批量处理一下吧。

兄弟你知道网页显示的推荐和打标的内容数据存在哪了吗,感觉不在bus.db里面

批量修改加删除referer之后win版也完美解决,哈,只是今后得批量手动修改cover_img_url了

兄弟你知道网页显示的推荐和打标的内容数据存在哪了吗,感觉不在bus.db里面

粗看了一下,bus.db存储了所有爬到的数据,这两个页面的数据都是根据模型算法从bus.db里读取的。
写个脚本定期更新一下cover_img_url即可。能自动化的绝不手动。

粗看了一下,bus.db存储了所有爬到的数据,这两个页面的数据都是根据模型算法从bus.db里读取的。
写个脚本定期更新一下cover_img_url即可。能自动化的绝不手动。

推荐内容的rate_type是2,打标里的rate_type是1,推荐页标记正确或者错误之后rate_type就从2变到1了。上传数据库之后rate_type为1的内容是可以恢复的,关键是推荐里的内容恢复不了,但是数据库里有所有推荐内容数据,应该是有一个文件记录了推荐内容的番号,从数据库读取后在web页面显示,如果能找到这个文件,那就不用担心转移数据后推荐内容的丢失了

我改好docker了,旧的数据库 好像不用改了图片出来了 aiastia/bustag

有几个文件需要修改
1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下:
cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']
2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下:
<img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />

我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下:
/app/src/bustag/bustag/spider/parser.py
/app/src/bustag/bustag/app/views/index.tpl
/app/src/bustag/bustag/app/views/tagit.tpl

cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']

这个感觉要写个判断,部分图片是有网址是 比如 https://pics.dmm.co.jp/digital/video/sqte00374/sqte00374pl.jpg

有几个文件需要修改
1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下:
cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']
2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下:
<img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />

我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下:
/app/src/bustag/bustag/spider/parser.py
/app/src/bustag/bustag/app/views/index.tpl
/app/src/bustag/bustag/app/views/tagit.tpl

请大佬详细描述一下怎么修改,我按照这个修改无效啊
Screenshot_20210630-231701_Via
麻烦指导一下哪里错了

麻烦指导一下哪里错了

网址最后的斜杠去掉。

麻烦指导一下哪里错了

网址最后的斜杠去掉。

我今天看了下更新,图片还是本地ip的链接,就算是多了一个斜杠,也不应该还是本地ip吧

麻烦指导一下哪里错了

网址最后的斜杠去掉。

我去掉斜杠了,刚才又更新了两个资源,我看了下图片,还是本地ip的链接。。。图片不显示

我去掉斜杠了,刚才又更新了两个资源,我看了下图片,还是本地ip的链接。。。图片不显示

docker版吗?不应该啊,上面有人已经成功了。

这个感觉要写个判断,部分图片是有网址是 比如 https://pics.dmm.co.jp/digital/video/sqte00374/sqte00374pl.jpg

这个简单,加个图片地址判断,如果自带http那就使用爬取到的,如果没有http,那就补全网址。

if "http" in html.find(cover_img_css)[0].attrs['href']:
    cover_img_url = html.find(cover_img_css)[0].attrs['href']
else:
    cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']

我去掉斜杠了,刚才又更新了两个资源,我看了下图片,还是本地ip的链接。。。图片不显示

docker版吗?不应该啊,上面有人已经成功了。

[不知道大佬是怎么映射的,我是整个文件夹全映射出来]
image

[不知道大佬是怎么映射的,我是整个文件夹全映射出来]
image

image
容器重启过吗?

[不知道大佬是怎么映射的,我是整个文件夹全映射出来]
image

image
容器重启过吗?

肯定重启过了啊,但是大佬你这样只映射data文件夹,不是其他的文件都改不了吗,难道进docker里面改?

肯定重启过了啊,但是大佬你这样只映射data文件夹,不是其他的文件都改不了吗,难道进docker里面改?

的确是进容器内改的。
我不清楚改之前已经爬取到到的数据是否会正常显示,我自己是删掉bus.db重新开始的。
但有人提到不删掉bus.db,之前的也会正常显示,我没做过测试。

肯定重启过了啊,但是大佬你这样只映射data文件夹,不是其他的文件都改不了吗,难道进docker里面改?

的确是进容器内改的。
我不清楚改之前已经爬取到到的数据是否会正常显示,我自己是删掉bus.db重新开始的。

我刚才也把数据库删了,确实可以了,感谢大佬

我刚才也把数据库删了,确实可以了,感谢大佬

那你看到的应该不是新爬取的,之前的只能修改数据库文件了。既然你都删了,那也无所谓了。

我刚才也把数据库删了,确实可以了,感谢大佬

那你看到的应该不是新爬取的,之前的只能修改数据库文件了。既然你都删了,那也无所谓了。

好像可以把老数据库导入进去,图片就能看了

这个感觉要写个判断,部分图片是有网址是 比如 https://pics.dmm.co.jp/digital/video/sqte00374/sqte00374pl.jpg

这个简单,加个图片地址判断,如果自带http那就使用爬取到的,如果没有http,那就补全网址。

if "http" in html.find(cover_img_css)[0].attrs['href']:
    cover_img_url = html.find(cover_img_css)[0].attrs['href']
else:
    cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']
a = "http://www.javbus.com"
b = html.find(cover_img_css)[0].attrs['href']
if re.match(r'^https?:/{2}\w.+$', b):   
    cover_img_url = b		
else:
    cover_img_url = a + b

肯定重启过了啊,但是大佬你这样只映射data文件夹,不是其他的文件都改不了吗,难道进docker里面改?

的确是进容器内改的。
我不清楚改之前已经爬取到到的数据是否会正常显示,我自己是删掉bus.db重新开始的。
但有人提到不删掉bus.db,之前的也会正常显示,我没做过测试。

之前也会有部分的不正常。 我是进数据库把地址改了部分不能显示的 就正常了

我去掉斜杠了,刚才又更新了两个资源,我看了下图片,还是本地ip的链接。。。图片不显示

docker版吗?不应该啊,上面有人已经成功了。

[不知道大佬是怎么映射的,我是整个文件夹全映射出来]
image

可以和之前一样 image 用我的这个 aiastia/bustag:dev

我去掉斜杠了,刚才又更新了两个资源,我看了下图片,还是本地ip的链接。。。图片不显示

docker版吗?不应该啊,上面有人已经成功了。

[不知道大佬是怎么映射的,我是整个文件夹全映射出来]
image

可以和之前一样 image 用我的这个 aiastia/bustag:dev

大佬是准备接手这个项目了吗?

我去掉斜杠了,刚才又更新了两个资源,我看了下图片,还是本地ip的链接。。。图片不显示

docker版吗?不应该啊,上面有人已经成功了。

[不知道大佬是怎么映射的,我是整个文件夹全映射出来]
image

可以和之前一样 image 用我的这个 aiastia/bustag:dev

大佬是准备接手这个项目了吗?

#又不是不能用……

有几个文件需要修改
1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下:
cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']
2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下:
<img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />
我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下:
/app/src/bustag/bustag/spider/parser.py
/app/src/bustag/bustag/app/views/index.tpl
/app/src/bustag/bustag/app/views/tagit.tpl

请大佬详细描述一下怎么修改,我按照这个修改无效啊
Screenshot_20210630-231701_Via
麻烦指导一下哪里错了

大佬麻烦指点下,刚在群晖安装了bustag,不显示图片,请问这几个文件如何访问啊,文件位置我都找不到,访问不了,群晖的操作不是很懂。

有几个文件需要修改
1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下:
cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']
2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下:
<img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />

我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下:
/app/src/bustag/bustag/spider/parser.py
/app/src/bustag/bustag/app/views/index.tpl
/app/src/bustag/bustag/app/views/tagit.tpl

大佬麻烦指点下,刚在群晖安装了bustag,不显示图片,请问这几个文件如何访问啊,文件位置我都找不到,访问不了,群晖的操作不是很懂。

研究了一下代码,自己搞定了。作者应该是不更新了。

@huangqian8 大佬最近javbus加了登录验证,如果使用cookies登录的话应该在哪个文件修改呢