timqian / chinese-independent-blogs

中文独立博客列表

Home Page:https://feeds.pub/cn-indie

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

重复的项

nobodxbodon opened this issue · comments

ngzhio:
Screen Shot 2021-02-10 at 9 16 48 AM
另外,不知有无工具检查断链、重复等等问题?也许可以集成到 CI,辅助维护?

@nobodxbodon 这个重复的项是因为这个博客一开始叫 Hszhakka ,后来改名&域名成 Ngzhio。
但博主只是在项目里追加了 Ngzhio 这一行,没有删除原本 Hszhakka 这一行。

导致 #544 在维护坏链时把没有被删除的 Hszhakka 改成了 目前的Hszhakka。所以就重复了…

马上我提交个pr。

@yzqzss 神速啊。刚用这个python脚本查了一下,还有个网址 https://raincorn.top/ 重复:

import csv, re

所有网址 = set()

with open('blogs-original.csv', newline='') as csvfile:
    各行 = csv.reader(csvfile, delimiter=',', quotechar='|')
    forin 各行:
        网址 = 行[1].strip()
        if 网址 in 所有网址:
            print(网址)
        else:
            所有网址.add(网址)

又用博客名查了一下重,发现另两个:

炸裂志
the5fire的技术博客

@timqian 请看上面两楼,还有几项重复的没有处理。