cobaltdisco / Google-Chinese-Results-Blocklist

我终于能用谷歌搜中文了……

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

如何屏蔽“小搭百科网”?

bcaso opened this issue · comments

commented

小搭百科网的真实地址是 https://g.penzai.com/

但是其有数十个,.com, .buzz 域名,全部重定向到 https://g.penzai.com/

目前发现的域名有:

一个个的手动添加太烦索,且说不定他注册的域名不久后就被“正常的”所用了,还造成了误屏蔽。

求支招。

我也发现了,搜索结果里经常出来这玩意

title/.* - 小.百科网/

自用规则供参考,只要叫《小X百科网》的都会被屏蔽

commented

title/.* - 小.百科网/

自用规则供参考,只要叫《小X百科网》的都会被屏蔽

经测试,这条规则在搜索 intitle:"小搭百科网" 时,没有效果,小搭百科网还在。

image

用这个规则可以:title/小.百科网/

搜索结果直接消失了:
image

点击 Show后显示这条规规会把所有包含 《小X科百科网》的都屏蔽掉。

image

猜测,title 的具体用法:title/正则表达式/, 只作用于搜索结果的标题而非链接地址。

在插件中也有说明:
image

三种屏蔽方式:
(1)* 通配符
(2)/正则表达式/
(3)title/正则表达式/

我这样写规则,是因为:
我需要屏蔽的是,当搜索一个问题时,看到这些小X百科网的结果。
_20212129112114
这种情况下这些小X百科网会被索引到的标题是 《相关关键词 - 小X百科网》类似下图
_20211229111233
所以规则被设定为监测【文字 - 小X百科网】类似这样结构标题的网页,从而在日常搜索时可以得到如下图的搜索结果
_20212329112300

而当你去限定网页标题为“小X百科网”时,这样确实是无效的,我不认为这种情况需要被屏蔽,这些结果只会在直接搜名字时才会出现,应该没人会直接搜这些抓取站的名字
_20211329111310

写规则的思路就是上边的这个思路,
你的理解是没有错的title/针对网页标题的正则表达式/
设定为过滤所有含有《小X百科网》这5个字的网页的话,规则会有些宽泛,
本着最小化封锁范围的原则,我写成了title/.* - 小.百科网/

好吧,我发现这些百科网,还有个分身叫《小X知识网》
规则还是写成title/.* - 小.(百科|知识)网/或者title/小.(百科|知识)网/更好一点

他们还有另一种被索引网页标题的特征:
16-20字符(一个汉字是2字符)_16-20字符_16-20字符
我测试用这个特征去屏蔽,但是存在误伤。
title/.{8,20}_.{8,20}_.{8,20}/

以前都是ublocklist手动加入黑名单,今天怒而找规则,希望有用。

commented

感谢 @tjsky 提供规则,目前已经更新上。