一个技术简单的有用服务,谁有空做? 技术

我想到一个有用的工具,但自己懒得动手。看看谁有兴趣做:

用途:敏感词解码。

刚刚看到墙内有些网站敏感词屏蔽得丧心病狂,例如:给你量一××温,其实这个很容易破。思路如下:

1、学习大量语料,只要把语料里所有连续二至六个字的串(不含标点)都存下来,每个串出现的频率可以不存。

语料可以偏向特定的类型,例如你特别喜欢小黄文,可以开展专项学习。

2、要维护一个长度不超过四个字的敏感词库。

3、开始匹配:对敏感文中每个敏感词的位置,用所有长度相同的敏感词来替换,替换后从语料库评估是否符合语言习惯。这样就能很快解码敏感词了。

在小概率下,可能有多个敏感词都解得通,这时不妨把它们都列出来,读者自然知道该怎么选。

谁有兴趣快来做吧,最好做成网页,我等着用现成的。

2020年2月28日 9 次浏览
11 个评论

靠!思路都被你说出来了,我连思考的乐趣都没有了,你当我是工具人吗?

@dongdongfm #1 你能不能有更好的思路?

@饱读书名 #2 更好的思路,就是先分析一下这东西对自己有没有用。 只在墙内发表的文章值不值得自己看?我个人没有需求。如果我做,我也会做成浏览器的扩展。但是依然还有很多问题:视频弹幕的也能替换吗?百度文库的能替换吗?还有,大家都用移动端APP了,我的PC端浏览器扩展有多少人会用?

上面的黑体两边各有两个英文星号

小二 默认开启批量屏蔽受限用户发言功能,可在设置中手动取消。

只有密文没有明文,训练个鬼。

@小二 #5 再看一遍。

@饱读书名 #6 你先把敏感词库弄出来再谈别的。

@小二 #7 谁做谁弄。缺的随时补。

我强烈怀疑现在已经没有敏感词库了,所有东西都是先审后发

@rrrr #9 可以用旧的敏感词库,不断添加新词。百度贴吧等许多地方还是不审就发。

puf夏 ༼ ಠ ▃ ಠೃ ༽

@rrrr #9 @小二 #7 敏感词库哪里可以找到?

欲参与讨论,请 登录注册

如果一个人正在诚恳地赔罪,我们应该为此向他表示感谢和祝贺,而不应该挖他过去的烂疮疤,君子风度要求我们这做。 ——甘地(印度)