Excel如何对短文本进行模糊去重(按相似度去重)?

在做一项舆情分析工作,从一个免费不太成熟系统导出批量网络媒体文章。标题列经常有比如:“标题1:XX省居然出现如此失信情况!标题2:震惊!XX省居然出现如此失信情况!标题3:XX省,居然出现如此失信情况!震惊!”。自带去重功能不能识别重复文章,求一个可以根据匹配程度去重的公式,或通过如何操作可以高效去重,谢谢!

第1个回答  2021-03-23
Excel中的精确查找功能十分简单,比如说,我们需要查找“办公族”,就会直接在查找内容中输入“办公族”。那如果要查包含“办公”这2个字的词该怎么办呢,这就必须用Excel中的通配符进行模糊查找。Excel中的通配符为(?)和(*)。其中问号代表单个字符,而星号则可以代表一个和多个字符。

具体做法

1、我们现在需要找“办公”后加一个任意字符的数据,打开一篇Excel工作表,切换到“开始”选项卡,单击“编辑”组中“查找和选择”组下的“查找”命令。

2、此时会弹出一个“查找和替换”对话框,并且自动切换到了“查找”选项卡,我们在“查找内容”文本框中输入“办公?”或者“办公*”,然后单击“查找全部”按钮。

3、大家现在可以查看查找的结果了,如下图所示。

提示:因为英文的问号(?)和星号(*)现在已经成了通配符,当我们需要查找这两个符号的时候只需要在相应的符号前加上波浪号(~)即可。

Excel中的模糊查找还是很有用处的,用法也比较简单,只需记住通配符的作用就行了,你学会了吗?
第2个回答  2021-03-23
可以用代码进行分析。
比如找到最长的一行,然后按1、2、3、4个连续的字作为分析的依据并给予权重,分析其他行得到的权重值百分比超过一定的值就去重或者在一行的不同列罗列 。