在一个文本文件(TXT)中,有100万行,如何删除重复的行?

每一行的格式是姓名，手机号码。但是有很多重复的，如何找到并删除这些重复的行呢？有什么软件可以实现吗？或者好的批处理也可以，谢谢。

推荐答案 2013-02-18

提供一种思路，bit-map法可以解决你的重复数据的问题。
所谓bitmap，就是用每一位来存放某种状态，适用于大规模数据，但数据状态又不是很多的情况。通常是用来判断某个数据存不存在的。
使用位图法判断整形数组是否存在重复
判断集合中存在重复是常见编程任务之一，当集合中数据量比较大时我们通常希望少进行几次扫描，这时双重循环法就不可取了。
位图法比较适合于这种情况，它的做法是按照集合中最大元素max创建一个长度为max+1的新数组，然后再次扫描原数组，遇到几就给新数组的第几位置上1，如遇到 5就给新数组的第六个元素置1，这样下次再遇到5想置位时发现新数组的第六个元素已经是1了，这说明这次的数据肯定和以前的数据存在着重复。这种给新数组初始化时置零其后置一的做法类似于位图的处理方法故称位图法。它的运算次数最坏的情况为2N。如果已知数组的最大值即能事先给新数组定长的话效率还能提高一倍。
参考链接里有示例代码：
http://baike.baidu.com/view/6102616.htm?tp=5_11
----------------------------
如果嫌编程麻烦，可以尝试导入到excel之后，高级筛选，去掉重复项，剩下的就是你需要的。但是这么大数据量可能要分几次处理，你自己试试

参考资料：http://baike.baidu.com/view/6102616.htm?tp=5_11

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/snsxUpxx9.html

相似回答

txt文档批量删除重复的行?答：思路：采用数据库来操作。将数据库主键设置成是唯一模式，如果该行数据能成功写入数据库，则表示该行数据是唯一的。如果该行数据写入数据库失败，则删除数据库中的该行数据。当txt中每一行数据都检测完之后，将数据库中保存的数据导出来，得到的结果就是你所需要的结果。当你的txt有几百万甚至几千万几...

如何删除TXT中重复的内容?答：1、首先打开TXT文档，可以看到文档内有很多重复的内容；2、依次点击“编辑”-“替换”；3、在打开的替换窗口中输入要删除的重复内容，然后将鼠标光标移动到文档的首位；4、点击替换矿口的“查找下一个”；5、可以看到文档中的第二个重复的内容被选中了；6、然后在“替换为”窗口内什么都不输入，直接...

怎么删除TXT文档中的重复行啊??答：一、软件删除法：二、Excel去重法：三、批处理法：用记事本新建一个bat文件，内容如下：::怎样删除a.txt文件中重复的行?::批处理不能直接更改文档中的内容,所以只能新建一个b.txt文档 ::注:文档a中的每一行的结尾若有空格,也会被当作字符判断 ::代码虽能达到目的,但感觉有点臃肿,还望高手简化....

求一批处理文件,整理一个数百万行文本文件a.txt,去掉小于8字符和大于15...答：这个活儿就很好办，就靠windows系统自带的做起来复杂和低效，用两个就行，分别是grep.exe和sort.exe（比windows的sort.exe好用多了）。若感兴趣，请留邮箱，咱发给你。有了趁手工具后，直接一行搞定，如下：grep -P "^.{8,15}$" a.txt|sort -u>b.txt ...

请问如何删除文本文件中的重复行?答：1. 按ctrl-o打开文件B 2. 按ctrl-h打开replace对话框，设置如下：在Replace页：Replace Unit=Line Search for Pattern下面填.*(表示任意行)If下面填get_value($match)==1 (注:以上操作表示删除与A重复的行)3. 点击Replace,即删除了与A重复的行，存盘。Replace Pioneer 下载地址：http://www....

txt文件,如何删除重复行答：只能使用编辑-查找，找到相同的就删除，

大家正在搜

如何新建txt文本文件新建文本文档没有txt后缀 TXT文本 TXT文件 txt文本阅读器文本阅读 txt文件怎么打开怎么创建txt文件 txt文件编辑器