LINUX中如何不经过排序删除文件中重复的行（相同行，只保留一个）

推荐答案 2009-09-28

楼上 uniq必须是连续的重复才行把

用awk肯定行

这是一个cu的精华帖，差不多，对于你的问题你给稍等我修改一下。（ps感谢红袖添香大姐）
CU精华经典回顾

#假设我有如下文件：
#cat aa
#123 def1 456
#345 def2 812
#123 def3 563
#322 def4 684
#123 def5 879
#......................
#现在我想把第一列中字段相同的合并，第一列不相同的则保留，合并的原则就是保留第一个出现的前两个字段，第三个字段则把结果相加，以上面的示例为例：
#
#就是对于123开头的需要合并，合并后应该成为如下：
#cat aa
#123 def1 1898
#345 def2 812
#322 def4 684
#请问用shell如何实现？
#希望各位帮助！，谢谢！！

#要求总结：
#1 合并相同的第一列数据，并且计算第三列和
#2 第二列只保留第一次出现
#3 第一列顺序不变

觉得这个问题很经典，所以从CU论坛转过来了。
请大家一起学习

我们站在巨人的肩膀上。

问题补充：

看不太懂实现可以讲一下思路吗？

a[$1]+=$3
if(length(b[$1])==0)b[$1]=$2
我是这样做的
－－－－－－－－－－－－－－－－－－－－－－－－－－2
谢谢你的补充，已经明白了你对split的适用技巧，是用split(a[$1],tmp)在碰到匹配的$1时取出以前的统计结然后再用$3加上以前的结果是吧，很巧妙。谢谢
但是有2个问题：
1不满足第二列保留第一次出现记录（现在是保留最后一次出现）
2不满足第一列按照原来文件顺序出现

看看这个
awk 'BEING{n=0}
{
a[$1]+=$3
if(length(b[$1])==0)b[$1]=$2
if($1 in ind)next
ind[$1]
key[n]=$1
n++
}
END{
for(i in key)print key[i],b[key[i]],a[key[i]]
}' filename

＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃
＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃
＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃
这样就行了
#!/bin/bash

awk 'BEGIN{n=0}
{
if($0 in a)next
a[$0]
b[n]=$0
n++
}
END{
for(i in b)print b[i]
}' data

前提是你的数据文件里面每行没有空格，如果有用-F设定一个没有的字符作分隔符就

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/UUvUixU2U.html

其他回答

第1个回答 2015-06-26

楼上 uniq必须是连续的重复才行把

用awk肯定行

这是一个cu的精华帖，差不多，对于你的问题你给稍等我修改一下。（ps感谢红袖添香大姐）
CU精华经典回顾

#假设我有如下文件:
#cat aa
#123 def1 456
#345 def2 812
#123 def3 563
#322 def4 684
#123 def5 879
#......................
#现在我想把第一列中字段相同的合并，第一列不相同的则保留，合并的原则就是保留第一个出现的前两个字段，第三个字段则把结果相加，以上面的示例为例:
#
#就是对于123开头的需要合并，合并后应该成为如下:
#cat aa
#123 def1 1898
#345 def2 812
#322 def4 684
#用shell如何实现？
#希望各位帮助，，谢谢，，

#要求总结:
#1 合并相同的第一列数据，并且计算第三列和
#2 第二列只保留第一次出现
#3 第一列顺序不变

觉得这个问题很经典，所以从CU论坛转过来了。
请大家一起学习

我们站在巨人的肩膀上。

问题补充:

看不太懂实现可以讲一下思路吗？

a[$1]+=$3
if(length(b[$1])==0)b[$1]=$2
我是这样做的
－－－－－－－－－－－－－－－－－－－－－－－－－－2
谢谢你的补充，已经明白了你对split的适用技巧，是用split(a[$1]，tmp)在碰到匹配的$1时取出以前的统计结然后再用$3加上以前的结果是吧，很巧妙。谢谢
但是有2个问题:
1不满足第二列保留第一次出现记录（现在是保留最后一次出现）
2不满足第一列按照原来文件顺序出现

看看这个
awk 'BEING{n=0}
{
a[$1]+=$3
if(length(b[$1])==0)b[$1]=$2
if($1 in ind)next
ind[$1]
key[n]=$1
n++
}
END{
for(i in key)print key[i]，b[key[i]]，a[key[i]]
}' filename

＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃
＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃
＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃
这样就行了
#，/bin/bash

awk 'BEGIN{n=0}
{
if($0 in a)next
a[$0]
b[n]=$0
n++
}
END{
for(i in b)print b[i]
}' data

前提是你的数据文件里面每行没有空格，如果有用-F设定一个没有的字符作分隔符就。

第2个回答 2009-09-28

cat FILE_A | uniq > FILE_B

相似回答

Linux删除重复行的代码答：文本处理时，经常要删除重复行，下面是三种方法第一，用sort+uniq，注意，单纯uniq是不行的。? 1 sort -n t...

linux下的删除重复行命令uniq详细介绍和实例答： 1，对文本操作时，它一般会和sort命令进行组合使用，因为uniq 不会检查重复的行，除非它们是相邻的行。如果您想先对输入排序，使用sort -u。 2，对文本操作时，若域中为先空字符(通常包括空格以及制表符)，然后非空字符，域中字符前的空字符将被跳过二...

linux去重不要排序答：写个脚本来做就是了. ruby, awk都成 awk '{if(!($0 in a)){print $0};a[$0];}'

Linux系统中使用fdupes来查找并删除重复文件答：6、不同于在一个或所有文件夹内递归搜索,你可以选择按要求有选择性地在两个或三个文件夹内进行搜索。不必再提醒你了吧,如有需要,你可以使用-S和/或-r选项。代码如下:$ fdupes /home/avi/Desktop/ /home/avi/Templates/7、要删除重复文件,同时保留一个副本,你可以使用-d选项。使用该选项,你必须额外小心...

Linux系统中tr命令删除和替换文本字符的基本用法答：5、删除文件file中出现的换行'n'、制表't'字符代码如下:cat file | tr -d "nt" new_file 不可见字符都得用转义字符来表示的，这个都是统一的。6、删除“连续着的”重复字母，只保留第一个代码如下:cat file | tr -s [a-zA-Z] new_file 7、删除空行代码如下:cat file...

Linux文本处理命令的uniq命令答：语法：uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。该命令各选项含义如下：...

大家正在搜

如何删除文件夹中的重复文件如何删除电脑重复的文件文件夹内怎样删除重复文件电脑文件夹怎么删除相同文件文件夹重复的怎么删除文件内容重复的怎么设置删除电脑一键删除重复文件怎么快速删除重复文件手机重复文件怎么删除