Linux下删除大数据文件中部分字段重复行的方法

最近写的一个数据采集程序生成了一个含有1千多万行数据的文件,数据由4个字段组成,按照要求需要删除第二个字段重复的行,找来找去linux下也没找到合适的工具,sed/gawk等流处理工具只能针对一行一行处理,并无法找到字段重复的行。看来只好自己python一个程序了,突然想起来利用mysql,于是进行乾坤大挪移:

1. 利用mysqlimport --local dbname data.txt导入数据到表中,表名要与文件名一致
2. 执行下列sql语句(要求唯一的字段为uniqfield)

复制代码

代码如下:

use dbname;
alter table tablename add rowid int auto_increment not null;
create table t select min(rowid) as rowid from tablename group by uniqfield;
create table t2 select tablename .* from tablename,t where tablename.rowid= t.rowid;
drop table tablename;
rename table t2 to tablename;

(0)

相关推荐

  • 如何在Access数据表中设置字段的数据类型

    在这里介绍Access数据表中设置字段的数据类型的方法,希望本指南能帮到大家. 操作方法 01 以下图数据表为例演示设置方法. 02 鼠标移到菜单栏这里,点击"字段"菜单. 03 ...

  • Linux下删除文件之彻底删除文件(shred)

    linux删除目录很简单,很多人还是习惯用rmdir,不过一旦目录非空,就陷入深深的苦恼之中,现在使用rm -rf命令即可。 直接rm就可以了,不过要加两个参数-rf 即:rm -rf 目录名字 删除 ...

  • Linux下删除文件下彻底删除文件

    在linux中删除文件与文件夹我们可以直接使用rm就可以删除了,彻底删除文件或文件夹我们可以使用shred命令来完成,下面我给大家介绍介绍。 Linux删除文件夹命令 linux删除目录很简单,很多人 ...

  • 如何在linux下编辑和修改文件:

    我们在linux下有很多的地方,需要使用和修改文件,这里我们介绍的是,linux的自带的工具vi文本编辑工具.这个是很强大的一个工具. 我们在linux下主要使用的是这个工具.这里小编,就来介绍一下, ...

  • linux下删除乱码文件名的方法

    linux下删除乱码文件名, 不废话: 1. ls -i 列出文件的节点ID, 如: 123456789 2. find ./ -inum 123456789 -print -exec rm -rf ...

  • 怎样用网线连接两台电脑共享复制大数据文件

    在如今网络盛行的时代,更换电脑很普遍,如何将旧电脑里的大数据快速的复制到新电脑里呢,首先要保证电脑能够正确的连接到网络中.下面介绍的就是怎样用网线连接两台电脑,以便建立最简单的网络来复制传输大数据文件 ...

  • 在Stata中如何浏览数据文件中的数据

    在Stata中如何浏览数据文件中的数据并进行简单的数据管理,本文对其进行简要介绍. 操作方法 01 浏览数据文件中的数据.点击快捷工具栏中的 Data Editor(Browse)或者菜单 Data| ...

  • Excel表格中删除重复行的方法

    Excel表格中删除重复行的方法 下图中的表格就是今天的示例,因为比较短,所以肉眼就可以看出来,后面三行都是重复的.下面在本文中,Office办公助手的小编就图文详解一次性将最后三行重复行都删除掉的方 ...

  • 如何在Excel文件中打勾?Excel文件中打勾的两种方法介绍

    在Excel表格内输入文字估计大多数小伙伴都会,那么如果是在表格的方框内打勾呢?下面小编就为大家详细介绍Excel文件中打勾的两种方法,一起来看看吧 方法一:通过复选框功能打勾 本方法是通过Excel ...