记一次数据处理的过程

简介:

    由于所在公司是主要做短信行业,平时和手机号码打交道较多,各种奇葩需求也比较多,近期接到一个一个总监的奇葩需求,就是将两个文件中相同的手机号码弄处理,由于编程水平以及excel玩的有限,所以只能自己想其他额办法解决,首先每个文件有好几个字段,不过全是结构化数据,格式如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
15994710001,2016 /11/3  0:24,53100010
15994710001,2016 /11/3  0:24,53100010
15001313373,2016 /11/3  3:39,53100010
13937713309,2016 /11/3  6:16,53100010
13758943333,2016 /11/3  7:19,53100010
13868044333,2016 /11/3  8:33,53100010
13500732333,2016 /11/3  10:29,53100010
13523072333,2016 /11/3  10:30,53100010
15138132777,2016 /11/3  10:31,53100010
13960985779,2016 /11/3  10:45,53100010
此文件有4000多行,
文件2 字段比较多,恰好一部分内容乱码,所以也算保护个人隐私吧。
"311-SD10658" 2114781676479382330 "," 13703774555 "," 11λP50rit "," 1 "," 2016 /11/3  10:07:43 "," 2016 /11/3  10:07:41 "," 0 "," DELIVRD"
"311-SD10658" 2114781676479382330 "," 15920510111 "," 11λP50rit "," 1 "," 2016 /11/3  10:07:43 "," 2016 /11/3  10:07:41 "," 0 "," DELIVRD"
"311-SD10658" 2114781676479382330 "," 18319609333 "," 11λP50rit "," 1 "," 2016 /11/3  10:07:43 "," 2016 /11/3  10:07:41 "," 0 "," DELIVRD"
"311-SD10658" 2114781676479382330 "," 15221090555 "," 11λP50rit "," 1 "," 2016 /11/3  10:07:43 "," 2016 /11/3  10:07:41 "," 0 "," DELIVRD"
"311-SD10658" 2114781676479382330 "," 13905879555 "," 11λP50rit "," 1 "," 2016 /11/3  10:07:43 "," 2016 /11/3  10:07:41 "," 0 "," DELIVRD"
"311-SD10658" 2114781676479382330 "," 13818586777 "," 11λP50rit "," 1 "," 2016 /11/3  10:07:43 "," 2016 /11/3  10:07:41 "," 0 "," DELIVRD"
"311-SD10658" 2114781676479382330 "," 13916387773 "," 11λP50rit "," 1 "," 2016 /11/3  10:07:43 "," 2016 /11/3  10:07:41 "," 0 "," DELIVRD"
"311-SD10658" 2114781676479382330 "," 13882133333 "," 11λP50rit "," 1 "," 2016 /11/3  10:07:43 "," 2016 /11/3  10:07:41 "," 0 "," DELIVRD"
"311-SD10658" 2114781676479382330 "," 18200980999 "," 11λP50rit "," 1 "," 2016 /11/3  10:07:43 "," 2016 /11/3  10:07:41 "," 0 "," DELIVRD"

处理的思路:

由于只是要相同的号码,所以就在linux下用一些文本处理工具对其处理,先将其处理成只含手机号码的文件,然后再做其他的处理

可以用cut或者awk截取相关的列,但是由于awk不是太熟悉,这里就使用cut截取,注意分隔符以及相关的第几列就可以。

然后可以用grep  比较,也试过diff,但是效果

1、统计两个文本文件的相同行

grep -Ff file1 file2


2、统计file2中有,file1中没有的行 比较两个不同的行

grep  -vFf  file2 file1



本文转自 tianya1993 51CTO博客,原文链接:http://blog.51cto.com/dreamlinux/1869844,如需转载请自行联系原作者

相关文章
|
2月前
|
数据采集 自然语言处理 监控
|
3月前
|
存储 机器学习/深度学习 数据采集
数据之海:探索大规模数据处理的无尽可能
在数字化时代,大规模数据处理成为科技创新和商业发展的关键。本文将探索数据之海中的挑战与机遇,揭示大规模数据处理的重要性,并展望其对未来科技进步和社会变革的无尽可能。通过航行数据之海,我们将开启一段全新的技术探索之旅。
|
3月前
|
机器学习/深度学习 分布式计算 Hadoop
通过比喻理解-MapReduce的数据处理流程
通过比喻理解-MapReduce的数据处理流程
29 0
|
3月前
|
消息中间件 运维 Serverless
使用函数计算,数禾如何实现高效的数据处理?
使用函数计算,数禾如何实现高效的数据处理?
93087 1
|
8月前
|
XML 数据处理 数据格式
数据处理
4.4数据处理 4.4.1 数据清单 1具有二维表特性的电子表格在Excel中被称为数据清单。 2行表示记录,列表示字段。 3数据清单的第一行必须为文本类型,为相应列的名称. 4在此行的下面是连续的数据区域,每一列包含相同类型的数据. 4.4.2 排序和筛选 1、排序 1单个关键字排序 单击待排序字段数据列表中的任意一个单元格,单击“数据“选项卡,在“排序和筛选”组中,单击“升序”按钮,则按排序字段从小到大排序,若单击“降序”按钮,则按排序字段从大到小排序。 2多关键字排序 单击数据清单任意单元格,单击“数据”选项卡,在“排序和筛选”组中,单击“排序”按钮,打开排序对话框 1
|
10月前
|
存储 SQL 数据处理
同步还是异步?ETL架构的选择,为何关系到数据处理速度和系统性能
同步还是异步?ETL架构的选择,为何关系到数据处理速度和系统性能
94 0
|
数据可视化 数据挖掘 数据处理
【数据篇】33 # 可视化数据处理的一般方法是什么?
【数据篇】33 # 可视化数据处理的一般方法是什么?
202 0
【数据篇】33 # 可视化数据处理的一般方法是什么?
|
数据采集 消息中间件 监控
项目总体数据处理流程详解|学习笔记
快速学习项目总体数据处理流程详解
168 0
项目总体数据处理流程详解|学习笔记
|
数据采集 消息中间件 监控
功能介绍数据处理详解|学习笔记
快速学习功能介绍数据处理详解
286 0
功能介绍数据处理详解|学习笔记
|
消息中间件 存储 分布式计算
流计算引擎数据正确性的挑战
按:去年此时发表了一篇文章 《流计算引擎数据一致性的本质》,主要论述了流计算引擎中的数据一致性问题,事实上,该文章只能算作流计算数据一致性的上篇,如何通过流计算中得到真正准确、符合业务语义的数据,需要作进一步阐述。强迫症接受不了这种半拉子工程,所以今年还是陆陆续续把下篇(流计算引擎数据正确性的挑战) 撰写完成。上下两篇文章的主要论点,分别对应了流计算领域中的两大难题:端到端一致性和完整性推理。
流计算引擎数据正确性的挑战