数据分析文件操作的命令行

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介:

wc -- 统计

sort -- 排序

uniq -- 去重

$ sort file.txt | uniq -c | sort -nr | head -5


select word, count(1) cnt from file group by word order by cnt desc limit 5;


gzip/tar -- 压缩工具

cat/zcat -- 文件查看

less/more -- 文件查看,支持gz压缩格式直接查看

head/tail -- 查看文件头和尾

du -h -c -s -- 查看空间占用


awk -- 数据库操作工具

join/cut/paste -- 关联文件/切分字段/合并文件

fgrep/grep/egrep -- 全局正则表达式查找

find -- 查找文件,并且对查找结果批量化执行任务

sed -- 流编辑器,批量修改、替换文件

split -- 对大文件进行切分处理,按多少行一个文件,或者多少字节一个文件

rename -- 批量重命名


zcat -- 直接查看压缩文件中的文件内容

zgrep/zfgrep/zegrep -- 在压缩文件中直接查找


date -- 时间日期操作

sort/uniq -- 排序、去重统计

comm -- 对两个排序文件进行比较(共同行、只出现在左边文件、只出现在右边文件)

diff -- 逐字符比较文件的异同,配合cdiff,类似于github的显示效果

curl/w3m/httpie -- 命令行下进行网络请求

iconv -- 文件编码转换

seq -- 生成连续的序列,用于for循环


shell判断和循环

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
if  [ ];  then
     pass
fi
 
 
while
do
     pass
done
 
 
for  in  xxxxx
do
     pass
done


执行长时间的任务,使用nohup




命令组合的使用

1  删除0字节文件    find . -type f -size 0 -exec rm -rf {} \;   

            find . type f -size 0 -delete

2  查看进程,按内存从大到小排列  ps -e -o “%C : %p : %z : %a”|sort -k5 -nr

3  按cpu利用率从大到小排列  ps -e -o “%C : %p : %z : %a”|sort -nr

4  打印说cache里的URL  grep -r -a jpg /data/cache/* | strings | grep “http:” | awk -F’http:’ ‘{print “http:”$2;}’

5  查看http的并发请求数及其TCP连接状态  netstat -n | awk ‘/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}’

6  sed在这个文里Root的一行,匹配Root一行,将no替换成yes。  sed -i ‘/Root/s/no/yes/’ /etc/ssh/sshd_config

7  如何杀掉mysql进程  ps aux |grep mysql |grep -v grep  |awk ‘{print $2}’ |xargs kill -9

               killall -TERM mysqld

               kill -9 `cat /usr/local/apache2/logs/httpd.pid`

8  显示运行3级别开启的服务(从中了解到cut的用途,截取数据)  ls /etc/rc3.d/S* |cut -c 15-

9  如何在编写SHELL显示多个信息,用EOFcat << EOF

+————————————————————–+

|   === Welcome to Tunoff services ===                         |

+————————————————————–+

EOF

10  for的用法(如给mysql建软链接)cd /usr/local/mysql/bin

for i in *

do ln /usr/local/mysql/bin/$i /usr/bin/$i

done

11  取IP地址  ifconfig eth0 |grep “inet addr:” |awk ‘{print $2}’|cut -c 6-

        ifconfig | grep ‘inet addr:’| grep -v ’127.0.0.1′ |cut -d: -f2 | awk ‘{ print $1}’

12  内存的大小  free -m |grep “Mem” | awk ‘{print $2}’

13  查看80端口的连接,并排序  netstat -an -t | grep “:80″ | grep ESTABLISHED | awk ‘{printf “%s %s\n”,$5,$6}’ | sort

14  查看Apache的并发请求数及其TCP连接状态  netstat -n | awk ‘/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}’

15  统计一下服务器下面所有的jpg的文件的大小  find / -name *.jpg -exec wc -c {} \;|awk ‘{print $1}’|awk ‘{a+=$1}END{print a}’

16  CPU的数量  cat /proc/cpuinfo |grep -c processor

17  CPU负载  cat /proc/loadavg

18  CPU负载  mpstat 1 1

19  内存空间  free

20  磁盘空间  df -h

21  如发现某个分区空间接近用尽,可以进入该分区的挂载点,用以下命令找出占用空间最多的文件或目录  du -cks * | sort -rn | head -n 10

22  磁盘I/O负载  iostat -x 1 2

23  网络负载  sar -n DEV

24  网络错误  netstat -i

        cat /proc/net/dev

25  网络连接数目  netstat -an | grep -E “^(tcp)” | cut -c 68- | sort | uniq -c | sort -n

26  进程总数  ps aux | wc -l

27  查看进程树  ps aufx

28  可运行进程数目  vmwtat 1 5

29  检查DNS Server工作是否正常,这里以61.139.2.69为例  dig www.baidu.com @61.139.2.69

30  检查当前登录的用户个数  who | wc -l

31  日志查看、搜索   cat /var/log/rflogview/*errors

            grep -i error /var/log/messages

            grep -i fail /var/log/messages

            tail -f -n 2000 /var/log/messages

32  内核日志  dmesg

33  时间  date

34  已经打开的句柄数  lsof | wc -l

35  网络抓包,直接输出摘要信息到文件。  tcpdump -c 10000 -i eth0 -n dst port 80 > /root/pkts

36  然后检查IP的重复数 并从小到大排序 注意 “-t\  +0″ 中间是两个空格,less命令的用法。less pkts | awk {‘printf $3″\n”‘} | cut -d. -f 1-4 | sort | uniq -c | awk {‘printf $1″ “$2″\n”‘} | sort -n -t\  +0

37  kudzu查看网卡型号  kudzu –probe –class=network













本文转自ting2junshui51CTO博客,原文链接:http://blog.51cto.com/ting2junshui/1755534 ,如需转载请自行联系原作者


相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
5月前
|
数据挖掘 Python
【Python】数据分析:结构化数分工具 Pandas | Series 与 DataFrame | 读取CSV文件数据
【Python】数据分析:结构化数分工具 Pandas | Series 与 DataFrame | 读取CSV文件数据
49 1
|
9月前
|
数据挖掘 开发工具
Excle数据分析:按照筛选条件将表格分割成多个文件的VBA解决方案
Excle数据分析:按照筛选条件将表格分割成多个文件的VBA解决方案
95 0
|
8月前
|
数据采集 人工智能 数据可视化
ChatGPT4 Plus只需上传一个文件,自动进行数据分析,数据遇上Ai会碰撞出什么火花?
ChatGPT4 Plus只需上传一个文件,自动进行数据分析,数据遇上Ai会碰撞出什么火花?
|
数据可视化 数据挖掘 数据处理
|
数据挖掘 数据处理 数据库
案例分享:Qt数据分析处理平台(兼容各国产麒麟系统)(文件域字符串解析,上万文件批量导入,折线图、散点图,正态分布图分析处理导出等)
案例分享:Qt数据分析处理平台(兼容各国产麒麟系统)(文件域字符串解析,上万文件批量导入,折线图、散点图,正态分布图分析处理导出等)
案例分享:Qt数据分析处理平台(兼容各国产麒麟系统)(文件域字符串解析,上万文件批量导入,折线图、散点图,正态分布图分析处理导出等)
|
JSON 数据挖掘 数据格式
Dremio案例_本地Json文件数据分析
1.说明 Dremio支持本地的Execl文件、Json和Text的数据分析,该案例将以本地Json文件为例,通过Dremio进行数据分析 2.上传Json文件 a).选择文件 b).预览保存 3.
2280 0
|
数据可视化 数据挖掘 数据库连接
Dremio案例_HDFS文件数据分析
1.上传数据文件 ## put execl to hdfs hdfs dfs -put test.xlxs /home/bigdata/dremio/ 2.配置HDFS数据源 a).选择 b).配置 c).
2774 0
|
存储 数据挖掘 网络架构
《利用Python进行数据分析·第2版》第3章 Python的数据结构、函数和文件
第1章 准备工作第2章 Python语法基础,IPython和Jupyter 第3章 Python的数据结构、函数和文件第4章 NumPy基础:数组和矢量计算第5章 pandas入门第6章 数据加载、存储与文件格式第7章 数据清洗和准备第8章 数据规整:聚合、合并和重塑第9章 绘图和可视化第10章 数据聚合与分组运算第11章 时间序列第12章 pandas高级应用第13章 Python建模库介绍第14章 数据分析案例附录A NumPy高级应用附录B 更多关于IPython的内容(完) 本章讨论Python的内置功能,这些功能本书会用到很多。
1306 0