任意一个英文的纯文本文件,统计其中的单词出现的个数(shell python 两种语言实现)

简介:

 现有plain text titled test.txt,统计其中的单词出现的个数。

 test.txt的内容:

 i have have application someday oneday day demo

 i have some one coma ideal naive i


 用python实现的代码:

 

import re

count = {}

    

f = open('test','r') 

b = f.read()

#print b

cd = re.split('[ \\n]+',b) #注意split的用法

print cd


for i in cd:

    count[i] = count.get(i,0) + 1#注意get()方法的用法

print count


执行代码后得到的结果:

['i', 'have', 'have', 'application', 'someday', 'oneday', 'day', 'demo', 'i', 'have', 'some', 'one', 'coma', 'ideal', 'naive', 'i']

{'someday': 1, 'i': 3, 'demo': 1, 'naive': 1, 'some': 1, 'one': 1, 'application': 1, 'ideal': 1, 'have': 3, 'coma': 1, 'oneday': 1, 'day': 1}


shell实现的方法为:

 tr " " "\\n"

运行结果为


1 application

1 coma

1 day

1 demo

3 have

3 i

1 ideal

1 naive

1 one

1 oneday

1 some

1 someday

    


本文转自 运维天空 51CTO博客,原文链接:http://blog.51cto.com/jason83/1982168



相关文章
|
1月前
|
算法 Shell Linux
【Shell 命令集合 文档编辑】Linux 格式化文本文件fmt命令使用教程
【Shell 命令集合 文档编辑】Linux 格式化文本文件fmt命令使用教程
32 2
|
1月前
|
Shell Linux
【Shell 命令集合 文件管理】Linux 显示文本文件 命令 more命令使用教程
【Shell 命令集合 文件管理】Linux 显示文本文件 命令 more命令使用教程
36 0
|
2月前
|
XML 存储 数据处理
python绘制热力图-数据处理-VOC数据类别标签分布及数量统计(附代码)
python绘制热力图-数据处理-VOC数据类别标签分布及数量统计(附代码)
55 0
|
1月前
|
算法 Shell Linux
【Shell 命令集合 文档编辑】Linux 检查文本文件中的拼写错误 spell 命令使用指南
【Shell 命令集合 文档编辑】Linux 检查文本文件中的拼写错误 spell 命令使用指南
34 0
|
12天前
|
机器学习/深度学习 数据可视化 数据挖掘
用Python进行健康数据分析:挖掘医疗统计中的信息
【4月更文挑战第12天】Python在医疗健康数据分析中扮演重要角色,具备数据处理、机器学习、可视化及丰富生态的优势。基本流程包括数据获取、预处理、探索、模型选择与训练、评估优化及结果可视化。应用案例包括疾病预测、药物效果分析和医疗资源优化,例如使用RandomForestClassifier进行疾病预测,Logit模型分析药物效果,以及linprog优化医疗资源配置。
|
17天前
|
测试技术 Python
288统计出现最多次的字母(PYTHON)
288统计出现最多次的字母(PYTHON)
|
1月前
|
存储 数据管理 Serverless
Python实现:教你轻松统计文件夹下文件个数
Python实现:教你轻松统计文件夹下文件个数
27 0
|
1月前
|
存储 数据采集 数据挖掘
python数据分析——数据分类汇总与统计
数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳,然后对这些数据进行统计分析,以便于更好地了解数据的特点和规律。
59 1
|
1月前
|
机器学习/深度学习 算法 数据挖掘
python数据分析——数据分析的统计推断
数据分析的统计推断是科学研究中的重要环节,它通过对样本数据的分析,对总体参数进行估计,并对假设进行检验。这一过程旨在从数据中提取有意义的信息,为决策提供科学依据。 在统计推断中,我们通常会遇到两类问题:参数估计和假设检验。参数估计是通过样本数据对总体参数进行点估计或区间估计。点估计是对总体参数的具体数值进行预测,而区间估计则是给出一个包含总体参数的置信区间。这两种估计方法都基于大数定律和中心极限定理,保证了估计的准确性和可靠性。
45 0
|
2月前
|
自然语言处理 安全 Unix
一键式Excel分词统计工具:如何轻松打包Python脚本为EXE
一键式Excel分词统计工具:如何轻松打包Python脚本为EXE
44 0