python3 编写超简单的重复文件扫描工具

简介: 参考我之前的文章(python3 编写简单的扫描相同文件工具)做的简化代码import os,json,codecsimport hashlib##############_path = ["I:\\大电影","H:\\小电影","J:...

参考我之前的文章(python3 编写简单的扫描相同文件工具)做的简化

代码

import os,json,codecs
import hashlib
##############

_path = ["I:\\大电影","H:\\小电影","J:\\电影"]  # 路径 (自定义)
#读取大文件的时候如果直接读取所有可能就很慢,这里示例就读取部分
_read_s=1024*1024 #截取开始大小
_read_e=1024*1024*5#截取结束大小
########## 
def wrJson(path,jsonMap):#写入json
    f= codecs.open(path,'w',"utf-8") 
    f.write(json.dumps(jsonMap,ensure_ascii=False))
    f.close() 
     
    
def getFileMd5(files):  # 获取Md5
    srcl = open(files, 'rb')
    m2 = hashlib.md5()
    m2.update(srcl.read(_read_e)[_read_s:_read_e])
    srcl.close()
    return m2.hexdigest()

_size_map1 = {}  # 第一次过滤
_size_map2 = {}  # 第二次过滤
_size_map3 = {}  # 第三次过滤

#第一次根据大小进行分组
def fileFilter1(path): 
    if os.path.isdir(path):
        files = os.listdir(path)
        for f in files:
            p = path + "\\" + f
            fileFilter1(p)
    else:
        s = os.path.getsize(path)
        ###自定义过滤 -s
        if '.psd' in path: return #后缀过滤示例
        if s<1024*1024*200:return#示例200M的大文件
        ###自定义过滤-e
        if not (s in _size_map1.keys()):
            _size_map1[s] = {"list": [], "count": 0}
        _size_map1[s]["list"].append(path)
        _size_map1[s]["count"] += 1

#第二次根据大小进行分组
def fileFilter2():
    for k in _size_map1:
        i = _size_map1[k]
        if i["count"] > 1:
            for p in i["list"]:
                h=getFileMd5(p)
                if not (h in _size_map2.keys()):
                    _size_map2[h] = {"list": [], "count": 0,"size":k}
                _size_map2[h]["list"].append(p)
                _size_map2[h]["count"] += 1
                
#第三次过滤出分组数量大于1的,就当做是重复的
def fileFilter3():
    for k in _size_map2:
        i = _size_map2[k]
        if i["count"] > 1: 
            _size_map3[str(k)]=i
            
for p in _path:
    fileFilter1(p)
fileFilter2()
del _size_map1
fileFilter3()
del _size_map2
wrJson("./test.json",_size_map3)
print("---->over")

代码简单我就不详细说明了..

相关文章
|
22天前
|
Python
【python】python跨文件使用全局变量
【python】python跨文件使用全局变量
|
5天前
|
机器学习/深度学习 数据挖掘 计算机视觉
python数据分析工具SciPy
【4月更文挑战第15天】SciPy是Python的开源库,用于数学、科学和工程计算,基于NumPy扩展了优化、线性代数、积分、插值、特殊函数、信号处理、图像处理和常微分方程求解等功能。它包含优化、线性代数、积分、信号和图像处理等多个模块。通过SciPy,可以方便地执行各种科学计算任务。例如,计算高斯分布的PDF,需要结合NumPy使用。要安装SciPy,可以使用`pip install scipy`命令。这个库极大地丰富了Python在科学计算领域的应用。
11 1
|
6天前
|
存储 Python
用Python实现批量下载文件——代理ip排除万难
用Python实现批量下载文件——代理ip排除万难
|
6天前
|
JSON 关系型数据库 数据库
《Python 简易速速上手小册》第6章:Python 文件和数据持久化(2024 最新版)
《Python 简易速速上手小册》第6章:Python 文件和数据持久化(2024 最新版)
33 0
|
6天前
|
数据挖掘 索引 Python
Python 读写 Excel 文件
Python 读写 Excel 文件
11 0
|
6天前
|
数据安全/隐私保护 Python
Python文件与目录操作:面试中的高频考点
【4月更文挑战第15天】本文介绍了Python文件和目录操作的面试重点,包括文件的读写、目录遍历及权限管理。强调了文件关闭、异常处理、特殊文件判断以及权限位和权限字符串的理解。提供了代码示例,如读写文件、遍历目录和更改文件权限,帮助读者在面试中表现出色。掌握这些技能将对编程求职之路大有裨益。
17 0
|
6天前
|
数据可视化 数据挖掘 Python
Python中数据分析工具Matplotlib
【4月更文挑战第14天】Matplotlib是Python的数据可视化库,能生成多种图表,如折线图、柱状图等。以下是一个绘制简单折线图的代码示例: ```python import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [2, 4, 6, 8, 10] plt.figure() plt.plot(x, y) plt.title(&#39;简单折线图&#39;) plt.xlabel(&#39;X轴&#39;) plt.ylabel(&#39;Y轴&#39;) plt.show() ```
10 1
|
6天前
|
数据采集 SQL 数据可视化
Python数据分析工具Pandas
【4月更文挑战第14天】Pandas是Python的数据分析库,提供Series和DataFrame数据结构,用于高效处理标记数据。它支持从多种数据源加载数据,包括CSV、Excel和SQL。功能包括数据清洗(处理缺失值、异常值)、数据操作(切片、过滤、分组)、时间序列分析及与Matplotlib等库集成进行数据可视化。其高性能底层基于NumPy,适合大型数据集处理。通过加载数据、清洗、分析和可视化,Pandas简化了数据分析流程。广泛的学习资源使其成为数据分析初学者的理想选择。
12 1
|
8天前
|
存储 监控 开发工具
对象存储OSS产品常见问题之python sdk中的append_object方法支持追加上传xls文件如何解决
对象存储OSS是基于互联网的数据存储服务模式,让用户可以安全、可靠地存储大量非结构化数据,如图片、音频、视频、文档等任意类型文件,并通过简单的基于HTTP/HTTPS协议的RESTful API接口进行访问和管理。本帖梳理了用户在实际使用中可能遇到的各种常见问题,涵盖了基础操作、性能优化、安全设置、费用管理、数据备份与恢复、跨区域同步、API接口调用等多个方面。
38 9
|
12天前
|
测试技术 开发者 Python
Python中的装饰器:优雅而强大的函数修饰工具
在Python编程中,装饰器是一种强大的工具,用于修改函数或方法的行为。本文将深入探讨Python中装饰器的概念、用法和实际应用,以及如何利用装饰器实现代码的优雅和高效。

热门文章

最新文章