开发者社区> 问答> 正文

并发读取大文件

我正在创建一个python管道来处理非常大的二进制文件(即50+ GB)。它们是BAM文件,一种用于表示基因组的格式。我的脚本目前受到两个计算量很大的子进程调用的瓶颈。

这两个命令占用了每次运行管道的约80%的计算时间,因此我需要找到一种方法来加速这个过程。他们从同一个文件中读取数据。我想知道最好的路线,以提高效率。基本上,是否有一种特殊的并发风格才能发挥最佳作用?或者还有其他一些有趣的方法吗?

命令:

subprocess.call('samtools view -b -f 68 {}> {} _ unmapped_one.bam'.format(self.file_path,self.file_prefix),shell = True)

subprocess.call('samtools view -b -f 132 {}> {} _unmapped_two.bam'.format(self.file_path,self.file_prefix),shell = True)

展开
收起
一码平川MACHEL 2019-01-23 16:57:33 3723 0
1 条回答
写回答
取消 提交回答
  • 对于您所描述的内容以及您共享的代码,我可以考虑几种提高性能的方法。

    您正在程序的shell中生成子进程来处理文件,这种方法会根据运行程序的硬件而有所不同,如果这是一个多处理器环境,它可能是一个很好的方法。
    考虑使用包含低级hstlib API 的pysam库
    根据您开发的应用程序流程,您可以通过使用asyncio扩展并发活动来显着提高性能。Brad Salomon 最近的一篇文章简要介绍了多处理和多线程以及深度潜入asyncio的好处。
    如果你最终使用ASYNCIO基于UNIX系统上,我还建议在寻找uvloop它包装libuv作为一个事件循环

    2019-07-17 23:26:45
    赞同 展开评论 打赏
问答分类:
问答地址:
相关产品:
问答排行榜
最热
最新

相关电子书

更多
用户态高速块缓存方案 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载