徐洲更 + 关注
生信媛公众号编辑、生信必修课之软件安装课程作者

「BioNano系列」那些Bionano未覆盖的区域是什么?

发布时间:2019-05-23 21:49:48 浏览:3667 评论 :1

在「Bionano系列」光学图谱混合组装应该怎么做?这篇文章中,我展示了下面这张图。 和之前的图不同的是,我加了几个箭头,这些箭头所指向的区域的特征就是,这些区域并未被Bionano所覆盖。如果不去思考这些区域到底是什么,直接进行混合组装,那么这其实对最后结果的不负责任。

windows 序列 基因组学 生物信息学 BioNano

「BioNano系列」如何"从头组装"出一个Bionano图谱

发布时间:2019-05-23 21:47:29 浏览:3134 评论 :0

官方并没有一个很详细的文档描述Bionano的从头组装流程的具体过程,所以我只能根据自己实际项目进行介绍: AutoNoise + SplitBNX: 这一步会将bnx和参考的cmap文件进行比对,估算出噪声系数,然后把bnx进行拆分便与后续比对 Pairwse: 这一步进行molecules...

pipeline 基因组学 生物信息学 BioNano

「BioNano系列」下机原始数据过滤和评估

发布时间:2019-05-23 21:46:57 浏览:1864 评论 :0

从这部分开始,就开始涉及一些软件的操作和数据分析,因此在进入正文之前,我们需要准备好环境。 环境准备 第一步:从 https://bionanogenomics.com/library/datasets/下载人类测试数据集,以及对应的NA12878人类基因组。

脚本 pipeline Bash 基因组学 生物信息学 BioNano

常用命令: sort学习笔记

发布时间:2019-05-23 21:44:45 浏览:2724 评论 :0

本文的sort命令是GNU版本(8.22), 和BSD的sort不同 sort是我最常用Linux命令之一,它的功能就是排序,一般后面还会和uniq搭配,对数据进行去重。 下面的操作假设你有一个文件,叫做chr.

linux shell 排序 Bash

如何在shell脚本中控制任务投递

发布时间:2019-05-23 21:44:21 浏览:260 评论 :0

如果只有一个样本,或者样本量不大的情况下,我会选择一次性投递所有的任务。但是如果有100个以上的样本,那我就得谨慎考虑。 用 snakemake 很好解决这个问题,它会按照你给定的任务数和CPU数,确定每次投递多少任务。

linux gzip shell 脚本 read Bash

HaploMerger2: 从高杂合二倍体基因组组装中重建单倍型

发布时间:2019-05-23 21:43:07 浏览:424 评论 :0

本文只是按照自己的需求翻译了HaploMerger2提供的手册部分内容。HaploMerger2的帮助文档写的非常好,一定要花点时间去读啊! HaploMerger2的分析流程如下 重建单倍体组装中的等位基因关系 检测并纠正二倍体组装中的错连(mis-join) 重建2个单倍型组装 进一步对单倍...

脚本 序列 Bash 基因组组装

ChIPseeker的upsetplot是怎么写的

发布时间:2019-05-23 21:42:25 浏览:330 评论 :0

都靠时间的积累

函数 BY 数据结构 R语言可视化

使用ALLMAPS进行辅助组装得到准染色体水平基因组

发布时间:2018-12-09 21:16:34 浏览:1057 评论 :0

python 排序 test Bash 基因组学

使用Trinity进行转录组组装

发布时间:2018-10-23 22:42:38 浏览:1389 评论 :0

云栖社区 序列 Bash

使用docker在CentOS7上搭建WordPress

发布时间:2018-10-23 22:41:51 浏览:2218 评论 :0

linux php docker 服务器 mysql WordPress 配置 镜像 容器 Bash 端口映射

R和Rstudio的几个中文相关报错解决方案

发布时间:2018-10-09 22:37:00 浏览:1859 评论 :0

果子老师做了一个非常详细的新手入门R语言的安装策略,叫做新手第1课,无敌无脑的R语言环境配置教程。基本上,你只要照着他的说的做,一字一句的阅读他的文档里的内容(注意,一定要一字一句),基本上R语言就能顺利用起来了。

配置 解决方案 file

使用purge_haplogs处理基因组杂合区域

发布时间:2018-10-07 16:24:00 浏览:1086 评论 :0

基因组某些区域可能有着比较高的杂合度,这会导致基因组该区域的两个单倍型被分别组装成primary contig, 而不是一个为primary contig, 另一个是associated haplotig. 如果下游分析主要关注于单倍型,这就会导致一些问题。

wget

使用Pilon对基因组进行polish

发布时间:2018-10-04 20:16:00 浏览:1279 评论 :0

软件安装 官方提供了编译好的jar包,方便使用 wget https://github.com/broadinstitute/pilon/releases/download/v1.22/pilon-1.22.jar java -Xmx16G -jar pilon-1.22.jar 如果要顺利运行程序,要求JAVA > 1.7, 以及根据基因组大小而定的内存,一般而言是1M大小的基因对应1GB的内存。

index read github

都8102年了,还用fastq-dump,快换fasterq-dump吧

发布时间:2018-10-04 19:24:00 浏览:1578 评论 :0

之前写过一篇文章Fastq-dump: 一个神奇的软件, 详细介绍了fastq-dump的用法。 虽然fastq-dump参数很多,而且一直被吐槽参数说明写的太差,但是如果真的要用起来其实也就是一行代码 fastq-dump --gzip --split-3 --defline-qual '+' --defline-seq '@$ac-$si/$ri' SRRXXXXX| SRRXXXX.sra # 加上--gzip后需要时间进行文件压缩 当然除了参数问题,还有一个让人诟病的地方就是他只能单个线程,所以速度特别的慢。

gzip 线程 脚本 多线程 CPU

读源码学C之阅读李恒的bioawk

发布时间:2018-10-01 21:46:00 浏览:537 评论 :0

目前尚没有能力直接去阅读htslib的源代码,看到bioawk的代码稍微简单点,因此准备先从这里下手,bioawk的项目地址为https://github.com/lh3/bioawk。

函数 源码 string 数组

Rosalind: 兔子与递归

发布时间:2018-09-30 21:22:00 浏览:569 评论 :0

问题描述 序列 指的是一组对象的集合,其中允许重复。序列分为有限序列和无限序列两种类型,我们通常用 表示序列中的第n个对象。 递归其实就是当前的序列依赖于之前的序列。

算法 序列

使用新版Falcon进行三代测序基因组组装

发布时间:2018-09-30 15:10:00 浏览:1021 评论 :0

这里的新版指的是PacBio公司在2018年9月发布pb-assembly, 而这篇文章是在2018年9月30日发的。 今年早些时候在参加三代培训时,听说PacBio会在今年对Falcon进行一些改变。

性能优化 配置 序列 input

JBrowse使用说明:参考基因组准备

发布时间:2018-09-29 10:51:00 浏览:616 评论 :0

准备参考序列 注意:这一步必须在后续步骤之前运行。 通常,我们需要准备一个物种的基因组fasta文件,当然RNA和protein都是没有问题。通过prepare-refseqs.pl格式化生成的track,这为后续所有文件提供一个坐标,一直放大后参考序列的碱基也会显示出来。

Annotation 序列 file html

15