每日文献: 2018-01-16

简介: Nature Genetics:水稻泛基因组研究方法解读原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice原文地址: https://www.nature.com/articles/s41588-018-0041-z由于目前课题和自然变异关系比较大,所以解读一下这篇文章在深度测序(约等于100X)组装66个水稻品种后是如何寻找变异,以及如何验证这些变异的质量。

Nature Genetics:水稻泛基因组研究方法解读

原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice
原文地址: https://www.nature.com/articles/s41588-018-0041-z

由于目前课题和自然变异关系比较大,所以解读一下这篇文章在深度测序(约等于100X)组装66个水稻品种后是如何寻找变异,以及如何验证这些变异的质量。

常规的高通量测序比对是利用100bp的短读序列,因此如果参考物种的基因组本身就不包含某些基因,那么这些100bp短读序列要么是没有比对,要么是比对到错误的地方,所以这些高度多态区域就不可避免在后续的分析中丢失了。文章就先对按照如下套路,对水稻物种内多个具有代表性物种的基因组深度测序并组装。

img_3f41094d8507c2191dd7f70a49243df5.png
基因组组装流程

并且还通过BAC文库对其中一个物种进行高质量组装,验证方法的可行性

img_d134d51cd3a07a369ded4b9accac1ca5.png
基于BAC文库验证

变异识别

这些组装好的contig通过MUMmer锚定到水稻参考基因组序列上(IRGSP build 4 version). MUMmer能够返回contig和参考基因组的一对一的区块信息(one-to-one blocks), 之后根据该信息,使用EMBOSSdiffseq -wordisze 10寻找变异。这样子就能找到SV(结构变异,大于20bp,小于12kb)。基于联配信息找到66个水稻品种分别的基因型信息,即参考基因组的序列是啥,与之不同的变异是啥。根据RAP-DB的GFF文件(release 2).)预测潜在效应。

这些变异中有些研究比较好,注释信息比较可靠,有些则是位于基于预测的基因编码区中,于是作者仅使用那些比较可靠的变异,利用ClustalW和BLASTN进行单倍型分析(haplotype analyses)。

此外,还用bowtie2SAMTools pileup将原始数据比对各自的组装序列上得到pileup结果文件。低质量SNP和small indels用varFilter -D200和Mapping qulity >= 30

得到变异信息后,可以先看这些变异位点的次要等位基因(minor allele )的数量和频率的关系,以及在编码区和非编码区的情况。

img_89aeb4ff178a38468e29b396d5393efe.png
Whole-genome variants from 66 representative rice genomes

再看看低质量变异的比率

img_a80aeac193ff0ee4a1cdf82dda167000.png
The proportion of sequence variants from the low quality sites in 66 rice genomes

还可以选择已知的非常有意义的基因序列看看多态性

img_7296c9d9823de491fd86002321ff313d.png
多态性分析
目录
相关文章
每日文献:2018-02-27
如何使用高通量测序检测T-DNA插入 之前拿到了一批混池测序的数据,师兄除了让我帮他找一个突变位点,还让我顺便检查下基因组上的T-DNA插入。我去查了一下相关资料,已经有人那么干了,这里简要说明一下步骤。
943 0
每日文献:2018-02-24
自然选择的分子印迹(精读第三天) 由于最近不知不觉开始涉及群体遗传学,所以准备精读(其实就是原文翻译)一篇review尽力去了解这个我陌生的领域。文章原标题为Molecular Signatures of Natural Selection, 作者Rasmus Nielsen。
995 0
|
自然语言处理
每日文献:2018-02-23
自然选择的分子印迹(精读第二天) 由于最近不知不觉开始涉及群体遗传学,所以准备精读(其实就是原文翻译)一篇review尽力去了解这个我陌生的领域。文章原标题为Molecular Signatures of Natural Selection, 作者Rasmus Nielsen。
841 0
每日文献:2018-02-20
自然选择的分子印迹(精读第一天) 由于最近不知不觉开始涉及群体遗传学,所以准备精读(其实就是原文翻译)一篇review尽力去了解这个我陌生的领域。文章原标题为Molecular Signatures of Natural Selection, 作者Rasmus Nielsen。
695 0
|
Perl
每日文献:2018-01-29
原文标题:hppRNA—a Snakemake-based handy parameter-free pipeline for RNA-Seq analysis of numerous samples 原文地址: https://academic.
986 0
每日文献:2018-01-25
原文标题:APAtrap: identification and quantification of alternative polyadenylation sites from RNA-seq data 工具网址:https://sourceforge.net/projects/apatrap/ 可变多聚腺苷酸 (APA)逐渐地被认为在转录组多样性和基因表达调控中起到重要的作用。
904 0
|
数据库
每日文献:2018-01-24
Nature Genetics:水稻泛基因组文章继续解读 原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice 原文地址: https://www.nature.com/articles/s41588-018-0041-z 今天要读部分是我看到这篇文章才接触到的一个概念基因的PAV(presence-absence variation)突变, 也是这篇文章对66个物种深度测序组装contig的主要用途。
1084 0
每日文献:2018-01-23
Nature Genetics:水稻泛基因组文章继续解读 原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice 原文地址: https://www.nature.com/articles/s41588-018-0041-z 今天看的部分是【Identification of functionally diverse alleles】,也就是找到功能变化等位基因。
848 0
每日文献:2018-01-22
植物基因组的同线性和共线性 原文题目:Synteny and Collinearity in Plant Genomes 先明确两个概念,虽然synteny和collineraity翻译之后都有线性,但是要注意两者的联系和区别: 同线性(syn...
883 0
每日文献:2018-01-19
Nature Genetics:水稻泛基因组文章继续解读 原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice 原文地址: https://www.nature.com/articles/s41588-018-0041-z 在组装完66个品系水稻的contig后,也找到了变异信息如SNP/InDel, SV等,下面的工作就是从各种角度对这些变异信息继续解读。
905 0