Rosalind工具库:寻找motif的MEMEsuite

简介: 在做数据分析时,有两种解决问题的策略,一种是自己写代码处理数据,一种是用开源在互联网的工具。 如果你代码写的贼流,并且嫌弃已有工具质量不够,那么在空闲的时候开源自己写一个。

在做数据分析时,有两种解决问题的策略,一种是自己写代码处理数据,一种是用开源在互联网的工具。 如果你代码写的贼流,并且嫌弃已有工具质量不够,那么在空闲的时候开源自己写一个。如果你对代码还不够熟练,或者是一个常规的数据分析任务,那么我建议你使用别人已经写好的工具,将这些工具进行组合处理大任务中的不同部分。
Rosalind兵工厂这一部分主要介绍了常见数据格式以及处理这些数据的工具。我建议先学会用轮子,在熟练使用后开始自己实现这些轮子的代码

New Motif Discovery

Motif(模体,基序)是一种序列模式,可以被转录因子识别结合,因此与转录调控有关。目前寻找motif的程序有两种方式表示结果,一种是正则表达式,一种是motif每个位置碱基的概率矩阵。在论文中最常见的表示方法就是sequence logo,每个位置的碱基大小表示这位置上出现该碱基的可能性

img_d532cdbce751e6308db77d4fa2c5e351.png
motif的图形化表示

寻找Motif目前的主流工具就是MEME Suite,他不是一种工具,而是一个套餐,将motif识别相关的可能工具都整合在了一起

img_200ee10d28cf65a8d0cd6bb7c0a9ff34.png
MEME suite

题目:根据已有的FASTA文件,识别其中相似的motif,长度不低于20. 结果请给出最佳得分motif的正则表达式。
解决方法: 尽管有一个网页版的工具meme可以使用,但是往往在出来结果前,时间就到了。所以最佳的方法就是安装本地版工具, 安装方法见http://meme-suite.org/doc/install.html

img_a9f6df9046b4ffba4b2ceeff2609dab4.png
时间到。。
~/opt/biosoft/meme_4.12.0/bin/meme rosalind_meme.txt -protein

查看"meme_out/meme.txt"里的结果,手动修改。。提交答案。。

img_c439772b0a9357a3df3259d3592b1aa4.png
motif

感觉有点纯。。可能要用一个正则

目录
相关文章
|
22天前
|
安全 Java Linux
Android反编译——jadx工具
Android反编译——jadx工具
27 1
|
6月前
|
虚拟化 Python Windows
[笔记]Volatility 取证工具使用以及Hollow插件使用
[笔记]Volatility 取证工具使用以及Hollow插件使用
|
8月前
|
数据采集 弹性计算 数据可视化
GWAS全基因组关联分析工具GAPIT最新版!详细安装教程与报错解决方案笔记(Linux版)
GWAS全基因组关联分析工具GAPIT最新版!详细安装教程与报错解决方案笔记(Linux版)
|
10月前
|
边缘计算 BI Go
Go开源库Excelize介绍,电子Excel表格操作强大的库
Go开源库Excelize介绍,电子Excel表格操作强大的库
|
11月前
|
数据处理
Graphpad Prism9.5.1 (含Win/Mac版) 科研医学生物数据处理绘图软件详细安装教程 亲测有效!!!
GraphPad Prism是一款非常专业强大的科研医学生物数据处理绘图软件,它可以将科学图形、综合曲线拟合(非线性回归)、可理解的统计数据、数据组织结合在一起,除了最基本的数据统计分析外,还能自动生成统计图。
Graphpad Prism9.5.1 (含Win/Mac版) 科研医学生物数据处理绘图软件详细安装教程  亲测有效!!!
|
存储 数据可视化 算法
【Python | Networks库详解】最佳实践(22年电工杯B题之路径可视化)
【Python | Networks库详解】最佳实践(22年电工杯B题之路径可视化)
【Python | Networks库详解】最佳实践(22年电工杯B题之路径可视化)
Rosalind工具库:FASTA/LALIGN
基因组不同区域在进化上的速率是不同的。在编码区的碱基突变可能会导致氨基酸性质发生改变导致后代死亡,以及插入缺失导致开放读码框(ORF)变化,因此编码区更有可能是同义的点突变。
896 0
|
数据安全/隐私保护 Python
Rosalind工具库:使用Biopython处理生物数据
DNA互补链 Complementing a Strand of DNA 根据Waston和Crick的双螺旋学说,DNA是存在两条链,并且根据A-T, C-G反向互补。
1305 0
|
Java
Rosalind工具库:使用Fastx-toolkit或trimmomatic进行质量控制
短读质量控制 Read Filtration by Quality 由于各种因素,测序过程中一定会存在着错误,要么读错,要么漏读、要读多了。解决这种错误可以从源头,也就是测序仪改进,也可以通过生物信息学的手段,将可能错误的序列过滤掉。
1433 0
Rosalind工具库:使用EMBOSS处理生物数据
序列全局联配:Pairwise Global Alignment 序列相似性意味着遗传的同源性是遗传和进化研究上的一个假说。 给定不完全相同的两个序列,如果允许错配和开口(gap)的话,会有无数多的联配(alignment)方式,为了找到最有可能的联...
1354 0