介绍
soap2,用于短序列比对。是soap的升级版,提高了短序列比对的运行速度和精度,同时支持不同长度的读长
输入
序列数据库索引: 2bwt-builder对fa文件建立的索引路径
reads fq1 : 左端的reads文件路径
reads fq2 : 右端的reads文件路径
-r : 比对到多个位置的序列如何输出,1-不输出,2-任意输出一次,3-全部输出。全部输出的时候,同一条reads会有多个记录
-l : 长reads的时候使用。从5‘端取指定长度碱基作为种子先比对,如果能比上再比对全长的reads
-M : 匹配选取方式,0,只取完全匹配的;1,取1个错配的;2,取2个错配的;4 取最佳的
-v : 一条read允许的错配数量,默认是5
-x : 最大插入片段 ,single-end不需要。默认是600
-m : 最小插入片段,single-end不需要。 默认是400
结果
*.pe 结果文件
格式例如
I333_2_FC30JNFAAXX:7:1:3:1635/2 CTCAGCTCACCTCTCACATCTCAAGAACAGCCCATTTGATGCTG hhhH;h^hBg\PhhcQhMhhZdQAO\UZQSQL_LUQX\MW`OaP 1 b 44 +scaffold5000 16591 1 A->11T16 44M 11A32
从左到右
1. 编号: read 的编号
2. read的序列.如果read比对上参考序列的负链,会被反向互补为正链
3. 质量值:序列的质量值,和序列顺序一致,如果read反向互补,质量值也会随着改变
4. 比对上的次数: 最优比对的次数。没有比对上的read将被忽略
5. a/b:pair-end比对的标记, 表示read属于来自哪个文件
6. 长度: read长度,如果是容缺失的比对,长度将是加上缺失片断的长度
7. +/-: 比对上参考序列的正链或负链
8. 染色体名称:参考序列的染色体名称
9. 位点:第一个碱基在染色体上的位置,从1开始
10. 错配的个数
11. 错配的详细信息("A->11T16" 意思是一个错配,在参考序列的位置是第11个(从0开始),在参考序列上是A,rea上是T,质量值是16)
12. 比对上的数目 ("44M" 意思是44个碱基比对上了)
13. 对比的细节 ("11A32"意思是前1个比对上了,第11个是错配(从0开始),后面32个还是比对上了)
参考链接:https://blog.csdn.net/u014182497/article/details/51604867