介绍
使用bedtools软件,根据bed文件(包含序列名称、位置信息),从总序列中提取序列
输入
总的序列文件(fasta格式)
例如
>scaffold1
GTACCAATAATAAAGTGAGCCCACCTTCCTGGTACCCAGACATTTCAGGAGGTCGGGAAA
>scaffold2
TGGAGTACCAATAATAAAGTGAGCCCACCTT
>scaffold3
CCTGGTACCCAGACATTTCGAGTACCAATAATAAAGTGA
>scaffold4
AAAAAAAAGCTACTTGGAGTACCAATAATAAA
bed文件
BED(Browser Extensible Data)文件格式常用来描述注释的数据。
有3个要求的列和9个额外列
1,chrom, 染色体或scafflold 的名字
2,chromStart 染色体和scaffold的起始位置,第一个染色体的位置是0
3,chromEn 染色体和scaffold的结束位置
其次9个额外的可选BED列是:
4,name 定义BED 的名字
5,score 0到1000的分值,如果track线在注释时属性设置为1,那么这个分值会决定现示灰度水平,数字越大,灰度越高。下面的这个表格显示Genome Browser
6,strand 定义链的''+” 或者”-”
7,thickStart 开始的位置,这个特征是画thickly
8,thickEnd 结束的位置,这个特征是画thickly
9,itemRGB An AGB 值的形式
10,blockCount BED线在exon 的block数目
11,blockSize 用逗号分割block size
12,blockStarts-
结果
提取出的序列文件