介绍
GFF3格式文件转BED格式文件。脚本根据各列的信息进行格式转换
输入
GFF3文件
格式:
GFF3文件除注释行,每行都有9列,列与列用tab键分割,值为空时使用“.”来填充
1. seqid - scaffold或者chromosome的名称说明
2. source - 产生一个序列元件的软件的名称或者数据源(数据库名称或者项目名称)
3. type - 序列元件的类型,例如:mRNA、CDS等等
4. start - 序列元件在scaffold或者chromosome上的起始位置,从1开始计数
5. end - 序列元件在scaffold或者chromosome上面的终止位置,从1开始计数
6. score - 该序列元件的打分,一般为该序列元件做比对时的E-value和ab initio gene prediction features时的P-value
7. strand - “+”代表该序列元件在scaffold或者chromosome的正链,反之亦反
8. phase - 可以为“0”、“1”、“2”,“0”代表该序列元件的第一个碱基为第一个密码子的第一个剪辑,“1”代表该序列元件的第二个碱基是第一个密码子 的第一个碱基,依次类推。
9. attributes - 该序列元件的一些其他属性,可以有多个每个属性之间必须以“;”分割,例如“ID=some-id;Name=some-name;Parent=some-parent”,请注意这个Parent属性,由于序列元件是很复杂的,一个序列元件(例如:exon)可能属于另外一个序列元件(例如:gene),这个Parent属性的意思就是该序列元件在哪个序列元件上面,如果一个序列元件没有Parent属性,说明他的父元件就是scaffold或者chromosome
结果
BED文件
BED(Browser Extensible Data)文件格式常用来描述注释的数据。
有3个要求的列和9个额外列
1,chrom, 染色体或scafflold 的名字
2,chromStart 染色体和scaffold的起始位置,第一个染色体的位置是0
3,chromEn 染色体和scaffold的结束位置
其次9个额外的可选BED列是:
4,name 定义BED 的名字
5,score 0到1000的分值,如果track线在注释时属性设置为1,那么这个分值会决定现示灰度水平,数字越大,灰度越高。下面的这个表格显示Genome Browser
6,strand 定义链的''+” 或者”-”
7,thickStart 开始的位置,这个特征是画thickly
8,thickEnd 结束的位置,这个特征是画thickly
9,itemRGB An AGB 值的形式
10,blockCount BED线在exon 的block数目
11,blockSize 用逗号分割block size
12,blockStarts-