介绍
使用gffread软件,根据gtf文件(包含序列名称、位置信息),从总序列中提取序列
输入
总的序列文件(fasta格式)
例如
>scaffold1
GTACCAATAATAAAGTGAGCCCACCTTCCTGGTACCCAGACATTTCAGGAGGTCGGGAAA
>scaffold2
TGGAGTACCAATAATAAAGTGAGCCCACCTT
>scaffold3
CCTGGTACCCAGACATTTCGAGTACCAATAATAAAGTGA
>scaffold4
AAAAAAAAGCTACTTGGAGTACCAATAATAAA
gtf文件
GTF全称Gene transfer format, 每列的含义如下
1. column1
第一列是seqid, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。
2. column2
第二列是source, 代表基因结构的来源,可以为空,用.点号填充。
3. column3
第三列是feature, 代表区间对应的特征类型,
4. column4
第四列是start, 代表区间的起始位置
5. column5
第五列是end, 代表区间的终止位置
6. column6
第六列是score, 软件提供了统计值,如果没有,就用.填充
7. column7
第七列是strand, 代表正负链的信息, +表示正链,-表示负链,?表示不清楚正负链的信息。没有可以用.填充
8. column8
第八列是phase,当描述的是CDS区间信息时,需要指定翻译时开始的位置,取值范围有0,1,2两种
9. column9
第九列是attributes, 表示属性,每种属性写法为key value, 注意和gff中key=value有所区别,而且必须有gene_id和transcript_id这两个属性, 多个属性用分号分隔
结果
提取出的序列文件