反馈咨询
欢迎添加微信!
微信号:z_gqing
微信二维码:

介绍

使用gffread软件,根据gtf文件(包含序列名称、位置信息),从总序列中提取序列

输入

总的序列文件(fasta格式) 例如 >scaffold1 GTACCAATAATAAAGTGAGCCCACCTTCCTGGTACCCAGACATTTCAGGAGGTCGGGAAA >scaffold2 TGGAGTACCAATAATAAAGTGAGCCCACCTT >scaffold3 CCTGGTACCCAGACATTTCGAGTACCAATAATAAAGTGA >scaffold4 AAAAAAAAGCTACTTGGAGTACCAATAATAAA gtf文件 GTF全称Gene transfer format, 每列的含义如下 1. column1 第一列是seqid, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。 2. column2 第二列是source, 代表基因结构的来源,可以为空,用.点号填充。 3. column3 第三列是feature, 代表区间对应的特征类型, 4. column4 第四列是start, 代表区间的起始位置 5. column5 第五列是end, 代表区间的终止位置 6. column6 第六列是score, 软件提供了统计值,如果没有,就用.填充 7. column7 第七列是strand, 代表正负链的信息, +表示正链,-表示负链,?表示不清楚正负链的信息。没有可以用.填充 8. column8 第八列是phase,当描述的是CDS区间信息时,需要指定翻译时开始的位置,取值范围有0,1,2两种 9. column9 第九列是attributes, 表示属性,每种属性写法为key value, 注意和gff中key=value有所区别,而且必须有gene_id和transcript_id这两个属性, 多个属性用分号分隔

结果

提取出的序列文件
生信通明 木牛零码 NGplot Newmer生信 公司产品
Copyright © 2021-2024 上海牛马人生物科技有限公司 沪ICP备 2022007390号-2