NewMer-帮助文档

介绍

使用gffread软件，根据gtf文件（包含序列名称、位置信息），从总序列中提取序列

输入

总的序列文件（fasta格式）例如 >scaffold1 GTACCAATAATAAAGTGAGCCCACCTTCCTGGTACCCAGACATTTCAGGAGGTCGGGAAA >scaffold2 TGGAGTACCAATAATAAAGTGAGCCCACCTT >scaffold3 CCTGGTACCCAGACATTTCGAGTACCAATAATAAAGTGA >scaffold4 AAAAAAAAGCTACTTGGAGTACCAATAATAAA gtf文件 GTF全称Gene transfer format, 每列的含义如下 1. column1 第一列是seqid, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。 2. column2 第二列是source, 代表基因结构的来源，可以为空，用.点号填充。 3. column3 第三列是feature, 代表区间对应的特征类型, 4. column4 第四列是start, 代表区间的起始位置 5. column5 第五列是end, 代表区间的终止位置 6. column6 第六列是score, 软件提供了统计值，如果没有，就用.填充 7. column7 第七列是strand, 代表正负链的信息, +表示正链，-表示负链，?表示不清楚正负链的信息。没有可以用.填充 8. column8 第八列是phase，当描述的是CDS区间信息时，需要指定翻译时开始的位置，取值范围有0,1,2两种 9. column9 第九列是attributes, 表示属性，每种属性写法为key value, 注意和gff中key=value有所区别，而且必须有gene_id和transcript_id这两个属性，多个属性用分号分隔

结果

提取出的序列文件

通明学练数据挖掘 NGplot绘图 NewMer生信首页

关注我们获取最新动态和更多干货内容

微信公众号：NewMer生信小红书号：NewMer B站：Newmer生信抖音：NewMer生信知乎：NewMer生信客服微信号：z_gqing

木牛零码

木牛零码

介绍

输入

结果