NewMer-帮助文档

1. refdb

2. fastqc测序原始数据

介绍

FastQC软件用于二代测序数据质量的评估，能快速对测序数据进行检测，并生成详细的质量评估报告

输入

fastq文件夹：文件夹下fastq文件的格式，要以fq或fastq或fastq.gz为后缀。将对fastq文件下以这些为后缀的文件数据做质量评估

结果

1.对整个测序文件中的读长数据进行质量评估（二代测序，在每一个读长末端出现质量评分一定程度的降低是正常现象） 2.统计每个序列质量评分 3.序列碱基含量 4.序列GC含量 5.碱基N含量

3. fastp质控

介绍

fastp A tool designed to provide fast all-in-one preprocessing for FastQ files. This tool is developed in C++ with multithreading supported to afford high performance.

fastq文件格式

@NS500713:64:HFKJJBGXY:1:11101:1675:1101 1:N:0:TATAGCCT+GACCCCCA AAAAAAAAGCTACTTGGAGTACCAATAATAAAGTGAGCCCACCTTCCTGGTACCCAGACATTTCAGGAGGTCGGGAAA + 6AAAAAEEEEE/E/EA/E/AEA6EE//AEE66/AAE//EEE/E//E/AA/EEE/A/AEE/EEA//EEEEEEEE6EEAA

常用参数

qualified_quality_phred the quality value that a base is qualified. Default 15 means phred quality >=Q15 is qualified. (int [=15]) length_required reads shorter than length_required will be discarded, default is 15. (int [=15]) n_base_limit if one read's number of N base is >n_base_limit, then this read/pair is discarded. Default is 5 (int [=5]) cut_mean_quality the mean quality requirement option shared by cut_front, cut_tail or cut_sliding. Range: 1~36 default: 20 (Q20) (int [=20]) cut_window_size the window size option shared by cut_front, cut_tail or cut_sliding. Range: 1~1000, default: 4 (int [=4]) cut_front move a sliding window from front (5') to tail, drop the bases in the window if its mean quality <span><</span> threshold, stop otherwise. cut_tail move a sliding window from tail (3') to front, drop the bases in the window if its mean quality <span><</span> threshold, stop otherwise.

结果

1.质控的fastq序列文件 2.质控统计文件*.json 或*.html

在文献中引用

Shifu Chen, Yanqing Zhou, Yaru Chen, Jia Gu; fastp: an ultra-fast all-in-one FASTQ preprocessor, Bioinformatics, Volume 34, Issue 17, 1 September 2018, Pages i884–i890, https://doi.org/10.1093/bioinformatics/bty560

4. hisat2建索引

介绍

Hisat2是一款短序列比对的工具,主要用于转录组数据的比对。比对之前需对参考序列构建索引。

输入

序列文件 >seqname AAAAAAAAGCTACTTGGAGTACCAATAATAAAGTGAGCCCACCTTCCTGGTACCCAGACATTTC

结果

索引文件，用于后续比对分析

5. hisat2比对索引

介绍

Hisat2是一款短序列比对的工具,主要用于转录组数据的比对。 hisat2-build建好索引之后，输入reads进行比对。

输入

序列索引路径： hisat2-build建好索引路径 fq1文件：左端reads的fastq数据格式例如， @A00151:255:HNMLKDSXY:4:1101:8314:7467 1:N:0:TGAGGC GTCACGCCGTCTCCTCATCTCGGCTCTCTCACCATGCAGTGGTCGAGGGCCGCGCTTTCTTACACCCGGGGAGAGGGGATTCCGGGCGGCGGGGTGCCCGGGACGAGGGAGGCCGGTGCCGCCGCGTTGCCGGCCGCGGGACGCGGTTGCC + FFFFFFFFFFFFF,:,FFFFFFFFFF:FFFFFFFF,FF:F,,FFFFFF,FFF::FF,:FF::F,FF,,FFFFF,,::FFFFFFFFFFFF::FFFFFFF:FF:FFFFF:FFFFFF::FF:FFFF:FFFFF:F:FFFFF,:,:F,FFFF,,:F fq2文件：右端reads的fastq数据格式例如， @A00151:255:HNMLKDSXY:4:1101:8314:7467 2:N:0:TGAGGC GGACGTCCCCATGGAGCTCCTGAGCTTACGCAGCGCCGCACGGCAACCGCGTCCGGCGTCGGCAACCGCGTCCGGTGCCCAACCGCGTCCAACGGCCGGCAACCGCGTCCCGCGGCCGGCACCGCGGCGGCACCGGCCTCCCTCGTCCCGG + F::F:F:FFFF:FFFFFFFF:FFFFF:FFFFFFFFFF,FFFFF:FFFFFFF,:FF,FFFFFFFF,FFFFF:FF:F::FF,FF:F,FFFFFFF,F::FF,FFFFFFFFFFF,FFF:FF:FFF,FFFFFFFFFFFFF::FF:FF:FF:FFFF, 链特异性：包括无、FR、RF

结果

sam格式的比对结果

6. 测序饱和度

7. gff3 转bed格式

介绍

GFF3格式文件转BED格式文件。脚本根据各列的信息进行格式转换

输入

GFF3文件格式： GFF3文件除注释行，每行都有9列，列与列用tab键分割，值为空时使用“.”来填充 1. seqid - scaffold或者chromosome的名称说明 2. source - 产生一个序列元件的软件的名称或者数据源（数据库名称或者项目名称） 3. type - 序列元件的类型，例如：mRNA、CDS等等 4. start - 序列元件在scaffold或者chromosome上的起始位置，从1开始计数 5. end - 序列元件在scaffold或者chromosome上面的终止位置，从1开始计数 6. score - 该序列元件的打分，一般为该序列元件做比对时的E-value和ab initio gene prediction features时的P-value 7. strand - “+”代表该序列元件在scaffold或者chromosome的正链，反之亦反 8. phase - 可以为“0”、“1”、“2”，“0”代表该序列元件的第一个碱基为第一个密码子的第一个剪辑，“1”代表该序列元件的第二个碱基是第一个密码子的第一个碱基，依次类推。 9. attributes - 该序列元件的一些其他属性，可以有多个每个属性之间必须以“;”分割，例如“ID=some-id;Name=some-name;Parent=some-parent”，请注意这个Parent属性，由于序列元件是很复杂的，一个序列元件（例如：exon）可能属于另外一个序列元件（例如：gene），这个Parent属性的意思就是该序列元件在哪个序列元件上面，如果一个序列元件没有Parent属性，说明他的父元件就是scaffold或者chromosome

结果

BED文件 BED（Browser Extensible Data）文件格式常用来描述注释的数据。有3个要求的列和9个额外列 1,chrom, 染色体或scafflold 的名字 2,chromStart 染色体和scaffold的起始位置，第一个染色体的位置是0 3,chromEn 染色体和scaffold的结束位置其次9个额外的可选BED列是: 4,name 定义BED 的名字 5,score 0到1000的分值，如果track线在注释时属性设置为１，那么这个分值会决定现示灰度水平，数字越大，灰度越高。下面的这个表格显示Genome Browser 6,strand 定义链的''+” 或者”-” 7,thickStart 开始的位置，这个特征是画thickly 8,thickEnd 结束的位置，这个特征是画thickly　 9,itemRGB An AGB 值的形式 10,blockCount BED线在exon 的block数目 11,blockSize 用逗号分割block size 12,blockStarts-

8. 基因覆盖度分析

9. 染色体覆盖度分析

介绍

输入比对得到的bam，统计染色体的覆盖度

输入

bam文件

结果

染色体的覆盖度的统计文件

10. stringtie拼接

介绍

Stringtie是一个基因和转录本组装软件。

输入

bam文件： samtools排序后的bam文件参考基因组的gtf文件：用于指导组装其他参数使用程序的默认值。

结果

GTF文件：记录组装的转录本信息

11. 提取fasta序列(根据gtf文件)

介绍

使用gffread软件，根据gtf文件（包含序列名称、位置信息），从总序列中提取序列

输入

总的序列文件（fasta格式）例如 >scaffold1 GTACCAATAATAAAGTGAGCCCACCTTCCTGGTACCCAGACATTTCAGGAGGTCGGGAAA >scaffold2 TGGAGTACCAATAATAAAGTGAGCCCACCTT >scaffold3 CCTGGTACCCAGACATTTCGAGTACCAATAATAAAGTGA >scaffold4 AAAAAAAAGCTACTTGGAGTACCAATAATAAA gtf文件 GTF全称Gene transfer format, 每列的含义如下 1. column1 第一列是seqid, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。 2. column2 第二列是source, 代表基因结构的来源，可以为空，用.点号填充。 3. column3 第三列是feature, 代表区间对应的特征类型, 4. column4 第四列是start, 代表区间的起始位置 5. column5 第五列是end, 代表区间的终止位置 6. column6 第六列是score, 软件提供了统计值，如果没有，就用.填充 7. column7 第七列是strand, 代表正负链的信息, +表示正链，-表示负链，?表示不清楚正负链的信息。没有可以用.填充 8. column8 第八列是phase，当描述的是CDS区间信息时，需要指定翻译时开始的位置，取值范围有0,1,2两种 9. column9 第九列是attributes, 表示属性，每种属性写法为key value, 注意和gff中key=value有所区别，而且必须有gene_id和transcript_id这两个属性，多个属性用分号分隔

结果

提取出的序列文件

12. kallisto建索引

介绍

kallisto采用一种被称作伪比对(pseudoalignment)的方式直接将测序片段直接比对到cDNA序列然后定量在定量之前需要对参考序列构建索引。

输入

fasta文件：拼接组装后的fasta文件格式例如 >seqname1 AAAAAAAAGCTACTTGGAGTACCAATAATAAAGTGAGCCCACCTTCCTGGTACCCAGACATTTC >seqname2 GGAGTACCAATAATAAAGTGAGCCCACCTTCCTGGTACCCAGAC kmer： kmer长度值

结果

索引文件，用于后续定量分析

13. kallisto定量

介绍

kallisto采用一种被称作伪比对(pseudoalignment)的方式直接将测序片段直接比对到cDNA序列然后定量

输入

索引路径： kallisto构建的索引路径 fq1,fq2 文件：左右端reads数据，fastq格式

结果

abundance.tsv 结果文件例如 target_id length eff_length est_counts tpm TRINITY_DN1_c0_g1_i1 256 37.4003 5 9463.28 TRINITY_DN3_c0_g1_i1 298 62.2018 4 4552.01 TRINITY_DN5_c0_g1_i1 299 62.551 4.70209 5321.12 TRINITY_DN5_c0_g2_i1 260 39.7381 9.29791 16562.4