1. refdb
2. fastqc测序原始数据
介绍
FastQC软件用于二代测序数据质量的评估,能快速对测序数据进行检测,并生成详细的质量评估报告
输入
fastq文件夹:
文件夹下fastq文件的格式,要以fq或fastq或fastq.gz为后缀。将对fastq文件下以这些为后缀的文件
数据做质量评估
结果
1.对整个测序文件中的读长数据进行质量评估
(二代测序,在每一个读长末端出现质量评分一定程度的降低是正常现象)
2.统计每个序列质量评分
3.序列碱基含量
4.序列GC含量
5.碱基N含量
3. fastp质控
介绍
fastp
A tool designed to provide fast all-in-one preprocessing for FastQ files. This tool is developed in C++ with multithreading supported to afford high performance.
fastq文件格式
@NS500713:64:HFKJJBGXY:1:11101:1675:1101 1:N:0:TATAGCCT+GACCCCCA
AAAAAAAAGCTACTTGGAGTACCAATAATAAAGTGAGCCCACCTTCCTGGTACCCAGACATTTCAGGAGGTCGGGAAA
+
6AAAAAEEEEE/E/EA/E/AEA6EE//AEE66/AAE//EEE/E//E/AA/EEE/A/AEE/EEA//EEEEEEEE6EEAA
常用参数
qualified_quality_phred the quality value that a base is qualified. Default 15 means phred quality >=Q15 is qualified. (int [=15])
length_required reads shorter than length_required will be discarded, default is 15. (int [=15])
n_base_limit if one read's number of N base is >n_base_limit, then this read/pair is discarded. Default is 5 (int [=5])
cut_mean_quality the mean quality requirement option shared by cut_front, cut_tail or cut_sliding. Range: 1~36 default: 20 (Q20) (int [=20])
cut_window_size the window size option shared by cut_front, cut_tail or cut_sliding. Range: 1~1000, default: 4 (int [=4])
cut_front move a sliding window from front (5') to tail, drop the bases in the window if its mean quality <span><</span> threshold, stop otherwise.
cut_tail move a sliding window from tail (3') to front, drop the bases in the window if its mean quality <span><</span> threshold, stop otherwise.
结果
1.质控的fastq序列文件
2.质控统计文件*.json 或*.html
在文献中引用
Shifu Chen, Yanqing Zhou, Yaru Chen, Jia Gu; fastp: an ultra-fast all-in-one FASTQ preprocessor, Bioinformatics, Volume 34, Issue 17, 1 September 2018, Pages
i884–i890, https://doi.org/10.1093/bioinformatics/bty560
4. hisat2建索引
介绍
Hisat2是一款短序列比对的工具,主要用于转录组数据的比对。比对之前需对参考序列构建索引。
输入
序列文件
>seqname
AAAAAAAAGCTACTTGGAGTACCAATAATAAAGTGAGCCCACCTTCCTGGTACCCAGACATTTC
结果
索引文件,用于后续比对分析
5. hisat2比对索引
介绍
Hisat2是一款短序列比对的工具,主要用于转录组数据的比对。
hisat2-build建好索引之后,输入reads进行比对。
输入
序列索引路径: hisat2-build建好索引路径
fq1文件:左端reads的fastq数据
格式例如,
@A00151:255:HNMLKDSXY:4:1101:8314:7467 1:N:0:TGAGGC
GTCACGCCGTCTCCTCATCTCGGCTCTCTCACCATGCAGTGGTCGAGGGCCGCGCTTTCTTACACCCGGGGAGAGGGGATTCCGGGCGGCGGGGTGCCCGGGACGAGGGAGGCCGGTGCCGCCGCGTTGCCGGCCGCGGGACGCGGTTGCC
+
FFFFFFFFFFFFF,:,FFFFFFFFFF:FFFFFFFF,FF:F,,FFFFFF,FFF::FF,:FF::F,FF,,FFFFF,,::FFFFFFFFFFFF::FFFFFFF:FF:FFFFF:FFFFFF::FF:FFFF:FFFFF:F:FFFFF,:,:F,FFFF,,:F
fq2文件:右端reads的fastq数据
格式例如,
@A00151:255:HNMLKDSXY:4:1101:8314:7467 2:N:0:TGAGGC
GGACGTCCCCATGGAGCTCCTGAGCTTACGCAGCGCCGCACGGCAACCGCGTCCGGCGTCGGCAACCGCGTCCGGTGCCCAACCGCGTCCAACGGCCGGCAACCGCGTCCCGCGGCCGGCACCGCGGCGGCACCGGCCTCCCTCGTCCCGG
+
F::F:F:FFFF:FFFFFFFF:FFFFF:FFFFFFFFFF,FFFFF:FFFFFFF,:FF,FFFFFFFF,FFFFF:FF:F::FF,FF:F,FFFFFFF,F::FF,FFFFFFFFFFF,FFF:FF:FFF,FFFFFFFFFFFFF::FF:FF:FF:FFFF,
链特异性: 包括无、FR、RF
结果
sam格式的比对结果
6. 测序饱和度
7. gff3 转bed格式
介绍
GFF3格式文件转BED格式文件。脚本根据各列的信息进行格式转换
输入
GFF3文件
格式:
GFF3文件除注释行,每行都有9列,列与列用tab键分割,值为空时使用“.”来填充
1. seqid - scaffold或者chromosome的名称说明
2. source - 产生一个序列元件的软件的名称或者数据源(数据库名称或者项目名称)
3. type - 序列元件的类型,例如:mRNA、CDS等等
4. start - 序列元件在scaffold或者chromosome上的起始位置,从1开始计数
5. end - 序列元件在scaffold或者chromosome上面的终止位置,从1开始计数
6. score - 该序列元件的打分,一般为该序列元件做比对时的E-value和ab initio gene prediction features时的P-value
7. strand - “+”代表该序列元件在scaffold或者chromosome的正链,反之亦反
8. phase - 可以为“0”、“1”、“2”,“0”代表该序列元件的第一个碱基为第一个密码子的第一个剪辑,“1”代表该序列元件的第二个碱基是第一个密码子 的第一个碱基,依次类推。
9. attributes - 该序列元件的一些其他属性,可以有多个每个属性之间必须以“;”分割,例如“ID=some-id;Name=some-name;Parent=some-parent”,请注意这个Parent属性,由于序列元件是很复杂的,一个序列元件(例如:exon)可能属于另外一个序列元件(例如:gene),这个Parent属性的意思就是该序列元件在哪个序列元件上面,如果一个序列元件没有Parent属性,说明他的父元件就是scaffold或者chromosome
结果
BED文件
BED(Browser Extensible Data)文件格式常用来描述注释的数据。
有3个要求的列和9个额外列
1,chrom, 染色体或scafflold 的名字
2,chromStart 染色体和scaffold的起始位置,第一个染色体的位置是0
3,chromEn 染色体和scaffold的结束位置
其次9个额外的可选BED列是:
4,name 定义BED 的名字
5,score 0到1000的分值,如果track线在注释时属性设置为1,那么这个分值会决定现示灰度水平,数字越大,灰度越高。下面的这个表格显示Genome Browser
6,strand 定义链的''+” 或者”-”
7,thickStart 开始的位置,这个特征是画thickly
8,thickEnd 结束的位置,这个特征是画thickly
9,itemRGB An AGB 值的形式
10,blockCount BED线在exon 的block数目
11,blockSize 用逗号分割block size
12,blockStarts-
8. 基因覆盖度分析
9. 染色体覆盖度分析
介绍
输入比对得到的bam,统计染色体的覆盖度
输入
bam文件
结果
染色体的覆盖度的统计文件
10. stringtie拼接
介绍
Stringtie是一个基因和转录本组装软件。
输入
bam文件:
samtools排序后的bam文件
参考基因组的gtf文件:
用于指导组装
其他参数使用程序的默认值。
结果
GTF文件: 记录组装的转录本信息
11. 提取fasta序列(根据gtf文件)
介绍
使用gffread软件,根据gtf文件(包含序列名称、位置信息),从总序列中提取序列
输入
总的序列文件(fasta格式)
例如
>scaffold1
GTACCAATAATAAAGTGAGCCCACCTTCCTGGTACCCAGACATTTCAGGAGGTCGGGAAA
>scaffold2
TGGAGTACCAATAATAAAGTGAGCCCACCTT
>scaffold3
CCTGGTACCCAGACATTTCGAGTACCAATAATAAAGTGA
>scaffold4
AAAAAAAAGCTACTTGGAGTACCAATAATAAA
gtf文件
GTF全称Gene transfer format, 每列的含义如下
1. column1
第一列是seqid, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。
2. column2
第二列是source, 代表基因结构的来源,可以为空,用.点号填充。
3. column3
第三列是feature, 代表区间对应的特征类型,
4. column4
第四列是start, 代表区间的起始位置
5. column5
第五列是end, 代表区间的终止位置
6. column6
第六列是score, 软件提供了统计值,如果没有,就用.填充
7. column7
第七列是strand, 代表正负链的信息, +表示正链,-表示负链,?表示不清楚正负链的信息。没有可以用.填充
8. column8
第八列是phase,当描述的是CDS区间信息时,需要指定翻译时开始的位置,取值范围有0,1,2两种
9. column9
第九列是attributes, 表示属性,每种属性写法为key value, 注意和gff中key=value有所区别,而且必须有gene_id和transcript_id这两个属性, 多个属性用分号分隔
结果
提取出的序列文件
12. kallisto建索引
介绍
kallisto采用一种被称作伪比对(pseudoalignment)的方式直接将测序片段直接比对到cDNA序列然后定量
在定量之前需要对参考序列构建索引。
输入
fasta文件:
拼接组装后的fasta文件
格式例如
>seqname1
AAAAAAAAGCTACTTGGAGTACCAATAATAAAGTGAGCCCACCTTCCTGGTACCCAGACATTTC
>seqname2
GGAGTACCAATAATAAAGTGAGCCCACCTTCCTGGTACCCAGAC
kmer: kmer长度值
结果
索引文件,用于后续定量分析
13. kallisto定量
介绍
kallisto采用一种被称作伪比对(pseudoalignment)的方式直接将测序片段直接比对到cDNA序列然后定量
输入
索引路径: kallisto构建的索引路径
fq1,fq2 文件: 左右端reads数据,fastq格式
结果
abundance.tsv 结果文件
例如
target_id length eff_length est_counts tpm
TRINITY_DN1_c0_g1_i1 256 37.4003 5 9463.28
TRINITY_DN3_c0_g1_i1 298 62.2018 4 4552.01
TRINITY_DN5_c0_g1_i1 299 62.551 4.70209 5321.12
TRINITY_DN5_c0_g2_i1 260 39.7381 9.29791 16562.4