蛋白质序列和结构数据库是生物信息学领域中重要的资源,它们收集并整理了大量蛋白质的序列和三维结构数据。这些数据库为研究人员提供了宝贵的信息,帮助他们理解蛋白质的功能、相互作用以及进化历程。
以下是几个主要的蛋白质序列和结构数据库:
1. UniProt:UniProt是一个综合性的蛋白质数据库,包含了经过专家审查的蛋白质序列和功能注释。它分为三个部分:Swiss-Prot(高质量的手动注释序列)、TrEMBL(自动注释序列)和UniParc(所有序列的中心存档库)。
2. Protein Data Bank (PDB):PDB是世界上最大的三维结构数据库,存储了蛋白质、核酸、复合物和其他生物大分子的实验确定的三维结构。每个结构都由一个唯一的四位数字代码标识,例如1AKE。
3. RCSB PDB:RCSB Protein Data Bank是PDB在美国的主要分销商,提供了一个用户友好的界面来搜索和浏览PDB中的结构数据。
4. NCBI Protein:NCBI Protein是美国国立生物技术信息中心(National Center for Biotechnology Information, NCBI)提供的蛋白质数据库,包含了大量的蛋白质序列和相关元数据。
5. Pfam:Pfam是一个蛋白质家族数据库,通过使用隐藏马尔可夫模型(Hidden Markov Model, HMM)对蛋白质家族进行分类和注释。
6. CATH和SCOP:CATH和SCOP是两个分类蛋白质结构的数据库,它们将已知的蛋白质结构划分为不同的折叠类别和超家族。
7. STRING:STRING是一个蛋白质相互作用数据库,提供了蛋白质之间的物理和功能性相互作用网络。
8. InterPro:InterPro是一个集成数据库,整合了多个签名数据库(如Pfam和PROSITE)的注释结果,提供了一种统一的方式来描述蛋白质家族、域和功能位点。
这些数据库为研究人员提供了丰富的资源,帮助他们更好地理解和探索蛋白质世界。