生信通明教程-生物信息数据库

蛋白质序列和结构数据库是生物信息学领域中重要的资源，它们收集并整理了大量蛋白质的序列和三维结构数据。这些数据库为研究人员提供了宝贵的信息，帮助他们理解蛋白质的功能、相互作用以及进化历程。以下是几个主要的蛋白质序列和结构数据库： 1. UniProt：UniProt是一个综合性的蛋白质数据库，包含了经过专家审查的蛋白质序列和功能注释。它分为三个部分：Swiss-Prot（高质量的手动注释序列）、TrEMBL（自动注释序列）和UniParc（所有序列的中心存档库）。 2. Protein Data Bank (PDB)：PDB是世界上最大的三维结构数据库，存储了蛋白质、核酸、复合物和其他生物大分子的实验确定的三维结构。每个结构都由一个唯一的四位数字代码标识，例如1AKE。 3. RCSB PDB：RCSB Protein Data Bank是PDB在美国的主要分销商，提供了一个用户友好的界面来搜索和浏览PDB中的结构数据。 4. NCBI Protein：NCBI Protein是美国国立生物技术信息中心（National Center for Biotechnology Information, NCBI）提供的蛋白质数据库，包含了大量的蛋白质序列和相关元数据。 5. Pfam：Pfam是一个蛋白质家族数据库，通过使用隐藏马尔可夫模型（Hidden Markov Model, HMM）对蛋白质家族进行分类和注释。 6. CATH和SCOP：CATH和SCOP是两个分类蛋白质结构的数据库，它们将已知的蛋白质结构划分为不同的折叠类别和超家族。 7. STRING：STRING是一个蛋白质相互作用数据库，提供了蛋白质之间的物理和功能性相互作用网络。 8. InterPro：InterPro是一个集成数据库，整合了多个签名数据库（如Pfam和PROSITE）的注释结果，提供了一种统一的方式来描述蛋白质家族、域和功能位点。这些数据库为研究人员提供了丰富的资源，帮助他们更好地理解和探索蛋白质世界。