通明学练教程-生物信息数据库

UniProt（Universal Protein Resource）是一个综合性的蛋白质数据库，它由欧洲生物信息学研究所（EMBL-EBI）、瑞士生物信息学研究所（SIB）和美国国家生物技术信息中心（NCBI）共同维护。UniProt的目标是为全球科研人员提供全面、准确和高质量的蛋白质数据。 UniProt数据库主要包括三个部分：UniProtKB（知识库）、UniParc（序列库）和UniRef（聚类库）。 1. UniProtKB：这是UniProt的核心部分，包含了所有已知蛋白质的详细信息，包括其氨基酸序列、功能注释、结构域信息、同源性信息、翻译后修饰信息等。UniProtKB又分为两个子库：Swiss-Prot和TrEMBL。Swiss-Prot是经过人工审核和注释的高质量蛋白质序列库，而TrEMBL则是通过自动化方法生成的蛋白质序列库。 2. UniParc：这是一个包含所有公开可用蛋白质序列的数据库，不论这些序列是否已经被注释或研究过。UniParc的主要目的是为了保存蛋白质序列的原始版本，以防止因后续的数据库更新或修改而导致的信息丢失。 3. UniRef：这个库将UniProtKB中的蛋白质序列按照90%以上的序列相似性进行聚类，形成UniRef50、UniRef90和UniRef100三个子库。这种聚类方式有助于减少大规模数据分析中的冗余，并可以提高计算效率。总的来说，UniProt是一个非常重要的生物信息学资源，对于理解蛋白质的功能、结构和相互作用等方面的研究具有重要价值。 3.2 Protein Data Bank (PDB) Protein Data Bank (PDB) 是一个全球性的数据库，用于存储和分享蛋白质、核酸以及大分子复合物的三维结构信息。它是由世界卫生组织（WHO）下属的国际生物化学与分子生物学联合会（IUBMB）赞助的一个非营利性项目。 PDB的历史可以追溯到1971年，当时研究人员开始使用X射线晶体学和核磁共振光谱法来解析蛋白质的三维结构。这些数据需要被妥善保存并提供给其他研究者使用，因此在1971年，美国布鲁克海文国家实验室的研究人员创建了第一个PDB文件。从那时起，PDB已经发展成为一个包含超过150,000个分子结构的大型数据库。 PDB中的每个结构都以原子级别进行描述，并且包括了所有原子的位置、类型和键长等信息。这些信息对于理解蛋白质的功能、设计药物以及进行基础科学研究都是非常重要的。除了储存结构信息外，PDB还提供了许多工具和资源，帮助研究者们分析和解读这些数据。例如，PDB搜索引擎可以帮助用户查找特定的蛋白质结构；PDB-101则是一个教育资源中心，为教师和学生提供了关于蛋白质结构和功能的教育材料。总的来说，Protein Data Bank是一个非常宝贵的资源，对生命科学领域的研究和发展起到了重要的推动作用。